Košík je prázdný

Optické rozpoznávání znaků (OCR) je technologie, která umožňuje konverzi různých typů dokumentů, jako jsou skenované papírové dokumenty, PDF soubory nebo obrázky pořízené fotoaparátem, na upravitelný a vyhledávatelný text. Jednou z nejpopulárnějších a volně dostupných OCR knihoven je Tesseract. V tomto článku se zaměříme na konfiguraci a použití Tesseract OCR na operačním systému CentOS pro převod skenovaných dokumentů a obrázků na text.

Instalace Tesseract OCR

Pro instalaci Tesseract OCR na CentOS je nejprve potřeba přidat repozitář EPEL (Extra Packages for Enterprise Linux), protože Tesseract není dostupný v základních repozitářích CentOS. To lze provést pomocí následujícího příkazu:

sudo yum install epel-release

Po přidání repozitáře EPEL můžete nainstalovat Tesseract spuštěním následujícího příkazu:

sudo yum install tesseract

Tesseract podporuje mnoho jazyků, takže pokud potřebujete rozpoznávat text v jiném jazyce než je angličtina, měli byste nainstalovat také příslušné jazykové balíčky. Například pro instalaci českého jazykového balíčku použijte:

sudo yum install tesseract-langpack-ces

Konfigurace Tesseract OCR

Po instalaci Tesseract není potřeba žádná speciální konfigurace. Tesseract je připraven k použití s defaultními nastaveními, která jsou optimální pro mnoho scénářů. Příkazová řádka Tesseract nabízí různé možnosti pro manipulaci s vstupními obrázky a výstupními textovými soubory.

Použití Tesseract OCR

Pro převod obrázku na text pomocí Tesseract použijte následující syntaxi v příkazové řádce:

tesseract [input_file] [output_base] -l [lang_code]
  • [input_file] je cesta k obrázku, který chcete převést.
  • [output_base] je základní název výstupního souboru (bez přípony). Tesseract automaticky přidá příponu .txt k názvu souboru.
  • -l [lang_code] určuje jazyk textu na obrázku. Například pro češtinu použijte -l ces.

Příklad příkazu pro převod obrázku dokument.png na text v češtině:

tesseract dokument.png vystup -l ces

Po spuštění tohoto příkazu vytvoří Tesseract textový soubor vystup.txt obsahující rozpoznaný text z obrázku.

Pokročilé možnosti

Tesseract nabízí řadu pokročilých možností pro zlepšení kvality rozpoznávání textu nebo pro práci s PDF soubory. Například můžete použít možnost --dpi k explicitnímu určení rozlišení skenovaného dokumentu, což může pomoci v případě, že automatická detekce selže.

Pro vytvoření PDF souboru s vyhledávatelným textem použijte možnost `-c textonly_pdf=1společně s výstupním formátem.pdf`:

tesseract input_file output_base -l lang_code pdf

To generuje PDF soubor, kde text je vyhledávatelný a lze ho kopírovat, přestože zůstává v původní vizuální formě dokumentu.

Optimalizace pro lepší výsledky

Při používání Tesseract OCR můžete narazit na různé výzvy, jako je rozpoznávání textu na obrázcích s nízkou kvalitou nebo v dokumentech s neobvyklým rozvržením. Pro zlepšení výsledků rozpoznávání můžete:

  • Použít nástroje pro předzpracování obrázků, jako jsou ImageMagick nebo OpenCV, pro zlepšení kvality obrázků před jejich zpracováním pomocí Tesseract. Toto může zahrnovat úpravy kontrastu, odstranění šumu, nebo binarizaci obrázku.
  • Experimentovat s různými nastaveními Tesseract, jako jsou jemnější možnosti konfigurace pomocí konfiguračních souborů.
  • Použít Page Segmentation Mode (PSM) a Output Base Format (OEM) možnosti pro zlepšení rozpoznávání v závislosti na typu dokumentu.

 

Tesseract OCR je výkonný nástroj pro převod skenovaných dokumentů a obrázků na text, který je k dispozici zdarma a lze ho snadno nainstalovat a používat na CentOS. Díky široké podpoře jazyků a možnostem pro pokročilé zpracování může být Tesseract užitečným nástrojem pro automatizaci zpracování dokumentů v různých aplikacích, od digitálního archivování po rozpoznávání textu pro analýzu dat. Pro dosažení nejlepších výsledků je důležité provádět předzpracování obrázků a optimalizovat nastavení OCR podle konkrétních potřeb vašich projektů.