Optické rozpoznávání znaků (OCR) je technologie, která umožňuje konverzi různých typů dokumentů, jako jsou skenované papírové dokumenty, PDF soubory nebo obrázky pořízené fotoaparátem, na upravitelný a vyhledávatelný text. Jednou z nejpopulárnějších a volně dostupných OCR knihoven je Tesseract. V tomto článku se zaměříme na konfiguraci a použití Tesseract OCR na operačním systému CentOS pro převod skenovaných dokumentů a obrázků na text.
Instalace Tesseract OCR
Pro instalaci Tesseract OCR na CentOS je nejprve potřeba přidat repozitář EPEL (Extra Packages for Enterprise Linux), protože Tesseract není dostupný v základních repozitářích CentOS. To lze provést pomocí následujícího příkazu:
sudo yum install epel-release
Po přidání repozitáře EPEL můžete nainstalovat Tesseract spuštěním následujícího příkazu:
sudo yum install tesseract
Tesseract podporuje mnoho jazyků, takže pokud potřebujete rozpoznávat text v jiném jazyce než je angličtina, měli byste nainstalovat také příslušné jazykové balíčky. Například pro instalaci českého jazykového balíčku použijte:
sudo yum install tesseract-langpack-ces
Konfigurace Tesseract OCR
Po instalaci Tesseract není potřeba žádná speciální konfigurace. Tesseract je připraven k použití s defaultními nastaveními, která jsou optimální pro mnoho scénářů. Příkazová řádka Tesseract nabízí různé možnosti pro manipulaci s vstupními obrázky a výstupními textovými soubory.
Použití Tesseract OCR
Pro převod obrázku na text pomocí Tesseract použijte následující syntaxi v příkazové řádce:
tesseract [input_file] [output_base] -l [lang_code]
[input_file]
je cesta k obrázku, který chcete převést.
[output_base]
je základní název výstupního souboru (bez přípony). Tesseract automaticky přidá příponu .txt
k názvu souboru.
-l [lang_code]
určuje jazyk textu na obrázku. Například pro češtinu použijte -l ces
.
Příklad příkazu pro převod obrázku dokument.png
na text v češtině:
tesseract dokument.png vystup -l ces
Po spuštění tohoto příkazu vytvoří Tesseract textový soubor vystup.txt
obsahující rozpoznaný text z obrázku.
Pokročilé možnosti
Tesseract nabízí řadu pokročilých možností pro zlepšení kvality rozpoznávání textu nebo pro práci s PDF soubory. Například můžete použít možnost --dpi
k explicitnímu určení rozlišení skenovaného dokumentu, což může pomoci v případě, že automatická detekce selže.
Pro vytvoření PDF souboru s vyhledávatelným textem použijte možnost `-c textonly_pdf=1společně s výstupním formátem
.pdf`:
tesseract input_file output_base -l lang_code pdf
To generuje PDF soubor, kde text je vyhledávatelný a lze ho kopírovat, přestože zůstává v původní vizuální formě dokumentu.
Optimalizace pro lepší výsledky
Při používání Tesseract OCR můžete narazit na různé výzvy, jako je rozpoznávání textu na obrázcích s nízkou kvalitou nebo v dokumentech s neobvyklým rozvržením. Pro zlepšení výsledků rozpoznávání můžete:
- Použít nástroje pro předzpracování obrázků, jako jsou ImageMagick nebo OpenCV, pro zlepšení kvality obrázků před jejich zpracováním pomocí Tesseract. Toto může zahrnovat úpravy kontrastu, odstranění šumu, nebo binarizaci obrázku.
- Experimentovat s různými nastaveními Tesseract, jako jsou jemnější možnosti konfigurace pomocí konfiguračních souborů.
- Použít Page Segmentation Mode (PSM) a Output Base Format (OEM) možnosti pro zlepšení rozpoznávání v závislosti na typu dokumentu.
Tesseract OCR je výkonný nástroj pro převod skenovaných dokumentů a obrázků na text, který je k dispozici zdarma a lze ho snadno nainstalovat a používat na CentOS. Díky široké podpoře jazyků a možnostem pro pokročilé zpracování může být Tesseract užitečným nástrojem pro automatizaci zpracování dokumentů v různých aplikacích, od digitálního archivování po rozpoznávání textu pro analýzu dat. Pro dosažení nejlepších výsledků je důležité provádět předzpracování obrázků a optimalizovat nastavení OCR podle konkrétních potřeb vašich projektů.