Co je OCR

Představte si, že chcete digitalizovat nějaký článek z časopisu nebo papírovou smlouvu. Přepisováním a opravou překlepů můžete strávit celé hodiny. Nebo můžete všechny požadované materiály do digitálních formátů převést během několika minut s použitím skeneru (nebo digitálního fotoaparátu) a softwaru pro Optické rozpoznávání znaků.





Co přesně znamená OCR?

Optické rozpoznávání znaků neboli OCR je technologie, která vám umožňuje převádět různé typy dokumentů, jako jsou naskenované papírové dokumenty, PDF soubory nebo fotografie, zachycené digitálním fotoaparátem, na data s možností vyhledávání a úprav. 

Představte si, že máte nějaký papírový dokument – například článek z časopisu, brožury nebo smlouvu ve formátu PDF, kterou vám partner poslal e-mailem. Pro zpřístupnění této informace dejme tomu v aplikaci Microsoft Word skener evidentně nestačí. Skener totiž dokáže vytvořit jen obraz nebo fotografii dokumentu, která není ničím víc než sbírkou černých a bílých nebo barevných teček, kterým se říká rastrový obrázek. Pokud chcete extrahovat a znovu použít data z naskenovaných dokumentů, obrázků z fotoaparátu nebo pouze z obrazového souboru PDF, budete potřebovat nějaký OCR software, který dokáže rozpoznat z obrázku písmena, poskládat je do slov a slova potom do vět, takže můžete upravovat obsah původního dokumentu.

Jaká technologie se v OCR skrývá?

Přesný mechanismus, který lidem umožňuje rozpoznávat předměty, je ještě potřeba pochopit, vědci již ale znají tři základní principy – integritu, účelnost a adaptabilitu (integrity, purposefulness and adaptability – IPA*). Tyto principy představují jádro ABBYY FineReader OCR, který umožňuje replikovat přírodní nebo téměř lidské rozpoznávání.

Podívejme se, jak FineReader OCR rozpoznává text. Program napřed analyzuje strukturu obrazu dokumentu. Rozdělí stránku na části, jako jsou textové bloky, tabulky, obrázky atd. Řádky jsou rozděleny do slov a ty potom do znaků. Jakmile jsou rozlišeny jednotlivé znaky, program je porovná se sadou vzorových obrazů. Ta nabízí několik hypotéz, čím by tento znak mohl být. Na základě těchto hypotéz pak program analyzuje různé varianty rozdělení řádků do slov a slov na znaky. Po zpracování velkého množství takových pravděpodobnostních hypotéz se program nakonec rozhodne a předloží vám rozpoznaný text. 

ABBYY FineReader vám kromě toho nabízí slovníkovou podporu 36 jazyků. To umožňuje sekundární analýzu textových prvků na úrovni slov. S podporou slovníku program zajistí ještě přesnější analýzu a rozpoznávání dokumentů a zjednodušuje další ověřování výsledků rozpoznávání.

* IPA 

Na jakém principu je OCR FineReader založen?

Nejvyspělejší systémy rozpoznávání, jako je OCR ABBYY FineReader, se soustřeďují na napodobení přírodního nebo „zvířecího“ rozpoznávání. V srdci těchto systémů spočívají tři základní principy: Integrita, účelnost a adaptabilita. Princip integrity říká, že pozorovaný objekt musíme vždy pokládat za „celek“, sestávající z mnoha souvisejících částí. Princip účelovosti předpokládá, že veškerý výklad dat musí vždy sloužit nějakému účelu. A princip adaptability znamená, že program musí být schopen se sám učit.

Na to, aby člověk pochopil výhody OCR aplikace, založené na principech IPA, nemusí být specialistou na OCR. Tyto principy dodávají programu maximální flexibilitu a inteligenci, takže jej co možná nejvíce přibližují lidskému rozpoznávání.

Společnost ABBYY byla po mnoha letech výzkumů schopna výše popsané principy IPA začlenit do svých technologií OCR.

Rozpoznávání fotografií z digitálních fotoaparátů

Obrázky, zachycené digitálním fotoaparátem se od naskenovaných dokumentů nebo pouze obrazových PDF dokumentů liší. Často obsahují chyby, jako je zkreslení na okrajích nebo podsvícení, takže pro většinu OCR aplikací je obtížné text rozpoznat správně. Nejnovější verze aplikace ABBYY FineReader podporuje adaptivní technologii rozpoznávání, specificky navrženou pro zpracování fotografií z digitálních fotoaparátů. Nabízí celou řadu vlastností pro zlepšení kvality takových obrázků, čímž vám umožňují plně využít možností svých digitálních přístrojů.

Více informací o Rozpoznávání OCR z digitálních fotoaparátů naleznete zde.

Jak OCR software používat?

Použití ABBYY FineReader OCR je snadné: tento proces obecně sestává z tří fází: Otevření (skenování) dokumentu, Rozpoznávání a Uložení ve vhodném formátu (DOC, RTF, XLS, PDF, HTML, TXT etc.), nebo exportu dat přímo do některé z aplikací Office, jako jsou Microsoft Word, Excel nebo Adobe Acrobat.

Nejnovější verze aplikace ABBYY FineReader podporuje režim Automatických úloh, který je důležitý, pokud pravidelně řešíte rutinní úlohy. S touto utilitou běží úlohy rozpoznávání automaticky bez nutnosti manuálního provádění všech výše uvedených kroků. 

Jaké výhody vám OCR přináší?

Více informací o tom, jak vám může OCR software pomoci v každodenním životě, naleznete zde.