УЧЕНИЧЕСКИ ИНСТИТУТ ПО МАТЕМАТИКА И ИНФОРМАТИКА


ПЕТА ЛЯТНА ИЗСЛЕДОВАТЕЛСКА ШКОЛА

24 юли – 12 август 2005 г., ДИПКУ – Варна



Дигитализация и разпознаване на стари документи

Николай Киров



1 и 2 август 2005 г., понеделник и вторник
09:00 – 10:30 Лекции
17:30 - 19:00 Упражнения
Информатика


Програма “Мария Кюри” на Европейската комисия – проект “Дигитализация на културно и научно наследство в България”

Съдържание


Първа част. Дигитализация на културното и научно наследство

    1. Значение на дигитализацията
    Ще отговорим на въпросите: какво се дигитализира, защо се дигитализира, как се дигитализира?
    2. Технология за дигитализация на документи
    Класическата технология се състои от сканиране на документа, отделяне на текстов и снимков материал, разпознаване на текста (с използване на речник) и съхранение на документа в база данни, като се добави описание на документа, включващо класификация, основни характеристики и др. (т.нар. метаданни).
    3. Търсене в текстови документи
    Стандартната технология за търсене включва следните 3 етапи: сканиране на текста, разпознаване и произвеждане на ASCII или Unicode файл и търсене в текстов файл. При прилагане на тази технология за стари документи възникват някои трудности: при сканиране (лошо състояние на документа, пожълтяла хартия, избледняло мастило, зацапвания и допълнителни бележки върху текста) и при разпознаване (наличие на шум в изображението, трудности при сегментирането на символите, наличие на букви, които не са от съвременната азбука, остарели думи, които ги няма в съвременен речник, ръкописи). Затова често се прилага друг подход за търсене в стари документи който се състои от:
    * сканиране на текста в сивата скала;
    * трансформация на изображението за получаване на качествено черно-бяло изображение;
    * сегментиране на думите от текста;
    * търсене на дума, поредица от думи или части от дума в черно-бялото изображение.
    4. Хардуер и софтуер за дигитализация и разпознаване на текст
    Ще се запознаем с различни видове скенери, режими на работа и настройки за получаване на качествено изображение. Ще разгледаме принципите на работа на програми за сканиране и обработка на изображения и разпознаване на текст.
    5. Инсталиране и работа с програмата ABBYY FineReader
    Това е една от най-добрите програми за сканиране и обработка на изображения и за разпознаване на печатен текст.

Втора част. Елементи на дигитализацията и разпознаването

    1. Графични и текстови формати, кодиране на текст
    Ще разгледаме точкови и векторни формати за графични изображения с техните характеристики - разделителна способност, цвят, размер, компресия и др. По-детайлно ще изучим формата pgm (Portable GrayMap), който ще използваме в по-нататъшната работа. Ще обсъдим предназначението, вътрешната организация, предимствата и недостатъците на различните текстови формати - txt, doc, rtf, html, pdf, ps и др. Ще се спрем и на раз-личните кодировки (ASCII и Уникод) за представяне на българските букви в текстови файлове.
    2. Преобразуване на сиво или цветно изображение в качествен черно-бял образ
    Ще разгледаме глобални и локални методи за определянето на прагова стойност за преобразуване на сивото в черно или бяло за изображения, съдържащи текст. Ще се спрем на два глобални метода с построяване на хистограми - за разпределението на сивия цвят и за разпределението на броя на свързаните черни обекти при различни стойности на прага.
    3. Отделяне (сегментация) на символи и думи в сканиран текст
    Отделянето на редовете в черно-бяло изображение, състоящо се от една страница от текстов документ, се извършва с построяването на хоризонтална хистограма на черните пиксели. Ако редовете са хоризонтални, то хистограмата ще има нулеви стойности между редовете. Отделянето на буквите или думите се прави с помощта на вертикална хистограма на отделен ред. Когато символите или думите са добре разделени, то хистограмата ще има нулеви стойности между символите или думите.
    4. Задача за търсене и измерване на резултата от търсенето
    Дадено е множество от обекти, избираме един обект от множеството (шаблон) и търсим други, подобни на него обекти. Подобието дефинираме с помощта на някаква метрика, т.е. можем да измерваме “разстояние” (неотрицателно число) между всеки два елемента на множеството и колкото това число е по-малко, толкова обектите са “по-подобни”. По такъв начин можем да наредим всички обекти от множеството в зависимост от разстоянието им до шаблона. Колкото по-напред в наредбата са търсените обекти, толкова по-успешно е търсенето. Това всъщност е идеята за измерване на резултата от търсенето.
    5. Измерване на подобие на думи с помощта на Хаусдорфова метрика
    Ще разгледаме различни начини за дефиниране на разстояние между две точки в равнината. Ще изследваме свойствата на различните разстояния. Ще дефинираме и изучим Хаусдорфово разстояние между две множества в равнината. За целите на сравняването на думи ще дефинираме “сумирано” Хаусдорфово разстояние и с негова помощ ще измерваме “разстояние” между думи, представени като pgm файлове.