Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 26]
Нормализация наклона В задачах распознавания рукописных текстов и при распознавании курсивного типографского текста важно избавиться от влияния наклона символов на значения классификационных признаков.
Для этого применяются схемы устранения или нормализации наклона [7].
В отличие от нормализации размера, которую можно применять к каждому символу независимо, исправление наклона символов обычно распространяется на целое слово или на всю строку.
Это связано с тем, что по изображению одного символа сложно или даже невозможно априорно вычислить его наклон.
Поэтому коррекцию наклона лучше делать в большом фрагменте текста, полагаясь на статистическое сглаживание индивидуальных особенностей символов [8].
Для оценки наклона можно вычислить средний наклон длинных вертикальных штрихов.
Такая схема в целом работает хорошо, но для специфических случаев может давать сбои (например, на длинной строке, состоящей из одних нулей, у которых нет прямолинейных вертикальных элементов).
Нелинейная нормализация Применительно к ряду задач (в частности, к распознаванию иероглифического письма) были предложены схемы априорной нелинейной нормализации [9].
Обычно такая нормализация задается двумя монотонными непрерывными функциями Рх и Ру> которые отображают исходное изображение в нормализованное так, что точка (х, у) переходит в точку (Рх(х), Ру(у))Функции Рх и Ру выбираются таким образом, чтобы вдоль соответствующей оси получалось равномерное распределение массы или какогонибудь другого параметра, например числа переходов «черно-белое».
Для алфавитного письма, судя по отсутствию опубликованных работ, нелинейная нормализация нс получило сколько-нибудь заметного распространения.
Бинаризация При вводе изображения документа в компьютер всегда желательно сохранить максимум информации, присутствующей во входном документе.
Современные устройства ввода изображений способны надежно работать не только с черно-белыми (бинарными) изображениями (2 градации), но и с полутоновыми (обычно 16 или 256 26

[стр. 11]
предположение, что штрих имеет форму вытянутого прямоугольника, ширину которого легко вычислить, зная периметр и площадь.
Нормализация толщины заключается в равномерном расширении или сжатии контура символа на заданную величину.
Если в процессе обработки производится векторизация изображения, то в оценке и корректировке толщины штриха можно использовать векторное изображение.
Нормализация толщины штриха может производиться как с одинаковым коэффициентом для вертикальных и горизонтальных штрихов, так и с разными коэффициентами.
Использование одинакового коэффициента безопаснее сточки зрения внесения неоправданных искажений в изображения символа, но зато использование разных коэффициентов дает возможность сильнее подавить вариабельность символов, поскольку' некоторые пишущие инструменты, например перьевая ручка, порождают штрих с толщиной, зависящей от направления движения пера.
Нормализация наклона В задачах распознавания рукописных текстов и при распознавании курсивного типографского текста важно избавиться от влияния наклона символов на значения классификационных признаков.
Для этого применяются схемы устранения или нормализации наклона [5].
В отличие от нормализации размера, которую можно применять к каждому символу независимо, исправление наклона символов обычно распространяется на целое слово или на всю строку.
Это связано с тем, что по изображению одного символа сложно или даже невозможно априорно вычислить его наклон.
Поэтому коррекцию наклона лучше делать в большом фрагменте текста, полагаясь на статистическое сглаживание индивидуальных особенностей символов [6].
Для оценки наклона можно вычислить средний наклон длинных вертикальных штрихов.
Такая схема хорошо работает в среднем, но для специфических случаев может давать сбои (например на длинной строке состоящей из одних нулей, у которых нет прямолинейных вертикальных элементов).
Нелинейная нормализация Применительно к ряду задач (в частности, к распознаванию иероглифического письма) были предложены схемы априорной нелинейной нормализации [7].
Обычно такая нормализация задается двумя монотонными непрерывными функциями Рх и Ру, которые отображают исходное изображение в нормализованное так, что точка (х, у) переходит в 11

[стр.,12]
точку (Рх(х), Ру(у».
Функции Рх и Ру выбираются таким образом, чтобы вдоль соответствующей оси получалось равномерное распределение массы или какого-нибудь другого параметра, например числа переходов "черное-белое".
Для алфавитного письма, судя по отсутствию опубликованных работ, использование нелинейной нормализация не получило сколько-нибудь заметного распространения.
Бинаризация При вводе изображения документа в компьютер всегда желательно сохранить максимум информации, присутствующей во входном документе.
Современные устройства ввода изображений способны надежно работать не только с черно-белыми (бинарными) изображениями (2 градации), но и с полутоновыми (обычно 16 или 256 градаций) и даже с цветными (обычно это три цвета КОВ по 256 градаций на цвет).
В идеале система распознавания должна работать с полной информацией на всех этапах обработки изображения.
Но, к сожалению, практическая реализация этого подхода сталкивается с существенными трудностями.
Первая, наиболее существенная проблема заключается в том, что полутоновые и цветные изображения занимают, соответственно, в 8 и в 24 раза больше оперативной памяти компьютера, чем бинарные.
Во многих ситуациях это приводит к недостижимо высоким требованиям программы к объему доступной оперативной памяти.
Кроме того, большой объем данных прямо влияет на время работы программы, что является вторым серьезнейшим аргументом против использования полутоновых и цветных изображений [8].
Вторая проблема заключается в том, что разработанные эффективные методы обработки черно-белых изображений в существенной мере опираются именно на свойство бинарности изображения, как, например, метод выделения по графу связности контура [9].
Подводя итоги, можно вполне определенно утверждать, что в большинстве практических реализаций систем автоматического распознавания текстовой информации в том или ином виде используется бинарное изображение.
Существует несколько возможных схем его получения.
Простейший вариант заключается в том, чтобы осуществить переход к бинарному изображению непосредственно в момент сканирования.
Для этого сканеру необходимо сообщить фиксированный порог яркости, который определяет границу междучерным и белым.
Этот подход хорошо работает в 12

[Back]