Нормализация наклона В задачах распознавания рукописных текстов и при распознавании курсивного типографского текста важно избавиться от влияния наклона символов на значения классификационных признаков. Для этого применяются схемы устранения или нормализации наклона [7]. В отличие от нормализации размера, которую можно применять к каждому символу независимо, исправление наклона символов обычно распространяется на целое слово или на всю строку. Это связано с тем, что по изображению одного символа сложно или даже невозможно априорно вычислить его наклон. Поэтому коррекцию наклона лучше делать в большом фрагменте текста, полагаясь на статистическое сглаживание индивидуальных особенностей символов [8]. Для оценки наклона можно вычислить средний наклон длинных вертикальных штрихов. Такая схема в целом работает хорошо, но для специфических случаев может давать сбои (например, на длинной строке, состоящей из одних нулей, у которых нет прямолинейных вертикальных элементов). Нелинейная нормализация Применительно к ряду задач (в частности, к распознаванию иероглифического письма) были предложены схемы априорной нелинейной нормализации [9]. Обычно такая нормализация задается двумя монотонными непрерывными функциями Рх и Ру> которые отображают исходное изображение в нормализованное так, что точка (х, у) переходит в точку (Рх(х), Ру(у))Функции Рх и Ру выбираются таким образом, чтобы вдоль соответствующей оси получалось равномерное распределение массы или какогонибудь другого параметра, например числа переходов «черно-белое». Для алфавитного письма, судя по отсутствию опубликованных работ, нелинейная нормализация нс получило сколько-нибудь заметного распространения. Бинаризация При вводе изображения документа в компьютер всегда желательно сохранить максимум информации, присутствующей во входном документе. Современные устройства ввода изображений способны надежно работать не только с черно-белыми (бинарными) изображениями (2 градации), но и с полутоновыми (обычно 16 или 256 26 |
предположение, что штрих имеет форму вытянутого прямоугольника, ширину которого легко вычислить, зная периметр и площадь. Нормализация толщины заключается в равномерном расширении или сжатии контура символа на заданную величину. Если в процессе обработки производится векторизация изображения, то в оценке и корректировке толщины штриха можно использовать векторное изображение. Нормализация толщины штриха может производиться как с одинаковым коэффициентом для вертикальных и горизонтальных штрихов, так и с разными коэффициентами. Использование одинакового коэффициента безопаснее сточки зрения внесения неоправданных искажений в изображения символа, но зато использование разных коэффициентов дает возможность сильнее подавить вариабельность символов, поскольку' некоторые пишущие инструменты, например перьевая ручка, порождают штрих с толщиной, зависящей от направления движения пера. Нормализация наклона В задачах распознавания рукописных текстов и при распознавании курсивного типографского текста важно избавиться от влияния наклона символов на значения классификационных признаков. Для этого применяются схемы устранения или нормализации наклона [5]. В отличие от нормализации размера, которую можно применять к каждому символу независимо, исправление наклона символов обычно распространяется на целое слово или на всю строку. Это связано с тем, что по изображению одного символа сложно или даже невозможно априорно вычислить его наклон. Поэтому коррекцию наклона лучше делать в большом фрагменте текста, полагаясь на статистическое сглаживание индивидуальных особенностей символов [6]. Для оценки наклона можно вычислить средний наклон длинных вертикальных штрихов. Такая схема хорошо работает в среднем, но для специфических случаев может давать сбои (например на длинной строке состоящей из одних нулей, у которых нет прямолинейных вертикальных элементов). Нелинейная нормализация Применительно к ряду задач (в частности, к распознаванию иероглифического письма) были предложены схемы априорной нелинейной нормализации [7]. Обычно такая нормализация задается двумя монотонными непрерывными функциями Рх и Ру, которые отображают исходное изображение в нормализованное так, что точка (х, у) переходит в 11 точку (Рх(х), Ру(у». Функции Рх и Ру выбираются таким образом, чтобы вдоль соответствующей оси получалось равномерное распределение массы или какого-нибудь другого параметра, например числа переходов "черное-белое". Для алфавитного письма, судя по отсутствию опубликованных работ, использование нелинейной нормализация не получило сколько-нибудь заметного распространения. Бинаризация При вводе изображения документа в компьютер всегда желательно сохранить максимум информации, присутствующей во входном документе. Современные устройства ввода изображений способны надежно работать не только с черно-белыми (бинарными) изображениями (2 градации), но и с полутоновыми (обычно 16 или 256 градаций) и даже с цветными (обычно это три цвета КОВ по 256 градаций на цвет). В идеале система распознавания должна работать с полной информацией на всех этапах обработки изображения. Но, к сожалению, практическая реализация этого подхода сталкивается с существенными трудностями. Первая, наиболее существенная проблема заключается в том, что полутоновые и цветные изображения занимают, соответственно, в 8 и в 24 раза больше оперативной памяти компьютера, чем бинарные. Во многих ситуациях это приводит к недостижимо высоким требованиям программы к объему доступной оперативной памяти. Кроме того, большой объем данных прямо влияет на время работы программы, что является вторым серьезнейшим аргументом против использования полутоновых и цветных изображений [8]. Вторая проблема заключается в том, что разработанные эффективные методы обработки черно-белых изображений в существенной мере опираются именно на свойство бинарности изображения, как, например, метод выделения по графу связности контура [9]. Подводя итоги, можно вполне определенно утверждать, что в большинстве практических реализаций систем автоматического распознавания текстовой информации в том или ином виде используется бинарное изображение. Существует несколько возможных схем его получения. Простейший вариант заключается в том, чтобы осуществить переход к бинарному изображению непосредственно в момент сканирования. Для этого сканеру необходимо сообщить фиксированный порог яркости, который определяет границу междучерным и белым. Этот подход хорошо работает в 12 |