Атрибуты_эталона: Максимальное_число_пройденных_отрезков=400; Конец Атрибутов эталона Отрезок ОЛ Атрибуты: Локализация_в_начале: точка = НРл.начало, расстояние = 0 . 3 * НР.высота; Направление: идеал = -90, от = -135, до = -45; конец__элемента Дуга Д1 Атрибуты: Локализация__в_середине : точка = НРп . середина, расстояние = 0 . 3 * НР.высота; Загибается__по_часовой ; Направление: идеал = -90, от = -135, до = -45; Отношения: Расстояние_между точками_меньше: точка1 = ОЛ.начало, точка2 = Д1.начало, предел = ОЛ.длина; конец_элемента Используется четыре типа структурных элементов: отрезок, дуга, кольцо и точка. Символы описываются на языке этих базовых элементов. Отрезок, дуга и кольцо называются «линейными» структурными элементами. Это название объясняется тем, что все эти элементы представляются ломаной линией, составленной из исходных отрезков векторного изображения. Для таких элементов можно говорить о полной 94 |
одноуровневый индекс по кодам символа, который позволяет по коду символу находить список его изображений. Журнал изменений хранит информацию о добавлении изображений и модификации содержимого базы. Формат записи журнала изменений: 1. Дата изменения. Эта дата должна совпадать с хранящейся вместе с изображением, чтобы .можно было установить соответствие между записью журнала и изображением. 2. Строка, описывающая существо изменения. В ней содержится детальное описание произведенного изменения. Обучающая и контрольная базы Для объективной оценки качества работы любого обучаемого статистического классификатора необходимо четко разделять множество изображений, по которому классификатор обучается и множество изображений, которое используется для измерения точности классификатора. Любой классификатор в процессе обучения адаптируется к обучающей базе, добиваясь минимума ошибок в рамках каких-то ограничений. В целом это правильно, так как обучающая выборка должна адекватно представлять статистическую совокупность. 11о из-за того, что обучающая выборка имеет конечный размер, а типичный классификатор имеет сотни тысяч свободных переменных, степень адаптации к свойствам обучающей базы может быть довольно значительной. Это приводит к тому, что на контрольной базе классификатор дает значительно худшие показатели точности. Контрольная база необходима также для того, чтобы определить оптимальное количество свободных параметров классификатора ( в нашем случае это число кластеров). Действительно, на обучающей базе можно добиться идеального распознавания, просто создав один кластер для каждого изображения. 3.7 Описание структурных элементов Используется четыре типа структурных элементов: отрезок, дуга, кольцо и точка. Описания символов строятся из этих базовых элементов. Отрезок, дуга и кольцо называются “линейными” структурными элементами. Это название объясняется тем, что все эти элементы представляются ломанной линией, составленной из исходных отрезков векторного изображения. Для таких элементов можно говорить о полной длине, прыжках 64 Приложение 1. Язык структурных описаний Структура описания В структурном эталоне графемы описываются как структурные элементы, из которых составлена графема, и связывающие их отношения. В начале описания эталона может присутствовать секция со списком атрибутов эталона. Атрибуты эталона записываются подобно атрибутам структурного элемента. В конце эталона, после ключевого слова “Результаты:”, может быть написано несколько выражений, вычисляющих признаки распознанного символа, используемые для контекстного анализа. Например, если по распознанному символу может быть определена базовая линия, то в результатах нужно написать выражение вычисления вертикальной координаты базовой линии. I Гример эталона первого уровня приводится ниже: Атрибуты_эталона: Максимальное_число_пройденных_отрезков=400; Конец_Атрибутов_эталона Отрезок ОЛ Атрибуты: Локализация_в_начале: точка = НРл.начало, расстояние = 0.3 * НР.высота; Направление: идеал = -90, от = -135, до = -45; конец_элемента Дуга Д1 Атрибуты: Локализация_в_середине: точка = НРп.середина, расстояние = 0.3 * НР.высота; Загибается по часовой; |