• Собственно изображение символа. Основная операция над базой изображений в процессе создания эталона состоит в итеративном поиске, причем итерация часто реализуется не по всей базе, а только по изображениям заданных символов. Для ускорения этой операции база содержит одноуровневый индекс по кодам символа, который позволяет по коду символа находить список его изображений. Журнал изменений хранит информацию о добавлении изображений и модификации содержимого базы. Формат записи журнала изменений: • Дата изменения. Эта дата должна совпадать с хранящейся вместе с изображением датой, чтобы можно было установить соответствие между записью журнала и изображением. • Строка, описывающая существо изменения. В ней содержится детальное описание произведенного изменения. Обучающая и контрольная базы Для объективной оценки качества работы любого обучаемого статистического классификатора необходимо четко разделять множество изображений, по которому классификатор обучается и множество изображений, которое используется для измерения точности классификатора. Любой классификатор в процессе обучения адаптируется к обучающей базе, добиваясь минимума ошибок в рамках каких-то ограничений. В целом, это правильно, если обучающая выборка адекватно представляет статистическую совокупность. Но в реальных системах обучающая выборка имеет конечный размер, а типичный классификатор может иметь сотни тысяч свободных переменных, степень адаптации к свойствам обучающей базы может быть довольно значительной. Это приводит к тому, что на контрольной базе классификатор дает значительно худшие показатели точности. Контрольная база необходима также для того, чтобы определить оптимальное количество свободных параметров классификатора (в нашем случае это число 122 |
3.6 Базы изображений База изображений (сокращенно база) служит для обучения и верификации процедуры распознавания символа, а также для сбора различной статистической информации о работе модуля распознавания. База представляет собой файл, в котором хранятся изображения символов, с приписанными им кодами символов. База набирается из нескольких источников: • Сканирование реальных документов. • Базы изображений сторонних поставщиков (М$Т). Документы подбираются так, чтобы в них встречались все интересующие начертания символов и чтобы в базу попали символы с характерными дефектами начертания и сканирования. Логическая структура базы База изображений состоит из трёх основных частей: главного, раздела, индекса главного раздела и журнала изменений базы. Главный раздел содержит собственно изображения символов. Каждая запись содержит следующую информацию: • Дата создания записи. • Код символа. • Геометрические характеристики символа. Задается положение базовой линии и средняя высота символов. • Номер изображения. Номер поддерживается исключительно для того, чтобы пользователь мог идентифицировать конкретное изображение. Обычно он равен порядковому номеру записи среди изображений данного символа, но при удалении каких-либо записей оставшиеся не перенумеровываются. Упорядочение восстанавливается при реструктуризации базы. Вообще говоря, номер не идентифицирует запись однозначно. Кроме того, номер может быть не определен (равен -1). • Собственно изображение символа. Основная операция над базой изображений в процессе создания эталона состоит в итеративном поиске, причем итерация часто реализуется не по всей базе, а только по изображениям заданных символов. Для ускорения этой операции база содержит 63 одноуровневый индекс по кодам символа, который позволяет по коду символу находить список его изображений. Журнал изменений хранит информацию о добавлении изображений и модификации содержимого базы. Формат записи журнала изменений: 1. Дата изменения. Эта дата должна совпадать с хранящейся вместе с изображением, чтобы .можно было установить соответствие между записью журнала и изображением. 2. Строка, описывающая существо изменения. В ней содержится детальное описание произведенного изменения. Обучающая и контрольная базы Для объективной оценки качества работы любого обучаемого статистического классификатора необходимо четко разделять множество изображений, по которому классификатор обучается и множество изображений, которое используется для измерения точности классификатора. Любой классификатор в процессе обучения адаптируется к обучающей базе, добиваясь минимума ошибок в рамках каких-то ограничений. В целом это правильно, так как обучающая выборка должна адекватно представлять статистическую совокупность. 11о из-за того, что обучающая выборка имеет конечный размер, а типичный классификатор имеет сотни тысяч свободных переменных, степень адаптации к свойствам обучающей базы может быть довольно значительной. Это приводит к тому, что на контрольной базе классификатор дает значительно худшие показатели точности. Контрольная база необходима также для того, чтобы определить оптимальное количество свободных параметров классификатора ( в нашем случае это число кластеров). Действительно, на обучающей базе можно добиться идеального распознавания, просто создав один кластер для каждого изображения. 3.7 Описание структурных элементов Используется четыре типа структурных элементов: отрезок, дуга, кольцо и точка. Описания символов строятся из этих базовых элементов. Отрезок, дуга и кольцо называются “линейными” структурными элементами. Это название объясняется тем, что все эти элементы представляются ломанной линией, составленной из исходных отрезков векторного изображения. Для таких элементов можно говорить о полной длине, прыжках 64 |