Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 122]

• Собственно изображение символа.
Основная операция над базой изображений в процессе создания эталона состоит в итеративном поиске, причем итерация часто реализуется не по всей базе, а только по изображениям заданных символов.
Для ускорения этой операции база содержит
одноуровневый индекс по кодам символа, который позволяет по коду символа находить список его изображений.
Журнал изменений хранит информацию о добавлении изображений и модификации содержимого базы.
Формат записи журнала изменений:
Дата изменения.
Эта дата должна совпадать с хранящейся вместе с изображением
датой, чтобы можно было установить соответствие между записью журнала и изображением.
Строка, описывающая существо изменения.
В ней содержится детальное описание произведенного изменения.
Обучающая и контрольная базы Для объективной оценки качества работы любого обучаемого статистического классификатора необходимо четко разделять множество изображений, по которому классификатор обучается и множество изображений, которое используется для измерения точности классификатора.
Любой классификатор в процессе обучения адаптируется к обучающей базе, добиваясь минимума ошибок в рамках каких-то ограничений.
В целом, это правильно,
если обучающая выборка адекватно представляет статистическую совокупность.
Но в реальных системах обучающая выборка имеет конечный размер, а типичный классификатор может иметь сотни тысяч свободных переменных, степень адаптации к свойствам обучающей базы может быть довольно значительной.
Это приводит к тому, что на контрольной базе классификатор дает значительно худшие показатели точности.
Контрольная база необходима также для того, чтобы определить оптимальное количество свободных параметров классификатора (в нашем случае это число
122
[стр. 63]

3.6 Базы изображений База изображений (сокращенно база) служит для обучения и верификации процедуры распознавания символа, а также для сбора различной статистической информации о работе модуля распознавания.
База представляет собой файл, в котором хранятся изображения символов, с приписанными им кодами символов.
База набирается из нескольких источников: • Сканирование реальных документов.
• Базы изображений сторонних поставщиков (М$Т).
Документы подбираются так, чтобы в них встречались все интересующие начертания символов и чтобы в базу попали символы с характерными дефектами начертания и сканирования.
Логическая структура базы База изображений состоит из трёх основных частей: главного, раздела, индекса главного раздела и журнала изменений базы.
Главный раздел содержит собственно изображения символов.
Каждая запись содержит следующую информацию: • Дата создания записи.
• Код символа.
• Геометрические характеристики символа.
Задается положение базовой линии и средняя высота символов.
• Номер изображения.
Номер поддерживается исключительно для того, чтобы пользователь мог идентифицировать конкретное изображение.
Обычно он равен порядковому номеру записи среди изображений данного символа, но при удалении каких-либо записей оставшиеся не перенумеровываются.
Упорядочение восстанавливается при реструктуризации базы.
Вообще говоря, номер не идентифицирует запись однозначно.
Кроме того, номер может быть не определен (равен -1).
• Собственно изображение символа.
Основная операция над базой изображений в процессе создания эталона состоит в итеративном поиске, причем итерация часто реализуется не по всей базе, а только по изображениям заданных символов.
Для ускорения этой операции база содержит
63

[стр.,64]

одноуровневый индекс по кодам символа, который позволяет по коду символу находить список его изображений.
Журнал изменений хранит информацию о добавлении изображений и модификации содержимого базы.
Формат записи журнала изменений:
1.
Дата изменения.
Эта дата должна совпадать с хранящейся вместе с изображением,
чтобы .можно было установить соответствие между записью журнала и изображением.
2.
Строка, описывающая существо изменения.
В ней содержится детальное описание произведенного изменения.
Обучающая и контрольная базы Для объективной оценки качества работы любого обучаемого статистического классификатора необходимо четко разделять множество изображений, по которому классификатор обучается и множество изображений, которое используется для измерения точности классификатора.
Любой классификатор в процессе обучения адаптируется к обучающей базе, добиваясь минимума ошибок в рамках каких-то ограничений.
В целом это правильно,
так как обучающая выборка должна адекватно представлять статистическую совокупность.
11о из-за того, что обучающая выборка имеет конечный размер, а типичный классификатор имеет сотни тысяч свободных переменных, степень адаптации к свойствам обучающей базы может быть довольно значительной.
Это приводит к тому, что на контрольной базе классификатор дает значительно худшие показатели точности.
Контрольная база необходима также для того, чтобы определить оптимальное количество свободных параметров классификатора ( в нашем случае это число
кластеров).
Действительно, на обучающей базе можно добиться идеального распознавания, просто создав один кластер для каждого изображения.
3.7 Описание структурных элементов Используется четыре типа структурных элементов: отрезок, дуга, кольцо и точка.
Описания символов строятся из этих базовых элементов.
Отрезок, дуга и кольцо называются “линейными” структурными элементами.
Это название объясняется тем, что все эти элементы представляются ломанной линией, составленной из исходных отрезков векторного изображения.
Для таких элементов можно говорить о полной длине, прыжках 64

[Back]