6. Проверить описание на контрольной базе. 5.7 Базы изображений База изображений (сокращенно база) служит для обучения и верификации процедуры распознавания символа, а также для сбора различной статистической информации о работе модуля распознавания. База представляет собой файл, в котором хранятся изображения символов, с приписанными им кодами символов. База набирается из нескольких источников: • Сканирование реальных документов. • Базы изображений сторонних поставщиков (Ы18Т, СЕЫРАКМ1, СЕОАК). Документы подбираются так, чтобы в них встречались все интересующие начертания символов и чтобы в базу попали символы с характерными дефектами начертания и сканирования. Логическая структура базы База изображений состоит из трёх основных частей: главного раздела, индекса главного раздела и журнала изменений базы. Главный раздел содержит собственно изображения символов. Каждая запись содержит следующую информацию: • • Дата создания записи. • Код символа. • Геометрические характеристики символа. Задается положение базовой линии и средняя высота символов. • Номер изображения. Номер поддерживается исключительно для того, чтобы пользователь мог идентифицировать конкретное изображение. Обычно он равен порядковому номеру записи среди изображений данного символа, но при удалении каких-либо записей оставшиеся не перенумеровываются. Упорядочение восстанавливается при реструктуризации базы. Вообще говоря, номер не идентифицирует запись однозначно. Кроме того, номер может быть нс определен (равен -1). 121 |
3.6 Базы изображений База изображений (сокращенно база) служит для обучения и верификации процедуры распознавания символа, а также для сбора различной статистической информации о работе модуля распознавания. База представляет собой файл, в котором хранятся изображения символов, с приписанными им кодами символов. База набирается из нескольких источников: • Сканирование реальных документов. • Базы изображений сторонних поставщиков (М$Т). Документы подбираются так, чтобы в них встречались все интересующие начертания символов и чтобы в базу попали символы с характерными дефектами начертания и сканирования. Логическая структура базы База изображений состоит из трёх основных частей: главного, раздела, индекса главного раздела и журнала изменений базы. Главный раздел содержит собственно изображения символов. Каждая запись содержит следующую информацию: • Дата создания записи. • Код символа. • Геометрические характеристики символа. Задается положение базовой линии и средняя высота символов. • Номер изображения. Номер поддерживается исключительно для того, чтобы пользователь мог идентифицировать конкретное изображение. Обычно он равен порядковому номеру записи среди изображений данного символа, но при удалении каких-либо записей оставшиеся не перенумеровываются. Упорядочение восстанавливается при реструктуризации базы. Вообще говоря, номер не идентифицирует запись однозначно. Кроме того, номер может быть не определен (равен -1). • Собственно изображение символа. Основная операция над базой изображений в процессе создания эталона состоит в итеративном поиске, причем итерация часто реализуется не по всей базе, а только по изображениям заданных символов. Для ускорения этой операции база содержит 63 |