Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 121]

6.
Проверить описание на контрольной базе.
5.7 Базы изображений База изображений (сокращенно база) служит для обучения и верификации процедуры распознавания символа, а также для сбора различной статистической информации о работе модуля распознавания.
База представляет собой файл, в котором хранятся изображения символов, с приписанными им кодами символов.
База набирается из нескольких источников: • Сканирование реальных документов.
• Базы изображений сторонних поставщиков
(Ы18Т, СЕЫРАКМ1, СЕОАК).
Документы подбираются так, чтобы в них встречались все интересующие начертания символов и чтобы в базу попали символы с характерными дефектами начертания и сканирования.
Логическая структура базы База изображений состоит из трёх основных частей: главного раздела, индекса главного раздела и журнала изменений базы.
Главный раздел содержит собственно изображения символов.
Каждая запись содержит следующую информацию: •
• Дата создания записи.
• Код символа.
• Геометрические характеристики символа.
Задается положение базовой линии и средняя высота символов.
• Номер изображения.
Номер поддерживается исключительно для того, чтобы пользователь мог идентифицировать конкретное изображение.
Обычно он равен порядковому номеру записи среди изображений данного символа, но при удалении каких-либо записей оставшиеся не перенумеровываются.
Упорядочение восстанавливается при реструктуризации базы.
Вообще говоря, номер не идентифицирует запись однозначно.
Кроме того, номер может быть
нс определен (равен -1).
121
[стр. 63]

3.6 Базы изображений База изображений (сокращенно база) служит для обучения и верификации процедуры распознавания символа, а также для сбора различной статистической информации о работе модуля распознавания.
База представляет собой файл, в котором хранятся изображения символов, с приписанными им кодами символов.
База набирается из нескольких источников: • Сканирование реальных документов.
• Базы изображений сторонних поставщиков
(М$Т).
Документы подбираются так, чтобы в них встречались все интересующие начертания символов и чтобы в базу попали символы с характерными дефектами начертания и сканирования.
Логическая структура базы База изображений состоит из трёх основных частей: главного, раздела, индекса главного раздела и журнала изменений базы.
Главный раздел содержит собственно изображения символов.
Каждая запись содержит следующую информацию: Дата создания записи.
• Код символа.
• Геометрические характеристики символа.
Задается положение базовой линии и средняя высота символов.
• Номер изображения.
Номер поддерживается исключительно для того, чтобы пользователь мог идентифицировать конкретное изображение.
Обычно он равен порядковому номеру записи среди изображений данного символа, но при удалении каких-либо записей оставшиеся не перенумеровываются.
Упорядочение восстанавливается при реструктуризации базы.
Вообще говоря, номер не идентифицирует запись однозначно.
Кроме того, номер может быть
не определен (равен -1).
• Собственно изображение символа.
Основная операция над базой изображений в процессе создания эталона состоит в итеративном поиске, причем итерация часто реализуется не по всей базе, а только по изображениям заданных символов.
Для ускорения этой операции база содержит 63

[Back]