Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 47]
как частный случай, такие известные алгоритмы, как 1800АТА и Р1122У 18СЮАТА [52].
Для работы с очень большими множествами обучающих изображений разработаны последовательные методы кластеризации [44, 45], которые не требуют присутствия всего множества изображений в памяти компьютера.
Суть этих методов сводится к тому, что изображения предъявляются по одному.
Для каждого предъявленного изображения определяется ближайший кластер г*, который слегка сдвигается в направлении изображения на величину, определяемую скоростью обучения а: гЛ1+')=гЛ1)+а(?л-'■ДО)• (2.18) Для решения подзадачи выбора правильного числа кластеров, к сожалению, не существует простого универсального критерия оптимизации.
Критерий (2.17) здесь неприменим, так как его можно свести к нулю простым увеличением числа кластеров.
Выбор правильного числа кластеров обычно требует учета целевых критериев всей системы, например, числа ошибок при классификации.
Задача решается, как правило, путем прямого перебора по числу кластеров.
Процедура кластеризации повторяется для каждого числа кластеров, и затем вычисляется значение целевой функции.
Существуют комбинированные приемы выбора числа и положения кластеров.
Например, в методе последовательного уточнения кластеризации все обучающее множество изображений изначально рассматривается как один большой кластер.
Шаг алгоритма состоит в выборе одного кластера и разбиения его на две части.
Процедура останавливается тогда, когда в результате очередного шага получилось разбиение на кластеры, уступающее предшествующему разбиению по значению целевой функции.
Для выбора кластера, который будет подвергаться делению, используются разнообразные критерии, отражающие компактность и однородность кластера.
47

[стр. 28]
пор, пока он не сойдется или пока не будет достигнут предел по числу итераций.
На основе этого базового варианта алгоритма было разработано большое количество разнообразных модификаций.
Существуют и более совершенные методики.
Например, в работе [50] предлагается вариационный подход к общей задаче классификационного анализа данных.
За счет использования размытой постановки задачи обобщаются многие частные постановки этой задачи.
Для оценки качества размытой функции используется широкий класс выпуклых функционалов, который включает значительную часть известных критериев качества.
Описанный алгоритм классификации включает в себя как частный случай такие известные алгоритмы как 18СЮАТА и РИ22У 18СЮАТА [51].
Для работы с очень большими множествами обучающих изображений разработаны последовательные методы кластеризации [43, 44], которые не требуют присутствия всего множества изображений в памяти компьютера.
Суть этих методов сводится к тому, что изображения предъявляются по одному.
Для каждого предъявленного изображения определяется ближайший кластер Гк, который слегка сдвигается в направлении изображения у;.
на величину, определяемую скоростью обучения а: гк(Н1) = гк(0 + а-(Уд.Гк(0) (2.18) Для решения подзадачи выбора правильного числа кластеров, к сожазению не существует простого универсального критерия оптимизации.
Критерий (2.17) здесь неприменим, так как его можно свести к нулю простым увеличением числа кластеров.
Выбор правильного числа кластеров обычно требует учета целевых критериев всей системы, например числа ошибок при классификации.
Задача решается, как правило, путем прямого перебора по числу кластеров.
11роцедура кластеризации повторяется для каждого числа кластеров, и затем вычисляется значение целевой функции.
Существуют комбинированные приемы выбора числа и положения кластеров.
Например, в методе последовательного уточнения кластеризации все обучающее множество изображений изначально рассматривается как один большой кластер.
Шаг алгоритма состоит в выборе одного кластера и разбиения его на две части.
Алгоритм останавливается тогда, когда в результате очередного шага получилось разбиение на кластеры, уступающее предшествующему разбиению по значению целевой функции.
Для 28

[стр.,29]
выбора кластера, который будет подвергаться делению, используются разнообразные критерии, отражающие компактность и однородность кластера.
2.4 Структурные классификаторы Существует два существенно разных подхода построения структурных классификаторов структурно-лингвистический подход, основанный на использовании однои двумерных грамматик, и метод нечеткого сопоставления графов.
В основе структурно-лингвистического подхода лежит построение некоторого языка, связанного определенными правилами "грамматиками", которые позволяют управлять процессом отыскания локальных свойств изображения и разложением изображения на отдельные части, анализировать содержание этих частей, их взаимное расположение и т.
п.
В качестве элементарных признаков используются такие признаки как "угол", "перекрестие", "вершина" и другие, то есть достаточно общие для широкого класса изображений, но вместе с тем доступные для понимания.
При использовании структурно-лингвистического подхода каждому классу изображений может быть поставлена в соответствие некоторая порождающая грамматика, то есть набор правил описания рассматриваемого класса на основе выбранных простейших признаков.
Естественно, что если говорить об обучении распознаванию такой системы, то нужно определить понятие априорной информации.
Для структурно-лингвистического подхода понятие априорной информации связывают с некоторой "суперграмматикой" и, как отмечено в работах [52, 53], в результате обучения определяют более узкую грамматику для рассматриваемой совокупности классов.
Важной задачей структурно-лингвистического подхода является исследование методов формирования признаков.
Первые результаты в этом направлении были связаны с предположением, что система признаков задана, и ставилась задача формирования так называемой грамматической системы анализа языка изображений [54, 55].
Дальнейшие исследования, изложенные в работе [56], привели к появлению алгоритмов, реализующих автоматическое формирование признаков.
29

[Back]