Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 86]
Эта схема хорошо работает, если кластеры в пространстве признаков могут быть разделены с помощью применяемой функции расстояния.
Если это не так, приходится усложнять функцию расстояния или увеличивать число кластеров.
4.4 Дифференциальные признаковые эталоны Как альтернатива для различения близких пар кластеров используется дифференциальный эталон ~ линейная функция, вычисляемая по вектору признаков.
В качестве признаков дифференциальный классификатор использует: относительную разность весов первого уровня, относительную разность весов первого уровня раегрового классификатора или любого другого классификатора, а также все признаки, используемые на первом уровне.
Но, в отличие от первого уровня, допустимо использование небинарных признаков.
Поэтому преобразование бинарных признаков в небинарные, описанное выше, не проводится.
Отбор значимых признаков осуществляется аналогично отбору признаков в растровом классификаторе: параметрами являются информативность и максимальное число признаков.
При этом коэффициенты классификаторов хранятся в упакованном виде как список пар (индекс, коэффициент) с целью экономии места в эталоне.
Показателем качества признака является величина, называемая количеством информации (в шенноновском смысле).
Определим ее.
Пусть х и у — вероятности появления некоторого бинарного признака на рассматриваемых кластерах.
Тогда количество информации /, заключенное в этом признаке, равно: , _ , , р{х,у) + у) 2 ’ (4.6) р(х, у) = х 1о§_, х-(х + у) 1о82 ( х + у) + у 1о§2 у .
Для классификатора отбирается несколько признаков с лучшими значениями количества информации.
86

[стр. 61]
Отбор значимых признаков для линейною классификатора осуществляется в соответствии с их информативностью.
Показателем качества признака является величина, называемая количеством информации (в шенноновском смысле).
Пусть х и у — вероятности появления некоторого бинарного признака на рассматриваемых кластерах.
Тогда количество информации I, заключенное в этом признаке, равно г _ 1 .
Р(х>у) + р(\ х,\ у) 2 (3.10) р(х, у) = х 1о§2 дг (х + у) 1од2(х + у) + у 1о§2 у Для классификатора отбирается несколько признаков с лучшими значениями количества информации.
Количество признаков определяется заданием суммарного требуемого количества информации.
3.5 Растровый классификатор В растровом классификаторе изображение символа сначала приводится к стандартной толщине штриха и стандартному размеру, а затем сопоставляется с базой растровых эталонов.
Размер приведенного эталона 14 на 14 точек.
Вычисление толщины штриха производится по средней длине КЬЕ-штриха независимо для вергикальных и горизонтальных штрихов по следующей формуле: I.
Ь*Н = 3, Ь + Н = Р/2 (3.11) Полупсриметр Р/2 есть сумма числа КЬЕ-штрихов по вертикали и горизонтали.
Решение отыскивается итеративно, начиная с Но = 1, Ь = Р/2 Н, с последующим увеличением Н на единицу до тех пор, пока Н*Ь не станет больше 8.
Значение Н, при котором Ь*Н меньше всего отличается от 5, считается окончательным.
61

[Back]