Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 85]

кластер, если первоначальная оценка вектора хуже 1У\\т.
Вектор добавляется в кластер, давший лучшую оценку, если
среди полученных оценок имеются оценки не хуже \У\т.
После этого все изображения ещё раз лерераспознаются и перераспределяются по кластерам, так как в результате добавления новых векторов признаков кластер может сместиться и содержать векторы из соседнего кластера.
Второй шаг удаление мелких кластеров.

Используется следующий алгоритм: Вначале задается пороговый размер кластера.
Далее
рассматривается наименьший кластер и, если его размер меньше порогового значения, каждое из принадлежащих ему изображений переносятся в тот из оставшихся кластеров, который дает наилучшую оценку.
Эта процедура повторяется до тех пор, пока минимальный размер кластера не превысит пороговое значение.
На третьем шаге происходит объединение близких кластеров, порожденных предшествующими шагами.
В соответствии с методом расчета веса, для оценки расстояния между кластерами используется
скалярное произведение соответствующих им векторов признаков: со ъО = (р'.ч') и и .
(4.5) После такого слияния, снова проводится перераспознавание всех изображений и перераспределение их по кластерам.
Если в результате такого перераспределения появились мелкие кластеры,
следует повторить второй шаг.
Таким образом, типичная процедура классификации состоит в вычислении степени близости между входным изображением и известными системе классами изображений, с помощью упорядоченных по степени близости кластеров.
85
[стр. 58]

V.= /(?,) (3.5) /(*) = О • рЦ )х < 1/6 ■ (1-1/6)1 • рЦ х > 1 / 6 ’ -(х + 1/6)1 • рЦ х ^ -1 /6 то есть вектор вероятностей подвергается нелинейному преобразованию, которое ослабляет влияние признаков с вероятностями, далекими от 0 и 1.
Это преобразование делается один раз при обучении эталона и при распознавании используются уже величины р\.
Обучение первого уровня использует процедуру кластеризации “по первому приходящему”, аналогичную используемой в растровом классификаторе.
Обучение проводится в несколько шагов.
Первый шаг — основная процедура кластеризации.
На этом шаге задается величина \Уцт — предельная оценка векторов признаков обучающей выборки на моделях своего класса.
Очередной вектор признаков из обучающей последовательности оценивается на всех имеющихся кластерах.
Если среди полученных оценок имеются оценки не хуже то вектор добавляется в кластер, давший лучшую оценку.
Если
первоначальная оценка вектора хуже
\\гцт, вектор добавляется во вновь созданный кластер.
По окончании этого процесса все изображения ещС раз перераспознаются и перераспределяются по кластерам (в процессе добавления кластер может сместиться и содержать вектора из соседнего кластера).
Второй шаг — удаление мелких кластеров.

На этом шаге задается пороговый размер кластера.
Далее
берется наименьший кластер и, если его размер меньше порога, каждое из принадлежащих ему изображений переносятся в тот из оставшихся кластеров, который дает лучшую оценку.
Эта процеду ра выполняется до тех пор, пока минимальный размер кластера не превысит порог.
Третий ишг — объединение близких кластеров.
Описанный алгоритм может порождать кластеры, расположенные очень близко друг к другу.
Поэтому на третьем этапе такие близкие кластеры сливаются.
В соответствии с методом расчета веса, для оценки расстояния между кластерами используется
угол между соответствующими им векторами признаков: 58

[стр.,59]

(3.6) После такого слияния опять-таки проводится перераспознавание всех изображений и перераспределение их по кластерам.
Если в результате такого перераспределения появились мелкие кластеры,
повторяется второй шаг.
Дифференциальные признаковые эталоны Дифференциальный эталон представляет собой линейный классификатор, разделяющий два кластера.
В качестве признаков дифференциальный классификатор использует: • относительную разность весов первого уровня, • относи1тельную разность весов первого уровня растрового классификатора, • признаки, используемые на первом уровне.
Гак как признаков много, причем на близких парах большинство из них имеет вполне определенные значение, классификатор строится не по всем признакам, а по некоторому их подмножеству.
Отбор признаков осуществляется точно так же, как и в растровом классификаторе: парамеграми являются количество информации и максимальное число признаков.
Для экономии места в эталоне, коэффициенты классификаторов хранятся в упакованном виде, как список пар (индекс, коэффициент).
Обучение линейного классификатора Входными данными для алгоритма обучения линейного дифференциального классификатора являются два множества векторов признаков для каждого из разделяемых кластеров, а выходными коэффициенты построенного классификатора и различная статистическая и отладочная информация.
Пусть В(2) = 1У0 +(№,2) — искомый линейный классификатор для шага I, а 2г (),2/ <2' —обучающие векторы.
Коэффициенты классификатора IV} находятся путём минимизации функционала Минимизация производится методом градиентного спуска с помощью следующей итеративной процедуры: (3.7) 59

[Back]