[стр. 56]
При фиксированном значении р с увеличением объема обучающих m и контрольной п выборок вероятность ошибки распознавания а = Р уменьшается. Следовательно, с учетом ограничений ее минимально возможное значение достигается при фиксированном значении р, когда m и п, увеличиваясь, оказываются равными своим предельным значениям m = М и n = N. Если при этом достигнутое значение вероятности ошибки а(М, N, р) остается больше заданного по условиям задачи значения а*, то единственным путем ее дальнейшего уменьшения остается увеличение размерности признакового пространства р. Вычисляется значение вероятности ошибки распознавания а(М, N, р) при р = 1,2, ...,р0, до тех пор, пока не окажется, что a(M,N,p0) (2.25) Зафиксировав найденное значение р = р0, необходимо решить задачу оптимизации (2.24), Для ее решения в [82, с. 192] используется итерационная процедура. Зависимость a (М, N, р) от размерности признакового пространства при 5 = 0,1 приведена в [82, рис. 5.2]. Значения р0[1Т, попт, топт при 5 = 0,1, 1-а*=0,9 и различных значениях N и М приведены в [82, табл. 5.1]. Анализ представленных результатов расчетов показывает, что с уменьшением предельных значений объемов обучающих М и контрольной N выборок оптимальное значение размерности признакового пространства ропт, обеспечивающее заданный уровень достоверности распознавания 1 —ot* = l —Р* увеличивается. Аналогичный характер носит взаимосвязь оптимальной размерности признакового пространства ропт с оптимальными объемами обучающих топт и контрольной попг выборок: увеличение последних приводит к уменьшению р01ТГ и наоборот. Таким образом, в тех случаях, когда по условиям функционирования системы распознавания увеличение с целью обеспечения требуемой достоверности значения какого-либо из ее параметров (например времени обучения или/и распознавания) оказывается невозможным, заданный уровень 56
|
[стр. 51]
51 а = J3= (б(р)ехр{Smp / 4} / £л/2я(р 3)!ijj х оо я/2 х Jtp 1•cosp2ф•ехр(1 / 2)(t2^/28mp t sincpj x (1.36) 0—тс/2 xF(^ sinф / -\/2/m + 4 / n j dt бф = a(m, n, p). Таким образом, задача оптимизации признакового пространства (включающая в себя и оптимизацию суммарного объема обучающих и контрольных наблюдений) записывается следующим образом [82]: ш+ п)р -» min, a (m, n, p) < a*. (1.37) При заданном 5, учитывая инвариантность решения задачи (1.37) относительно умножения критерия на положительное число, задача переписывается в следующем виде: 5(2ш + п)р -» min, a(m, n, p)(1.38) Если сделать замену переменных х = 25тр; у = бпр, тогда также, как и в одномерном случае (см. п. 1.7.2), в силу свойств функции (1.36) с достаточной для практических приложений точностью в качестве решения [m*,n*,p*) задачи (1.38) можно принять следующий набор из трех целых чисел: т* = [х 0/(28ро)] + 1, п*=[у0/(5р0)]+ 1, р*=р0, (1.39) где х0,у0,р0 (р0 целое число) являются решениями следующей экстремальной задачи [82]: х + у —»min; a = Р = 0(р)ехр(х / 8)/ л/27г(р 3)!ijj х оо к/2 х J Jtp 1-cosp 2ф-ехр-(1/2)^2л /х ^ я т ф Ц х (1-40) О-я/2 х Ffвтф / (2л/1Т Ж Т Ш )]А Д р = a * В реальных системах распознавания максимально возможные значения объемов обучающих m и контрольной п выборок, как правило, ограничены некоторыми предельными значениями М и N (m < М, n < N ), причем здесь помимо соображений, связанных с ограниченностью сил и средств на проведение необходимых обучающих и контрольных наблюдений (в общем, аналогичных тем, которые ограничивают размерность р признакового пространства), на первый план выступают жесткие требования по ограниченности времени обучения и принятия решения, которые во многих случаях наряду с требуемой достоверностью распознавания являются определяющими факторами при построении распознающей системы. При фиксированном значении р с увеличением объема обучающих m и контрольной п выборок вероятность ошибки распознавания a = (3 уменьшается. Следовательно, с учетом ограничений ее минимально возможное значение дости
[стр.,52] гается при фиксированном значении р , когда т и п , увеличиваясь, оказываются равными своим предельным значениям m = М и n = N . Если при этом достигнутое значение вероятности ошибки а (М, N, р) остается больше заданного по ус$ ловиям задачи значения а , то единственным путем ее дальнейшего уменьшения остается увеличение размерности признакового пространства р. Вычисляется значение вероятности ошибки распознавания a(M,N,p) при р = 1,2, ...,р0, до тех пор, пока не окажется, что a(M ,N,p0) < a \ (1.41) Зафиксировав найденное значение р = р0, необходимо решить задачу оптимизации (1.40). Для ее решения в [82, с. 192] используется итерационная процедура. Зависимость a (М, N, р) от размерности признакового пространства при 8 = 0,1 приведена в [82, рис. 5.2]. Значения ропт, попт, т опт при 8 = 0,1, 1-а* = 0,9 и различных значениях N и М приведены в [82, табл. 5.1]. Анализ представленных результатов расчетов показывает, что с уменьшением предельных значений объемов обучающих М и контрольной N выборок оптимальное значение размерности признакового пространства ропт, обеспечивающее заданный уровень достоверности распознавания 1 -a = 1р увеличивается. Аналогичный характер носит взаимосвязь оптимальной размерности признакового пространства ропт с оптимальными объемами обучающих т опт и контрольной попт выборок: увеличение последних приводит к уменьшению ропт и наоборот. Таким образом, в тех случаях, когда по условиям функционирования системы распознавания увеличение с целью обеспечения требуемой достоверности значения какого-либо из ее параметров (например времени обучения или/и распознавания) оказывается невозможным, заданный уровень может быть достигнут увеличением другого параметра (например, размерности признакового пространства). 52
[стр.,104] при этом достигнутое значение вероятности ошибки a*(M,N,p) остается больше заданного по условиям задачи значения а тах, то единственным путем ее дальнейшего уменьшения остается увеличение размерности признакового пространства р. Находим оценку вероятности ошибки распознавания a*(M,N,p) при р = 1 , 2 , р0, до тех пор, пока не окажется, что a ^ M .N .p J s c w (3.66) Зафиксировав найденное значение р = р0, необходимо решить задачу оптимизации (2m + n)—»min, a* < а тах , то есть найти такие значения количества обучающих ш и контрольной п выборок, при которых достигался бы заданный предел ошибки распознавания а юах. • I 3.5. Исследование влияния времени обучения и распознавания на эффе тивность классификатора / Под временем обучения и распознавания принято понимать объемы обучающих m и контрольной п выборок [85]. Задача минимизации общего числа выборок уже рассматривалась в предыдущих пунктах и основные ее аспекты уже сформулированы. Необходимо только добавить, что, как уже указывалось, аналитическая зависимость между достоверностью распознавания (основным параметром эффективности системы) и объемами обучающих и контрольных выборок для данного непараметрического случая до сих пор не найдены. Поэтому в качестве параметра, влияющего на достоверность распознавания, будем использовать дисперсии оценок признаков, определяющие значения радиусов собственных областей классов в признаковом пространстве. Прежде чем рассматривать вопрос о том, какие объемы обучающих и контрольных выборок обеспечивают заданную достоверность распознавания, необходимо определить достаточные размеры статистик для формирования одного отсчета признаков или одного элемента в признаковом пространстве для заданного класса исследуемых сигналов. Можно показать [94], что количество отсчетов входного сигнала, необходимое для формирования одного признака и объем выборки, по которой формируется собственная область класса, связаны напрямую. То есть, например, если для формирования собственной области Gi класса со, с минимальным радиусом Rjmin необходима выборка'из 100 значений признака, сформированного на основе 100 отсчетов входного сигнала каждое, то эту же область можно получить используя 10 значений признака с 1000 отсчетами. Однако необходимо знание объема выборки из исходного сигнала, требуемого для формирования одного признака, обладающего минимальной дисперсией, с целью дальнейшего изучения влияния размеров выборки признаков на достоверность распознавания. 104 I
|