Проверяемый текст
Москаленко, Татьяна Александровна; Системные аспекты анализа лексических единиц языка законодательства (Диссертация 1993)
[стр. 45]

поисковые предписания.
Основными характеристиками термина здесь
является общая частота употребления на рассматриваемом массиве и степень равномерности его употребления.
Существуют различные меры, позволяющие определить степень равномерности и, соответственно, информативности, термина.
В работе
(80) в числе существующих формальных методов задания информативных элементов текста (разработка подобных методов необходима для автоматического выделения информативных систем) называются статистические методы, основанные на учете частоты повторения элемента в различных интервалах текста, в целом тексте или совокупности текстов.
В основе применения статистических методов в целях автоматического индексирования лежит идея о возможности использования числовых параметров для оценки степени информативности различных фрагментов текста.
При этом основной и наиболее сложной задачей является
выполнение тех частотных параметров, которые можно было бы использовать для оценки значимости терминов.
Проблемы установления статистических закономерностей, характеризующих единицы текста с точки зрения их
терминологичиости рассматриваются Каушанской М.В.
(41), Пегуляевым Г.А.
(59), Пиотровским Р.Г.
(78), Манасян Н.С.
(56), Остапенко В.Е.
(72).
Выводы к I главе На современном этапе для установления значимости термина используются не только данные о распределении слов в тексте (абсолютная частота встречаемости в тексте), но и данные о распределении слов в массиве документов (при этом частота слова в рассматриваемом тексте сравнивается с частотой его появления в целом массиве текстов) (38).
[стр. 39]

[Андрукович, Королев, 1977; Королев, Корсакова.
Сафронова.
1984].
Анализ частотного распределения лексических единиц того или иного массива текстов позволяет выделить на его основе ядро лексики соответствующей предметной области.
Подобная методика используется и при выделении ядра терминологии (о выделении ядра терминологии по программным средствам вычислительной техники на основе анализа частоты употребления терминов см.
[Ахмеджанов, Гельфман, Королев, 1989]), и при выделении опорных (ключевых) слов текста [Джубанов, 1990].
Частотные и частотно-распределительные данные могут использоваться и.
в той или иной мере сейчас используются, в различных информационно-поисковых системах для определения степени информативности терминов.
Это же в свою очередь является основой для построения поисковых образов документов и отбора терминов в поисковые предписания.
Основными характеристиками термина здесь
являются общая частота его употребления на рассматриваемом массиве и степень равномерности его употребления.
Существуют различные меры, позволяющие определить степень равномерности и, соответственно, информативности, термина.
В работе
[Поликарпов, 1991] в числе существующих формальных методов задания информативных элементов текста (разработка подобных методов необходима для автоматического выделения информативных элементов текста в целях автоматизации индексирования, которая является одной из наиболее актуальных проблем информационных систем) называются статистические методы, основанные на учете частоты повторения элемента в различных интервалах текста, в целом тексте или совокупности текстов.
В основе применения статистических методов в целях автоматического индексирования лежит идея о возможности использования числовых параметров для оценки степени информативности различных фрагментов текста.
При этом основной и наиболее сложной задачей является
выявление тех частотных параметров, которые можно было бы использовать для оценки значимости терминов.
Проблемы установления статистических закономерностей, характеризующих единицы текста с точки зрения их
терминологичности рассматриваются, в частности, в работах [Каушанская, 1972; Негуляев, 1973; Пиотровский, 1975; Манасян, 1985; Остапенко, 1987].


[стр.,40]

39 Не останавливаясь подробно на рассмотрении тех или иных параметров, заметим, что на современном этапе для установления значимости термина используются не только данные о распределении слов в тексте (абсолютная частота встречаемости в тексте), но и данные о распределении слов в массиве документов (при этом частота слова в рассматриваемом тексте сравнивается с частотой его появления в целом массиве текстов) [Итоги науки и техники, 1983].
В настоящее время одной из развитых статистических методик выделения терминов из текста (с полнотой выделения 70% и чистотой выделения 97%) является методика, описанная в работе [Остапенко, 1987], где показано, что частотная, дисперсионная и параболическая модели текста, взятые отдельно, оказываются недостаточно эффективными для указанных целей.
В связи с этим предлагается свести задачу выявления и классификации терминов целостного текста к некоторой последовательности операций, которая предполагает комбинированное использование всех трех моделей.
Заметим, что начальным этапом осуществления указанной методики является построение частотной модели (путем упорядочения множества языковых единиц по убыванию абсолютных частот) и дисперсионной модели (путем упорядочения множества языковых единиц по убыванию значения дисперсии их распределения в тексте) .

[Back]