Проверяемый текст

Москаленко, Татьяна Александровна; Системные аспекты анализа лексических единиц языка законодательства (Диссертация 1993)

[стр. 44]
терминологической службы по праву предлагается наряду с рядом словарей включить сведения, отражающие различные статистические характеристики терминов).
Среди них могут быть сведения о числе употребляемых в различных нормативных актах или изданиях терминов; частоте использования отдельных терминов и т.д.
(112, с.65), а также число текстов тех отраслей права, в которых встречается термин.
Частотный словарь можно рассматривать как своего рода модель текста, как модель распределения частот употребления единиц в тексте (101, с.54) или как « информационнопоисковую систему в миниатюре, которая способна выдавать сведения о различных сторонах текста и словаря (143, с.7).
Установление взаимной зависимости между частотными и лексикограмматическими свойствами слов в определенном текстовом массиве позволяет на практике установить частотную границу перехода от периферийной (в рассматриваемой тематической области) лексики к основной (ядерной); а также частотную границу, разделяющую терминологическую и нетерминологическую лексику (7,46).
Анализ частотного распределения лексических единиц того или иного массива текстов позволяет выделить на его основе ядро лексики соответствующей предметной области.
Подобная методика используется и при выделении ядра терминологии (о выделении ядра терминологии по программным средствам вычислительной техники на основе анализа частоты употребления терминов (9)), и при выделении опорных (ключевых) слов текста (30).
Частотные и частотно — распределительные данные могут использоваться и, в той или иной мере сейчас используются, в различных информационно-поисковых системах для определения степени информативности терминов.
Это, в свою очередь, являются основой для построения поисковых образов документов и отбора терминов в

[стр. 38]
37 Прикладная лексикология и машинная лексикография являются сегодня ведущими направлениями автоматизации лингвистических и прикладных разработок.
Одним из основных направлений автоматизации лексикографических работ является построение частотных словарей.
Частотный словарь тех или иных лексических единиц дает представление о статистической структуре определенного уровня организации того текста, который послужил основанием для составления частотного словаря.
Кроме того, полученные статистические данные находят применение при разработке алгоритмов автоматизированного анализа текстовой информации.
Как отмечается в работе [Королев, 1981], "требование алгоритмизации играет все более возрастающую роль в современных АИПС; в ряде случаев оно становится доминирующим и оказывает решающее влияние на построение лингвистического обеспечения системы" [с.
5].
Как уже отмечалось, потребность в получении статистических данных об организации лексического состава нормативных актов в настоящее время осознается и специалистами в области права (например, в банк данных терминологической службы по праву предлагается наряду с рядом словарей включить и сведения, отражающие различные статистические характеристики терминов.
Среди них могут быть сведения о числе употребляемых в различных нормативных актах или изданиях (например, в Своде законов СССР) терминов; частоте использования отдельных терминов и т.д.
[Юсупов, 1990, с.
165], а также (об этом ниже) число текстов тех отраслей права, в которых встречается термин.
Частотный словарь можно рассматривать как своего рода модель текста, как модель распределения частот употребления единиц в тексте [Тулдава, 1987, с.
54] или как "информационно-поисковую систему в миниатюре, которая способна выдавать сведения о различных сторонах текста и словаря" [Частотный словарь русского языка, 1977, с.
7].
Установление взаимной зависимости между частотными и лексико-грамматическими свойствами слов в определенном текстовом массиве позволяет-на практике установить частотную границу перехода от периферийной (в рассматриваемой тематической области) лексики к основной (ядерной); а также частотную границу, разделяющую терминологическую и нетерминологическую лексику

[стр.,39]
[Андрукович, Королев, 1977; Королев, Корсакова.
Сафронова.
1984].
Анализ частотного распределения лексических единиц того или иного массива текстов позволяет выделить на его основе ядро лексики соответствующей предметной области.
Подобная методика используется и при выделении ядра терминологии (о выделении ядра терминологии по программным средствам вычислительной техники на основе анализа частоты употребления терминов см.
[Ахмеджанов, Гельфман, Королев, 1989]), и при выделении опорных (ключевых) слов текста [Джубанов, 1990].
Частотные и частотно-распределительные данные могут использоваться и.
в той или иной мере сейчас используются, в различных информационно-поисковых системах для определения степени информативности терминов.
Это же в свою очередь является основой для построения поисковых образов документов и отбора терминов в поисковые предписания.
Основными характеристиками термина здесь являются общая частота его употребления на рассматриваемом массиве и степень равномерности его употребления.
Существуют различные меры, позволяющие определить степень равномерности и, соответственно, информативности, термина.
В работе [Поликарпов, 1991] в числе существующих формальных методов задания информативных элементов текста (разработка подобных методов необходима для автоматического выделения информативных элементов текста в целях автоматизации индексирования, которая является одной из наиболее актуальных проблем информационных систем) называются статистические методы, основанные на учете частоты повторения элемента в различных интервалах текста, в целом тексте или совокупности текстов.
В основе применения статистических методов в целях автоматического индексирования лежит идея о возможности использования числовых параметров для оценки степени информативности различных фрагментов текста.
При этом основной и наиболее сложной задачей является выявление тех частотных параметров, которые можно было бы использовать для оценки значимости терминов.
Проблемы установления статистических закономерностей, характеризующих единицы текста с точки зрения их терминологичности рассматриваются, в частности, в работах [Каушанская, 1972; Негуляев, 1973; Пиотровский, 1975; Манасян, 1985; Остапенко, 1987].

[Back]