Проверяемый текст
Губанищев Вадим Владимирович. Криминалистический анализ механизма преступной деятельности в сфере экономики (Диссертация 2009)
[стр. 122]

122 темами текстов.
Семантический разбор текста позволяет выделить в нем: физические и юридические лица, геофафические названия, даты, действия, ассоциативные связи между темами.
В комплексе с тематическим анализом устанавливает для каждой темы ряд близких тем, ассоциативно связанных с ней в тексте документов.
В результате формируется «смысловой портрет текста» в форме ассоциативной семантической сети.
Преобразованные к унифицированному формату документы сохраняются в специальной внутренней базе данных
иод управлением СУБД MS SQL1.
Поисковик AVSearch бесплатная программа Анатолия
Вознюка AVSearch (www.avt1ab.ru).
Однако этот программный продукт умеет работать только с текстовыми файлами и файлами формата RTF, правда во всех кодировках от СР866 до Unicode, что, в частности, обеспечивает £•• «поддержку» и формата DOC, т.к.
документы Microsoft Word исследуются как обычный текст.
Ее интерфейс достаточно прост и удобен.
В общем программа
неплохая, но ее существенным недостатком является медлительность.
Поисковик SSScanner с достаточно высокой скоростью работает с
° документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный.
Результаты отображаются в отдельном окне с выдержками из оригинальных документов.
Условнобесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием.
Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая
собст1 1 Разработки и решения от компании Смартвейр используются в крупнейших российских многопрофильных корпорациях и госструктурах, на предприятиях крупного и среднего бизнеса в различных отраслях производства, финансово-банковской сферы, страхового бизнеса и сферы услуг.
[стр. 183]

183 ния текстовых документов1.
Разбор структуры входного документа и выделение типовых элементов структуры данных и ее последующее преобразование к единому унифицированному формату осуществляется с помощью набора специальных функций, обеспечивающих анализ регулярных выражений, htmlи xml-тегов, токенайзинг и т.п.
Алгоритм использования функций разбора структуры определяется пользователями, настраивающими сервис, исходя из целей функционирования информационной системы или приложений, обрабатывающих результаты работы сервиса.
Наибольшую ценность системы, по нашему мнению, представляет возможность выявлять смысловые (ассоциативные) связи между ключевыми темами текстов.
Семантический разбор текста позволяет выделить в нем: физические и юридические лица, геофафические названия, даты, действия, ассоциативные связи между темами.
В комплексе с тематическим анализом устанавливает для каждой темы ряд близких тем, ассоциативно связанных с ней в тексте документов.
В результате формируется «смысловой портрет текста» в форме ассоциативной семантической сети.
Преобразованные к унифицированному формату документы сохраняются в специальной внутренней базе данных
под управлением СУБД MS SQL2.
Поисковик AVSearch бесплатная программа Анатолия
Возшока AVSearch (www.avtlab.ru).
Однако этот профаммный продукт умеет работать только с текстовыми файлами и файлами формата RTF, правда во всех кодировках от СР866 до Unicode, что, в частности, обеспечивает «поддержку» и формата DOC, т.к.
документы Microsoft Word исследуются как обычный текст.
Ее интерфейс достаточно прост и удобен.
В общем программа
не1 Информация предоставлена компанией ООО «Смартвсйр».
" Разработки и решения от компании Смартвсйр используются в крупнейших российских многопрофильных корпорациях и госструктурах, на предприятиях крупного и среднего бизнеса в различных отраслях производства, финансово-банковской сферы, страхового бизнеса и сферы услуг.


[стр.,184]

184 плохая, но ее существенным недостатком является медлительность.
Поисковик SSScanner с достаточно высокой скоростью работает с
документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный.
Результаты отображаются в отдельном окне с выдержками из оригинальных документов.
Условно-бесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием.
Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая
собственную базу данных («индекс»), по которой затем и осуществляется поиск.
Индексирование процесс достаточно длительный, но зато поиск занимает считанные секунды.
До недавнего времени основными недостатками данного ПО считались продолжительность операции первичного создания индекса и дополнительный расход дискового пространства.
Однако для мощных современных компьютеров это нс существенно.
Некоторое неудобство попрежнему связано с необходимостью регулярного обновления индексов, однако и это не проблема.
По своим поисковым возможностям отечественные разработки имеют определенное преимущество перед западными, поскольку их разработчики априори лучше иностранцев разбираются во всевозможных лингвистических нюансах нашего государственного языка.
1.Поисковик «Ищейка» (www.isleuthhound.com или http://www.
isleuthhound.ru) (iSlcuthHound Technologies).
«Ищейка» это полнотекстовая персональная поисковая система, работа с которой напоминает работу в поисковых системах Интернета, таких как AltaVista, Yahoo, Rambler.
При первом запуске она создает базу данных по имеющимся документам и индексирует ее.
Каждая база данных представляет собой зону поиска пространство на жестком диске, состоящее из каталогов.

[Back]