Накопленные к настоящему времени колоссальные объемы
информации, в совокупности с непрерывно увеличивающимися темпами ее роста
определяют актуальность и значимость исследований в области информационного
поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют
значительному увеличению доступных информационных ресурсов и объемов
передаваемой информации. Зачастую это разнородная, слабо структурированная и
избыточная информация, обладающая высокой динамикой обновления.
При сегодняшних объемах доступной информации решение задач
информационного поиска становится не только приоритетным, но и элементарно
необходимым для обеспечения своевременного доступа к интересующей информации.
Существует ряд авторитетных международных конференций, посвященных
обсуждению вопросов информационного поиска [13]. Это такие известные конференции
как:
TREC (Text REtrieval Conference) – цикл конференций организованный под эгидой NIST
(National Institute for Standards and Technology)
– одного из авторитетных органов стандартизации информационных технологий в США;
SIGIR (Special Interest Group on Information Retrieval) – цикл конференций проводимых ACM SIGIR (ACM -
Association of Computing Machinery) –международной группой специалистов по информационному
поиску.
WWW (World Wide Web) Conference – специально организованная
конференция по решению задач, связанных с Интернет.
Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих
исследовательских коллективов и разработчиков технологий информационного поиска
во многом определяет приоритетные направления исследований и задает общие
принципы развития поисковых систем.
Из наших отечественных конференций, посвященных вопросам
информационного поиска, нужно отметить ежегодную всероссийскую конференцию "Электронные
библиотеки" (RCDL) и семинар по компьютерной лингвистике "Диалог".
Также необходимо отметить ряд отечественных научных школ:
- SPBU IR Group – исследовательская группа в области информационного поиска
(Санкт-Петербургский Государственный Университет);
- Исследовательский центр ИИ ИПС РАН;
- Центр информационных исследований (НИВЦ МГУ).
Кроме того, существуют коммерческие организации,
занимающиеся не только вопросами исследований, но и вопросами внедрения
информационных технологий, это такие известные организации как Яндекс, Рамблер,
Апорт, НейрОК, Гарант-Парк-Интернет, Галактика-Зум, ABBYY-FTR, AOT и др.
Ряд авторитетных исследователей внесли своими научными
трудами значительный вклад в развитие информационно-поисковых систем:
И.С. Некрестьянов, И.E. Кураленок, В.Ю. Добрынин, Дубинский А.Г., А.Е. Ермаков,
М.Р. Когаловский, А.В. Сокирко, G. Salton, A. Singhal, M. Mitra, S. Lawrence,
P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen,
L. Gravano, J. Kleinberg.
Существует широкий спектр предлагаемых решений и перспективных
направлений исследований в области информационного поиска, начиная от построения
глобальных распределенных информационных структур и поисковых систем, заканчивая
элементарными на первый взгляд вопросами анализа документов. Все они,
безусловно, важны и полезны при решении своих специфических задач. Тем не
менее, именно от методов анализа во многом зависит эффективность существующих
поисковых систем, т.к. они являются основой любой поисковой системы и во многом
определяют возможности и ограничения этих систем.
Помимо этого существует еще один важный фактор, определяющий,
на наш взгляд, эффективность любого информационного поиска – это человеческий
фактор. Зачастую в большинстве исследований, относящихся к информационному
поиску, этот фактор либо игнорируется, либо его значение во многом
недооценивается. Но именно человек в конечном итоге пользуется разработанными
информационно-поисковыми системами. Учет человеческого фактора, специфики его
работы, предпочтений и ожиданий является перспективным и многообещающим
направлением исследований.
Представленные на сегодняшний день в большинстве популярных
поисковых систем способы организации полнотекстового поиска и методы анализа
документов не учитывают в достаточной мере как раз человеческий фактор. А
именно, не учитывается тот факт, что во многом поиск определяется слабо
формализуемыми и нечеткими условиями, в значительной степени зависящими от
опыта и предпочтений самого человека. Далеко не всегда пользователь информационно-поисковой
системы может четко и однозначно сформулировать именно тот набор ключевых слов,
который и приведет его к искомому результату. Речь идет о варианте поиска на
основе формирования информационных запросов, состоящих из набора ключевых слов
и некоторых управляющих элементов языка запроса. Этот вариант поиска наиболее
распространен и методологически проработан на сегодняшний день.
Сложность формирования информационных запросов может быть обусловлена:
- незнанием набора ключевых слов, однозначно определяющих искомый документ;
- отсутствием достаточного опыта и квалификации формирования таких запросов;
- отсутствием принятой и устоявшейся терминологии в интересующей области.
Нередко человек, осуществляющий поиск, имеет самое
приблизительное представление об интересующей его тематике.
Все это обуславливает актуальность и значимость исследований,
направленных на решение одной из ключевых проблем информационного поиска –
проблемы адекватного отображения информационных потребностей пользователей.
Одним из вариантов решения этой проблемы является поиск
документов по образцу, когда человек задает некоторый документ в качестве
образца, а система, реализующая данный вариант поиска подбирает документы подобные
заданному (подобные по содержанию, тематике).
Анализ существующих исследований, посвященных решению задач
поиска документов по образцу, выявил крайне незначительное число готовых и апробированных
решений, что во многом связано с отсутствием достаточно проработанной теории и
практики решения задач тематического анализа неструктурированной,
естественно-языковой текстовой информации произвольного содержания. Эффективное
решение задач такого анализа применительно к реализации поиска документов по
образцу и составляет суть диссертационной работы.
Цель работы: метод тематического
анализа неструктурированной текстовой информации для эффективного решения
задач поиска документов по образцу.
В основе работы лежит модель структурного представления
текста в виде ориентированного мультиграфа, а также способы формирования и
анализа такой модели применительно к решению задач поиска документов по образцу.
А именно, решению двух основных задач, позволяющих реализовать поиск документов
по образцу [35]:
1. Выделение тематики документа.
Тематика отражает содержание документа и включает в себя
множество ключевых слов, находящихся в некоторой зависимости друг от друга. Один
из вариантов такой зависимости - весовые коэффициенты, отражающие значимость
того или иного слова в конкретной тематике.
В работе представлен метод, реализующий автоматизированное
выделение тематики как для одного документа, так и для набора близких в тематическом
отношении документов, т.е. тематическое обобщение набора документов.
2. Вычисление тематической близости документов.
Именно результат вычисления тематической близости, в
конечном счете, и определяет результат поиска. Как правило, результат поиска дает
множество документов, в той или иной мере удовлетворяющим условиям поиска.
Вычисляя значения тематической близости, эти документы можно
проранжировать по степени значимости для пользователя. В работе представлен алгоритм
вычисления тематической близости документов.
На защиту выносятся следующие результаты:
- Графовая модель структурного представления текста произвольного содержания.
- Метод частотно-контекстной классификации тематики текста.
- Алгоритм вычисления степени тематической принадлежности текста к образцу.
- Алгоритм поиска значений информационных признаков тематики текста.
Научная новизна полученных результатов.
Основная научная новизна состоит в том, что разработанная
модель, метод и алгоритмы позволяют эффективнее решать задачи поиска документов
по образцу, в том числе:
- Графовая модель структурного представления текста
произвольного содержания отличается учетом связности и последовательности
текста, что позволяет более полно отразить его семантическое содержание.
- Метод частотно-контекстной классификации тематики
текста отличается дополнением частотно значимых слов контекстно-связанными с
ними словами, что позволяет более точно отобразить тематику текста.
- Алгоритм вычисления степени тематической принадлежности
текста к образцу отличается использованием частотных весов отдельных слов с
учетом их контекстной спецификации, что позволяет более точно вычислить степень
тематической принадлежности произвольного текста к тексту-образцу.
- Алгоритм поиска значений информационных признаков тематики
текста отличается минимизацией разницы экспертных и вычисленных оценок тематической
принадлежности, что позволяет более точно классифицировать тематику текста и
учесть субъективную составляющую при определении степени тематической
принадлежности.
Практическая значимость результатов
диссертационной работы состоит в использовании модели, метода и алгоритмов для
решения задач поиска документов по образцу, а также для решения общих задач
тематического анализа и обработки речевых высказываний.
Модель, метод и алгоритмы, предложенные в диссертационной
работе, позволяют значительно повысить точность и адекватность тематического
анализа. Их реализация применительно к решению задач поиска документов по
образцу позволяет повысить качество и эффективность такого поиска.
Практическая значимость диссертации подтверждается актами о
внедрении результатов исследования в Администрации г. Вологды, Управлении по
делам гражданской обороны и чрезвычайным ситуациям г. Вологды, ООО
"Премьер-Информ".
Диссертация состоит из введения, четырех глав, заключения,
списка литературы и приложения.
В первой главе "Анализ предметной
области и постановка задач исследования" выполнен анализ текущего состояния
информационно-поисковых систем, перечислена основная терминология, решаемые задачи
и способы их решения, показана специфика данной области и существующие в ней
проблемы. Рассмотрены основные методы тематического анализа текстовой
информации и проанализировано современное состояние исследований в области
поиска документов по образцу. Кроме того, сформулирована цель и задачи
диссертационного исследования.
Во второй главе "Разработка модели
структурного представления и метода тематического анализа текста" выполнена
разработка выносимых на защиту результатов диссертационной работы, а также представлено
их теоретическое обоснование.
В третьей главе "Практическая
реализация модели структурного представления и метода тематического анализа
текста" рассмотрены вопросы организации поиска документов по образцу на основе
предложенных в работе модели, метода и алгоритмов, а также приведена их конкретная
реализация, в виде объектно-ориентированного программного кода на языке C#.
В четвертой главе "Проведение
экспериментальных исследований" приведены результаты экспериментальных
исследований разработанного метода и алгоритмов на заданной коллекции тестовых
документов, а также выполнена оценка их эффективности и корректности.
В заключении сформулированы основные
выводы и результаты диссертационной работы.
|