новости

материалы

справочник

форум

гостевая

ссылки

Содержание

	Логические подходы
	Нейронные сети
	Генетические алгоритмы
	Разное
	Публикации
	Алгоритмы
	Применение

Кнопки

Введение

Накопленные к настоящему времени колоссальные объемы информации, в совокупности с непрерывно увеличивающимися темпами ее роста определяют актуальность и значимость исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. Зачастую это разнородная, слабо структурированная и избыточная информация, обладающая высокой динамикой обновления.

При сегодняшних объемах доступной информации решение задач информационного поиска становится не только приоритетным, но и элементарно необходимым для обеспечения своевременного доступа к интересующей информации.

Существует ряд авторитетных международных конференций, посвященных обсуждению вопросов информационного поиска [13]. Это такие известные конференции как:

TREC (Text REtrieval Conference) – цикл конференций организованный под эгидой NIST (National Institute for Standards and Technology) – одного из авторитетных органов стандартизации информационных технологий в США;

SIGIR (Special Interest Group on Information Retrieval) – цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) –международной группой специалистов по информационному поиску.

WWW (World Wide Web) Conference – специально организованная конференция по решению задач, связанных с Интернет.

Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.

Из наших отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую конференцию "Электронные библиотеки" (RCDL) и семинар по компьютерной лингвистике "Диалог".

Также необходимо отметить ряд отечественных научных школ:

SPBU IR Group – исследовательская группа в области информационного поиска (Санкт-Петербургский Государственный Университет);
Исследовательский центр ИИ ИПС РАН;
Центр информационных исследований (НИВЦ МГУ).

Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Парк-Интернет, Галактика-Зум, ABBYY-FTR, AOT и др.

Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.С. Некрестьянов, И.E. Кураленок, В.Ю. Добрынин, Дубинский А.Г., А.Е. Ермаков, М.Р. Когаловский, А.В. Сокирко, G. Salton, A. Singhal, M. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg.

Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом зависит эффективность существующих поисковых систем, т.к. они являются основой любой поисковой системы и во многом определяют возможности и ограничения этих систем.

Помимо этого существует еще один важный фактор, определяющий, на наш взгляд, эффективность любого информационного поиска – это человеческий фактор. Зачастую в большинстве исследований, относящихся к информационному поиску, этот фактор либо игнорируется, либо его значение во многом недооценивается. Но именно человек в конечном итоге пользуется разработанными информационно-поисковыми системами. Учет человеческого фактора, специфики его работы, предпочтений и ожиданий является перспективным и многообещающим направлением исследований.

Представленные на сегодняшний день в большинстве популярных поисковых систем способы организации полнотекстового поиска и методы анализа документов не учитывают в достаточной мере как раз человеческий фактор. А именно, не учитывается тот факт, что во многом поиск определяется слабо формализуемыми и нечеткими условиями, в значительной степени зависящими от опыта и предпочтений самого человека. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к искомому результату. Речь идет о варианте поиска на основе формирования информационных запросов, состоящих из набора ключевых слов и некоторых управляющих элементов языка запроса. Этот вариант поиска наиболее распространен и методологически проработан на сегодняшний день.

Сложность формирования информационных запросов может быть обусловлена:

незнанием набора ключевых слов, однозначно определяющих искомый документ;
отсутствием достаточного опыта и квалификации формирования таких запросов;
отсутствием принятой и устоявшейся терминологии в интересующей области.

Нередко человек, осуществляющий поиск, имеет самое приблизительное представление об интересующей его тематике.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска – проблемы адекватного отображения информационных потребностей пользователей.

Одним из вариантов решения этой проблемы является поиск документов по образцу, когда человек задает некоторый документ в качестве образца, а система, реализующая данный вариант поиска подбирает документы подобные заданному (подобные по содержанию, тематике).

Анализ существующих исследований, посвященных решению задач поиска документов по образцу, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач тематического анализа неструктурированной, естественно-языковой текстовой информации произвольного содержания. Эффективное решение задач такого анализа применительно к реализации поиска документов по образцу и составляет суть диссертационной работы.

Цель работы: метод тематического анализа неструктурированной текстовой информации для эффективного решения задач поиска документов по образцу.

В основе работы лежит модель структурного представления текста в виде ориентированного мультиграфа, а также способы формирования и анализа такой модели применительно к решению задач поиска документов по образцу. А именно, решению двух основных задач, позволяющих реализовать поиск документов по образцу [35]:

1. Выделение тематики документа.

Тематика отражает содержание документа и включает в себя множество ключевых слов, находящихся в некоторой зависимости друг от друга. Один из вариантов такой зависимости - весовые коэффициенты, отражающие значимость того или иного слова в конкретной тематике.

В работе представлен метод, реализующий автоматизированное выделение тематики как для одного документа, так и для набора близких в тематическом отношении документов, т.е. тематическое обобщение набора документов.

2. Вычисление тематической близости документов.

Именно результат вычисления тематической близости, в конечном счете, и определяет результат поиска. Как правило, результат поиска дает множество документов, в той или иной мере удовлетворяющим условиям поиска.

Вычисляя значения тематической близости, эти документы можно проранжировать по степени значимости для пользователя. В работе представлен алгоритм вычисления тематической близости документов.

На защиту выносятся следующие результаты:

Графовая модель структурного представления текста произвольного содержания.
Метод частотно-контекстной классификации тематики текста.
Алгоритм вычисления степени тематической принадлежности текста к образцу.
Алгоритм поиска значений информационных признаков тематики текста.

Научная новизна полученных результатов.

Основная научная новизна состоит в том, что разработанная модель, метод и алгоритмы позволяют эффективнее решать задачи поиска документов по образцу, в том числе:

Графовая модель структурного представления текста произвольного содержания отличается учетом связности и последовательности текста, что позволяет более полно отразить его семантическое содержание.
Метод частотно-контекстной классификации тематики текста отличается дополнением частотно значимых слов контекстно-связанными с ними словами, что позволяет более точно отобразить тематику текста.
Алгоритм вычисления степени тематической принадлежности текста к образцу отличается использованием частотных весов отдельных слов с учетом их контекстной спецификации, что позволяет более точно вычислить степень тематической принадлежности произвольного текста к тексту-образцу.
Алгоритм поиска значений информационных признаков тематики текста отличается минимизацией разницы экспертных и вычисленных оценок тематической принадлежности, что позволяет более точно классифицировать тематику текста и учесть субъективную составляющую при определении степени тематической принадлежности.

Практическая значимость результатов диссертационной работы состоит в использовании модели, метода и алгоритмов для решения задач поиска документов по образцу, а также для решения общих задач тематического анализа и обработки речевых высказываний.

Модель, метод и алгоритмы, предложенные в диссертационной работе, позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов по образцу позволяет повысить качество и эффективность такого поиска.

Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в Администрации г. Вологды, Управлении по делам гражданской обороны и чрезвычайным ситуациям г. Вологды, ООО "Премьер-Информ".

Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения.

В первой главе "Анализ предметной области и постановка задач исследования" выполнен анализ текущего состояния информационно-поисковых систем, перечислена основная терминология, решаемые задачи и способы их решения, показана специфика данной области и существующие в ней проблемы. Рассмотрены основные методы тематического анализа текстовой информации и проанализировано современное состояние исследований в области поиска документов по образцу. Кроме того, сформулирована цель и задачи диссертационного исследования.

Во второй главе "Разработка модели структурного представления и метода тематического анализа текста" выполнена разработка выносимых на защиту результатов диссертационной работы, а также представлено их теоретическое обоснование.

В третьей главе "Практическая реализация модели структурного представления и метода тематического анализа текста" рассмотрены вопросы организации поиска документов по образцу на основе предложенных в работе модели, метода и алгоритмов, а также приведена их конкретная реализация, в виде объектно-ориентированного программного кода на языке C#.

В четвертой главе "Проведение экспериментальных исследований" приведены результаты экспериментальных исследований разработанного метода и алгоритмов на заданной коллекции тестовых документов, а также выполнена оценка их эффективности и корректности.

В заключении сформулированы основные выводы и результаты диссертационной работы.

Содержание