В работе рассмотрены теоретические и практические вопросы
решения задач поиска документов по образцу. Разработаны: модель структурного
представления текстовой информации, метод и алгоритмы ее тематического анализа,
позволяющие реализовать тематическую классификацию и вычисление степени
тематической принадлежности текста к образцу. Предложенная модель, метод и
алгоритмы могут использоваться как для решения конкретных задач поиска
документов по образцу, так и для решения общих задач тематического анализа и
обработки речевых высказываний.
Также в диссертации заложен базис для дальнейшей
теоретической и практической проработки методик экспериментальной оценки
корректности и эффективности методов и алгоритмов тематического анализа.
Можно выделить следующие основные результаты, полученные в
диссертации:
- Анализ текущего состояния информационно-поисковых
систем, современного состояния исследований в области поиска документов по
образцу и существующих методов тематического анализа.
- Графовая модель структурного представления текста
произвольного содержания, позволяющая отобразить семантическую связность и последовательность
текста в виде структуры.
- Метод частотно-контекстной классификации тематики
текста, позволяющий выделять тематику текста в виде множества ключевых слов с
весами, характеризующими значимость данных слов в тематике.
- Алгоритм вычисления степени тематической
принадлежности текста к образцу, позволяющий получать количественную оценку
тематической близости текстов.
- Алгоритм поиска значений информационных признаков
тематики текста, позволяющий учесть субъективный характер оценки тематической
близости текстов, и настроить систему, реализующую поиск документов по образцу
под конкретного пользователя.
- Программная реализация модели структурного
представления текстовой информации и методов ее тематического анализа.
- Экспериментальная оценка корректности и эффективности
выносимых на защиту результатов.
Разработанная модель, метод и алгоритмы позволяют
значительно повысить точность и адекватность тематического анализа. Их
реализация применительно к решению задач поиска документов по образцу позволяет
значительно повысить качество и эффективность такого поиска.
Программное обеспечение, разработанное в рамках
диссертационной работы, нашло свое применение в ряде инженерных проектов,
ориентированных на решение задач документооборота и информационно-справочного
обеспечения.
Практическая значимость диссертации подтверждается актами о
внедрении результатов исследования в Управлении по делам гражданской обороны и
чрезвычайным ситуациям г. Вологды, Администрации г. Вологды, ООО "Премьер-Информ".
Основные положения и отдельные результаты работы
докладывались и обсуждались на следующих конференциях и семинарах:
- на общероссийской научно-технической конференции "Вузовская
наука – региону", (Вологда 2003 г.);
- на международной научно-технической конференции "Информатизация
процессов формирования открытых систем на основе САПР, АСНИ, СУБД и систем
искусственного интеллекта (ИНФОС - 2003)", (Вологда 2003 г.).
В качестве направлений дальнейших исследований можно
выделить:
- разработка методологии оценки качества и эффективности
тематического анализа;
- разработка алгоритма поиска значений информационных признаков
тематики текста для произвольного числа оцениваемых экспертом текстов;
- разработка модели поиска на основе структурного представления текста.
|