GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (1)   Поиск:  
 Автор Тема: Оценка похожести данных
Alexey
Сообщений: 1
Оценка похожести данных
Добавлено: 16 янв 13 5:32
Здравствуйте!
У меня есть задача по выгрузке некоторых данных из стандартного xml. На основе него создаются записи в базе данных. Скрипт простой проверкой определяет были ли они загружены ранее. Если нет, то выгружает. Проблема в том, что иногда эти данные немного корректируют. Например, поменяют названия местами или допишут знак препинания. В итоге скрипт думает, что запись ранее не копировалась и создает строку в БД.

Таким образом получается 2 записи в базе данных, для семантически одной сущности.

Знает ли кто-нибудь решение, которое позволит оценивать степень похожести с некоторой вероятностью? Чтобы обращать человека-оператора на возможную проблему?

Самое простое, это конечно разбивать на слова и оценивать их по похожести не зависимо от порядка и знаков припинания. Но может есть и более серьезные алгоритмы?
[Ответ][Цитата]

Сообщений: 768
На: Оценка похожести данных
Добавлено: 16 янв 13 6:30
а не проще, сделать так чтобы когда запись редактируется она имела метку, например primary key из таблицы, есть куда эту метку спрятать чтобы ваша программа/скрипт ее могли использовать?

...можно конечно пойти и по пути сравнения, но опять же если вы будете разрабатывать специализированный алгоритм под вашу задачу, он вероятно будет проще и легче в сравнении с универсальным
[Ответ][Цитата]
Fractaler
Сообщений: 2490
На: Оценка похожести данных
Добавлено: 16 янв 13 6:44
Цитата:
Автор: Alexey

В Википедии эту проблему решают кучей добровольцев, которым предоставляются для сравнения оригинальная и изменённая строки. А сколько споров возникает по выяснению их тожесамости! Скажет один, что учение и теория - это одно и тоже. Или что способ определения = эксперимент. И т.д. и т.п.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Оценка похожести данных
Добавлено: 16 янв 13 11:07
>>>>>>> Alexey

можно конечно всякие навороченные способы обсуждать....
но первое на что стоит обратить внимание это обычный алгоритм сравнения текстов
типа того который применяется в широко известной программе diff и ее подражателях.
[Ответ][Цитата]
Эгг (остерегайтесь подделок, у меня > 5907 сообщений)
Сообщений: 508
На: Оценка похожести данных
Добавлено: 24 янв 15 0:42
Ещё кошмарики которые напугали эмигранта в Америку. Руководство Кремля неоднократно заявляло о возможности ядерной войны.

Публика уже подготовлена и не воспринимает это как что то необычное.

Третья Чеченская может быть ядерной.
[Ответ][Цитата]
 Стр.1 (1)