GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.1 (1)
Поиск:
Автор
Тема: Оценка похожести данных
Alexey
Сообщений: 1
Оценка похожести данных
Добавлено: 16 янв 13 5:32
Здравствуйте!
У меня есть задача по выгрузке некоторых данных из стандартного xml. На основе него создаются записи в базе данных. Скрипт простой проверкой определяет были ли они загружены ранее. Если нет, то выгружает. Проблема в том, что иногда эти данные немного корректируют. Например, поменяют названия местами или допишут знак препинания. В итоге скрипт думает, что запись ранее не копировалась и создает строку в БД.
Таким образом получается 2 записи в базе данных, для семантически одной сущности.
Знает ли кто-нибудь решение, которое позволит оценивать степень похожести с некоторой вероятностью? Чтобы обращать человека-оператора на возможную проблему?
Самое простое, это конечно разбивать на слова и оценивать их по похожести не зависимо от порядка и знаков припинания. Но может есть и более серьезные алгоритмы?
[
Ответ
][
Цитата
]
Сообщений: 768
На: Оценка похожести данных
Добавлено: 16 янв 13 6:30
а не проще, сделать так чтобы когда запись редактируется она имела метку, например primary key из таблицы, есть куда эту метку спрятать чтобы ваша программа/скрипт ее могли использовать?
...можно конечно пойти и по пути сравнения, но опять же если вы будете разрабатывать специализированный алгоритм под вашу задачу, он вероятно будет проще и легче в сравнении с универсальным
[
Ответ
][
Цитата
]
Fractaler
Сообщений: 2490
На: Оценка похожести данных
Добавлено: 16 янв 13 6:44
Цитата:
Автор: Alexey
В Википедии эту проблему решают кучей добровольцев, которым предоставляются для сравнения оригинальная и изменённая строки. А сколько споров возникает по выяснению их тожесамости! Скажет один, что учение и теория - это одно и тоже. Или что способ определения = эксперимент. И т.д. и т.п.
[
Ответ
][
Цитата
]
daner
Сообщений: 4593
На: Оценка похожести данных
Добавлено: 16 янв 13 11:07
>>>>>>> Alexey
можно конечно всякие навороченные способы обсуждать....
но первое на что стоит обратить внимание это обычный алгоритм сравнения текстов
типа того который применяется в широко известной программе diff и ее подражателях.
[
Ответ
][
Цитата
]
Эгг (остерегайтесь подделок, у меня > 5907 сообщений)
Сообщений: 508
На: Оценка похожести данных
Добавлено: 24 янв 15 0:42
Ещё кошмарики которые напугали эмигранта в Америку. Руководство Кремля неоднократно заявляло о возможности ядерной войны.
Публика уже подготовлена и не воспринимает это как что то необычное.
Третья Чеченская может быть ядерной.
[
Ответ
][
Цитата
]
Стр.1 (1)
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net