|
|
Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 8:05
Изменено: 10 сен 14 8:09
|
Добрый День ! Пишу с нуля на Си поисковый движок. На сегодня проиндексировано около 0.5 ТБ информации. Суть поискового движка в том, что он на основе огромных обьемов информации моделирует что-то вроде нейросети и пытается провести ассоциации. Вот здесь Вы можете уже чтото потестировать, забивая определенные слова\термины (технологии, политики, поп звезды, города, мемберы и тд тд) и отслеживать как движок строит ассоциативный ряд. http://booben.com/?q=%D1%81%D1%82%D0%B8%D0%B2&s=sql.ruНа достигнутом я не хочу останавливаться и попробовать выделить из огромной сети не только связи между вершинами, но и типы этих связей. А там уже и до классификации недалеко. Причем ИИ получается в самой своей мальчишеской форме. На вход черного ящика подали какието просто огромные обьемы данных, на выходе получили нечто что сделало выводы о окружающем мире, построило ассоциативные цепочки и замоделировало обьекты. Делитесь своими мыслями
|
|
|
| |
| |
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 8:31
Изменено: 10 сен 14 8:32
|
У меня такие примеры. Вот сеть делает вывод о названии месяцев http://booben.com/?q=январь&s=sql.ru Вот сеть делает вывод о Стиве http://booben.com/?q=стив&s=sql.ru Вот сеть делает вывод о Путине, его должности и его окружении http://booben.com/?q=путин&s=sql.ru и тд. Причем, прошу заметить. Выводы эти сеть делает без любого ручного вмешательства. Ей просто скормили 56гб какогото муссора, половина из которого "просто треп" и сеть сделала выводы. Сеть получила первое и самое фундаментальное свойство интеллекта - умение строить ассоциативные ряды. Кстате если хотите, могу взять "под скальпель" и этот форум. Здесь всего около 100 тыс тем, не много, но простенькую базу знаний можно построить.
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
+1
Добавлено: 10 сен 14 8:37
|
Автор: Bazist Причем, прошу заметить. Выводы эти сеть делает без любого ручного вмешательства.
|
|
Ассоциация - это очень забавная вещь, два любых слова ассоциативно связаны. Проблема с ассоциациями не в том, что среди них будут какие-то правильные, а в том, что среди них будет очень много мусора. Как вы задаете значение ассоциативной близости? По частоте близости пар слов в предложении?
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 8:42
|
Автор: Egg
Ассоциация - это очень забавная вещь, два любых слова ассоциативно связаны. Проблема с ассоциациями не в том, что среди них будут какие-то правильные, а в том, что среди них будет очень много мусора. Как вы задаете значение ассоциативной близости? По частоте близости пар слов в предложении? |
|
1. Муссора там нет. Количество муссора уменьшается пропорционально обьемам данных. Если на маленьких обьемах мы имеем какието незначительные дискретные флуктуации. То на больших обьемах данных работают другие законы и ассоциативные связи почти на 100% соответствуют действительности ну или той базе знаний которую скормили сети. 2. Никакие значения я не задаю, я же говорил. Алгоритм никак не привязан не к языку, не к разметке не даже к знакам припинания. Это чистая модель, как из огромной горы инфорации можно построить правильные ассоциативные ряды. Осталось их только классифицировать.
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 8:48
|
Автор: Bazist Это чистая модель, как из огромной горы инфорации можно построить правильные ассоциативные ряды.
|
|
Понятно, Господь писал код, а Вы только клавиши давили. Тогда Вам нужно объединиться с DCV, у него тоже чистые модели строят правильные смыслы.
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 9:00
|
Автор: Egg Понятно, Господь писал код, а Вы только клавиши давили. Тогда Вам нужно объединиться с DCV, у него тоже чистые модели строят правильные смыслы. |
|
Если DCV обьявится, тогда пускай мне отпишет. По сути, что мы имеем. Мы имеем огромную сеть на несколько миллионов нодов. Мы имеем выделенные связи в этой сети. Но эти связи носят только количественный характер. Мы сейчас можем только сказать, что вот эта штука очень близка к этой штуке. Но в каких они на самом деле отношениях - мы не знаем. Может быть это синонимы, может это родительских и дочерний элемент, может еще чтото. Вообще есть мысли как это можно обсчитать, но это ужасно дорого на существующих вычислительных возможностях.
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 9:05
|
Автор: Bazist Мы сейчас можем только сказать, что вот эта штука очень близка к этой штуке. |
|
Если Вы не ответите мне на вопрос как считается вес ассоциативной близости, я не смогу Вам помочь. Какая разница, сеть это, дерево или таблица. Важна функция. Если Вы не понимаете какую именно фукнцию Вы задаете своей сетью, тогда Вам будет трудно двигаться дальше.
|
|
|
NO. Сообщений: 10700 |
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 9:54
Изменено: 10 сен 14 9:56
|
Индюк плохо: индюк жируя пиздата рейстаг 14грн купонах цвел индюшати грошах санузлов сажания выкуришь хитрий накрывая induc скупаем купонами купонам гробовоз 98го сумневай нужники нависли окажецо смые
Термос вроде хорошо: термос термосе термоса термосы фляга электроч кипятка глинтвей термосом термосов колбой 70км складная релакса стильной рюкзачок фляжку перебары помешива замерзло колея макдрайв обедаем обедах флягу
Такая программу уже может искать ошибки, отличать текст от случайного набора слов, находить фрагменты где не вода, а связаны далекие понятия.
Дальше нужно искать классы, всеми способами, по всем возможным основаниям. Например чтобы автоматически собрались в один класс дни недели, бренды, мат. Ассоциации объединяют, теперь нужны разделители. Оттуда назад улучшать качество ассоциаций. Потом начнутся структуры.
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 10:01
Изменено: 10 сен 14 10:05
|
Автор: NO. Такая программу уже может искать ошибки, отличать текст от случайного набора слов, находить фрагменты где не вода, а связаны далекие понятия. |
|
Когда я начинал работать над газпромовской системой, прежде всего я сделал распознавалку сварных швов (это репера и сигнал более-менее). В первом варианте у меня получилось качество 97%. Я окрыленный и гордый побежал к дефектоскопистам обсуждать успехи. Они посмотрели на меня сочувственно и сказали: для одного участка при множественных инспекциях будет порядка 50К сварных швов, 3% ошибки дает 1500 областей для ручной обработки. Ужасный результат. Хороший результат начинается с 99.7%
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 10:35
|
Автор: Egg Если Вы не понимаете какую именно фукнцию Вы задаете своей сетью, тогда Вам будет трудно двигаться дальше. |
|
Функция простая, она определяет что одни понятия почемуто ближе друг к другу по смыслу чем другие понятия.
|
|
|
| |
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 10:41
Изменено: 10 сен 14 10:44
|
Автор: NO.
Индюк плохо: индюк жируя пиздата рейстаг 14грн купонах цвел индюшати грошах санузлов сажания выкуришь хитрий накрывая induc скупаем купонами купонам гробовоз 98го сумневай нужники нависли окажецо смые
|
|
"Индюк" просто используется обычно не при своем прямом названечении. Ну и статистика по нему дохленькая. http://booben.com/Stat?q=%D0%B8%D0%BD%D0%B4%D1%8E%D0%BA&s=sql.ruНа сёрче чуток получше статистика по индюку http://booben.com/?q=индюк&s=searchengines.guru Вот если бы скормить животноводческий форум, то всё было бы пучком по индюку.
|
|
|
|
На: Пишу поисковый движок с элементами ИИ
Добавлено: 10 сен 14 10:43
|
Автор: Bazist Функция простая, она определяет что одни понятия почемуто ближе друг к другу по смыслу чем другие понятия. |
|
Началось. Нет там никакого смысла, это Вам показалось. Есть прагматика и статистика, полученная из этой прагматики, основанная на двух вещах: участие слов в одном и том же предложении и на расстоянии между словами. Всё. Никакого смысла, никаких понятий. Поэтому Ваши ассоциации неверные, они будут показывать преимущественно отношения частей, элементов и целого, поскольку в русском языке такое отношение задается родительным падежом без предлога: ручка двери, крыша дома. А вот то, что дом - это здание, сарай, сооружение, таких ассоциаций не будет.
|
|
|
|