GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (1)   Поиск:  
 Автор Тема: Лингво-частотный анализ с помощью SVM
Михайло
Сообщений: 2366
Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 0:15
Делаю подборку текстов в файл формата csv. Файл будет содержать два поля: id и text.
id - это идентификатор форумчанина Gotai: 0 - Михайло, 1 - Хмур, 2 - Luarvik, 3 - NO, 4 - rrr3, 5 - V.Tsaregorodtsev. Пока собрал шестерых.
text - это содержание поста форумчанина.

Так как сбор информации делается вручную, я отбираю большие посты. Мои посты, посты Хмура, посты rrr3 довольно большие, насобирал хорошую базу. NO немногословен, Luarvik редко попадался, V.Tsaregorodtsev только по пятницам под пивко появляется.

Недостатки такого сбора информации: посты взаимозависимы, то есть идет обсуждение общей темы, сообщения могут содержать обращения по имени, употребление одних и тех же терминов и всякое такое...

Сейчас поиграюсь в Пайтоне и выдам какие-нибудь интересные результаты. Возможно еще придется поработать над размером базы текстов.
[Ответ][Цитата]
Вольфрамовый клaпaн
Сообщений: 13070
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 0:42
Изменено: 25 ноя 17 0:45
Если из этого списка убрать ув. NO, то проект смело можно будет назвать изучением словоблудия, невежества и идиотизма.
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 1:42
Значит так, имеются первые результаты. Что я сделал?
Мне пришлось немного помучаться - заменить в текстах двойные кавычки на одинарные, чтобы набор данных соответствовал csv-формату. Хотя можно было кавычки совсем удалить, так как далее в автоматическом режиме заменил на пробел все символы, кроме символов латинского/кириллического алфавита и цифр. В общем в текстах остались одни слова и пробелы.
Далее я составил словарь TF-IDF (можете загуглить), то есть по сути оцифровал тексты. После этого данные стали полностью числовыми - идентификатор форумчанина и цифровой словарь.
Это дело я подал на вход классификатора опорных векторов SVM (Support Vector Machine). Фишкой этого алгоритма является то, что он умеет определять граничные объекты между классами (опорные вектора). В переводе на язык нашей задачи это означает, что алгоритм вычислил те слова, употребление которых отличает форумчанина от остальных форумчан.

Для простоты я пока взял данные только свои (Михайло, id=0) и Хмура (id=1). Составил словари. Прогнал через SVM. Отобрал 10 более важных опорных векторов каждого форучанина.

Опорные вектора Михайло: 'вы', 'задачи', 'машинное', 'мы', 'он', 'случайно', 'то', 'человек', 'человека', 'это'

Опорные вектора Хмура: 'вопрос', 'интеллекта', 'логика', 'машобуча', 'миха', 'сложность', 'тебе', 'ты', 'устойчивости', 'элементов'

Тексты в основном из скандальной темы "Ликбез по машинному обучению" + немного из "Искусственный интеллект для обывателя".

В общем видно, что Хмур был склонен тыкать в меня, апеллировал к логике, а я концентрировался на посторонних людях.
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 1:50
Изменено: 25 ноя 17 1:59
"Баттл" между мной и NO немного скучноват:
Михайло 'был', 'вы', 'данных', 'машинное', 'машину', 'между', 'мы', 'обучение', 'случайно', 'это'
NO 'rrr3', 'будет', 'бы', 'вообще', 'ещё', 'иногда', 'него', 'такие', 'тоже', 'утверждение'

Кстати, слова отсортированы по убыванию важности. В принципе так оно и есть: NO почти никогда не употребляет "вы", "ты", он всегда толкает свою бредятину вскользь, боясь получить по щам.
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 1:57
Изменено: 25 ноя 17 2:02
Михайло 'был', 'задачи', 'из', 'интеллект', 'машинное', 'мы', 'обучение', 'он', 'случайно', 'человека'
rrr3 'бы', 'все', 'механизмы', 'могут', 'на', 'проявления', 'разных', 'хотите', 'эволюционируемость', 'этом'

rrr3 очень любит эволюцию, это правда. А еще он злоупотребляет сослагательным наклонением "бы", "могут".
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 2:05
Изменено: 25 ноя 17 2:12
Хмур 'заподозрить' 'интеллекта' 'ли' 'напр' 'начинает' 'образа' 'сетки' 'сложность' 'ты' 'чего'
rrr3 'бы' 'вы' 'лишь' 'механизмы' 'могут' 'на' 'но' 'разных' 'то' 'это'

Как видно эволюция объединяет Хмура и rrr3, это слово не является отличительным в их словарях.

P.S. Слишком мало исходных данных, в текстах часто попадаются лишь частицы и местоимения, которые сразу становятся опорными. Надо бы автоматизировать процесс сбора данных в csv-формате. Кто-нибудь может написать код, который дёрнет тексты прямо с форума в автоматическом режиме? Проблема конечно следующего рода: нужно удалять цитаты из текста и еще научиться распознавать гостей (типа Хмур).
[Ответ][Цитата]
гость
188.170.83.*
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 3:18

нельзя не отметить осмысленность анализов михи - вот что значит ориентироваться на тестовые объективности (если уж не на содержание) и интерпретации строить на них, а не оставаться мудаком как егоров.
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Лингво-частотный анализ с помощью SVM
Добавлено: 25 ноя 17 3:39
Применение слов "это" указывает на склонность к менторству, мне кажется (Михайло, rrr3).
Слова "но", "то" - склонность к составлению сложносоставных предложений, далеко идущий ход мыслей (rrr3). Я за собой тоже наблюдаю склонность к составлению сложных предложений, поэтому в баттле "Михайло vs rrr3" не обнаруживаются такие отличия.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Лингво-частотный анализ с помощью SVM
Добавлено: 26 ноя 17 3:13
Цитата:
Автор: гость
нельзя не отметить осмысленность анализов михи

В чем осмысленность? Весь смысл моих например сообщений можно кратко изложить как "rrr3 будет бы вообще ещё иногда него такие тоже утверждение"?
[Ответ][Цитата]
гость
188.170.82.*
На: Лингво-частотный анализ с помощью SVM
Добавлено: 26 ноя 17 3:41

в интерпретациях, не в самих же опорных словах, хотя лично вам они могут не нравиться..
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Лингво-частотный анализ с помощью SVM
Добавлено: 26 ноя 17 5:40
Надо больше постов наколлекционировать. Хотя бы по сотне на каждого.
[Ответ][Цитата]
 Стр.1 (1)