Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.2 (78) << < Пред. | След. > >> Поиск:

Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:05

Цитата:
Автор: kondrat

А также, с "филосовской" точки зрения хочу заметить, что основным признаком жизни (а может и интеллекта) является способность не просто классифицировать или восстановить, а воспринять и обработать что-то новое и выработать новую реакцию.

Я с этим согласен. И в своей статье я говорю, что это предварительные данные. Вообще в предложенной программе ничего нет от агента, как такового. Нету ручек и ножек. Это все впереди. И как одну из задач я отмечу. Человек все время произносит фразы про себя. Надо в модели так же сформировать обратный канал, в данном случае sound. Сделать это можно например с помощью SAPI5.

[Ответ][Цитата]

kondrat
Сообщений: 4026

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:09

Цитата:
Автор: Kek
Ваш вопрос слишком общий. Я могу развить, но боюсь будет утомительно...
Чар-агент предательский, простой... Мне задавали вопрос, а почему вы хаваете пробелы? Почему априорно не разделяете на слова, ведь это так просто... Вот теперь с позиции saund-потока не понятно ли почему? Процессы должны быть идентичными. Поток - есть поток. Отличия все должны быть в областях или методах, которые обслуживают самые первые данные от сенсоров.

Ну, я имел в виду, что, по большому счету, просто, в канале происходит еще одно преобразование сигнала: нумеруются спектры, нумеруются последовательности номеров спектров и т.п.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:24

Цитата:
Автор: kondrat
Ну, я имел в виду, что, по большому счету, просто, в канале происходит еще одно преобразование сигнала: нумеруются спектры, нумеруются последовательности номеров спектров и т.п.

В модуле UnitMem в процедуре TMemLevelSound.AddData имено так все и происходит...

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:24

Цитата:
1. ... Гугл - как частный пример, ориентир. Я намеренно съехал с высот на конкретный уровень. И это оказалось полезным.
Зря! Гугл - это не высота! Это ориентированость на массы. Мой голос он не понимает (меньше 5% команд). И в умный дом (если бы он у меня был) я бы не стал встраивать гугл - вдруг отключат интернет или сервис распознавалки. А вот распознавалку в "коробочном" варрианте я бы хотел иметь.

Цитата:

2. Это чать проекта. Char-agent, Sound-Agent, Image-agent. Sound-agent вы видели. Char - agent обсуждался, но у меня есть в нем наработки, которые сырые и их пока нет смысла выставлять. Там есть кое-что более продвинутое, чем в Saund-Agent. Image - ждет своего часа. Когда все три потока будут поняты, надо их объединять в кучу. Только в куче будет толк.
Не советую "расплываться" - это главная ошибка. Доведите хоть один проект до ума! Я этот этап уже проходил! В результате имею несколько десятков не оконченых (но очень полезных) проектов. Полезные модули унифицировал и перекидываю между проектами, но склеить все вместе не реально. Единственное решение - написать язык способный на это... на этом и застрял (свободное время закончилось).

Кстати в Вашем случае Sound-Agent заменил бы на Voice-Agent. Распознаете не звуки, а голос.

Цитата:
3. Конкретно Saund-Agent начат был аж в 1993 году. Тогда на IBM-XT удалось сделать реально быстрое Фурье, подсчитав все коэфы заранее. Всегда есть альтернатива время - память. Над конечной формой работал интенсивно 3 месяца Февраль - апрель.
Маловато наработано! В 1993г микрофоны были слабые. Распознавалки даже запись чистую сделать не могли. Графика крайне слабая(на первой форме). Полноценного редактора звука нет(нарезка, изменение громкости). Проигрывание странное - "булькающие" наборы фонем. Зависает на закрытие каждый 2-3й запуск. Процессор сильно жрет в режиме ожидания. Повторный запуск записи иногда зависает, а не перезаписывает. Что делать с записанными патернами не понимаю. Нет работы с уже записаными аудио-файлами (говорилка за час тестирования устает). Не плохо бы отобразить 3Д звук (время, частота, уровень) - в моих ранних наработках это уже было. Микрофон не хватает (Win7) комьютерные аудио-потоки (видео-плеер, аудио-плеер, телек, радио) - только внешний голос. Нельзя проиграть или анализировать не до конца записанный блок.
Нельзя записать более длинную запись.

Если планируете двигаться дальше именно в аудио анализе, советую:
1) Нарезать программу на логические блоки - запись с микрофона(запись в Вин98 отличается от Вин7), хранение в памяти(буферы), хранение в файлах(аудио-форматы), преобразователи (ФФТ-несколько вариантов, громкости), визуализаторы (отображение буферов в 2Д и 3Д графиков), анализаторы (простор для ИИ - до этого этапа я не дошел).
2) Каждый блок должен быть отполирован так что-бы не глючил.
3) Советую свернуть программу в часы (трей) чтобы анализ шел круглосуточно пока Вы за компом. Поможет выловить ошибки, заготовка для круглосуточного анализа.
4) Советую отладить механизм ФФТ на полном преобразовании и склеивании назад звука. И дальнейшего его проигрывания. Так поймете что алгоритм работает без потерь.

[Ответ][Цитата]

kondrat
Сообщений: 4026

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:25

В общем, я думаю, что смогу помочь вам со спектральным анализом речи (хоть и не занимался этим) и пояснительной запиской "на пальцах". Поработать надо...

[Ответ][Цитата]

kondrat
Сообщений: 4026

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:26

Цитата:
Автор: Kek
В модуле UnitMem в процедуре TMemLevelSound.AddData имено так все и происходит...

Дык...
А это не совсем "то", с моей, дурацкой, точки зрения.

[Ответ][Цитата]

kondrat
Сообщений: 4026

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:33
Изменено: 28 окт 13 5:27, автор изменений: Kek

del

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 12:34

Цитата:
Автор: Tester64
Если планируете двигаться дальше именно в аудио анализе, советую:

Да, я понял, на данный момент тайм-аут... Надо осмотреться, чтобы не идти в бурелом.

[Ответ][Цитата]

vchc
Сообщений: 194

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 13:08

Цитата:
Автор: Kek

Да, да, да. Спору нет. Относительно обычного и не обычного пути. Но скажу одну мысль. Если мы говорим о конечной модели, например модель распознавания фонем или даже речи. То разница в ресурсах одинакова, они просто перераспределяются. В одном случае надо много знать и это алгоритмизировать, в другом случае надо много говорить в микрофон. Но. Вы забываете о иерархии потока. Если мы доберемся в своих изысканиях до уровня фраз и понятий, то как, скажите мне на милость, надо здесь применять оконные фильтры или, не дай бог, вейвлет преобразование ? На уровне «Мама мыла раму»… как алгоритмизировать коэффициенты корреляции? Вот. То-то и оно… Отдать все на откуп статистическим обучающим методам – это правильно, на мой взгляд. Нижний сенсорный уровень вопиет о фильтре Калмана. Только в области, близкой к сенсорике это можно и нужно делать.

Под фильтрацией можно понимать общий принцип работы с данными, заключающийся в выделении релевантных данных. Этот принцип применим на всех уровнях абстракции, так как его корни растут из физики реальности. Критерии на основе к. корреляции или фильтр Калмана это частные случаи, которые подбираются в зависимости от вида задачи.
Чтобы дальше развивать вашу идею могу порекомендовать задуматься о таком понятии как сложность. Что это, зачем нужно, и как вычислять сложность чего-то. Дело в том, что в полностью детерминированной системе, которой является вычислительная среда компьютера, сложность решения определяется алгоритмом, каким бы он не был. То есть, чтобы задать систему, равную по сложности такому решению, ваша целевая функция должна быть эквивалентной сложности. Либо программа должна потратить сравнимое количество времени, обучаясь, то бишь повторить часть научной эволюции. И замечу это количество времени очень велико. Впрочем данная тема очень обширна. Я всего лишь хочу показать куда стоит покопать, если есть такой интерес.

Цитата:
Автор: covax
Вопрос не однозначен. Вы сами хотите продемонстрировать публике "нормальный уровень" распознавания или ожидаете следующего доклада?

Демонстрировать публике я ничего не собираюсь. Скорее хочу совместно с заинтересованными лицами достигнуть практического решения, попутно проверяя некоторые свои идеи. Чтобы взяться за задачу нужен некоторый начальный коллектив, с соответствующей мотивацией.

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 20:45

Цитата:
Автор: Kek

А кто сказал, что массивы разной длины нельзя сравнивать? Можно сделать оценку сравнения малого массива с соответствующей частью большого, тем более, что упакованные таким образом значения сами ранжируются на основе высоты гармоник, см. как выглядит массив Data.
Предлагаю Вам ещё один метод сравнения... Из каждого массива делать некоторую векторную форму и затем сравнивать эти формы, т.е. подобие. Этот способ распознавания следует из ЭГТР. Идея в том, что человек всегда распознаёт свой голос, а не голос собеседника. Голос собеседника сначала приводится к своему, а затем распознаётся свой. Мы слово сначала копируем, исходя из разложения Фурье, а затем распознаём. Самоорганизация распознавания, основывается как бы на "затягивании" часты генератора в полосу пропускания фильтра.

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 22:07

Цитата:
Автор: Kek
Да, я понял, на данный момент тайм-аут... Надо осмотреться, чтобы не идти в бурелом.

Все конечно красиво, НО возникает в моей голове три вопроса:

1. Что надо моделировать (что такое интеллект, ну или хотя бы распознавалка пусть слов в виде звуков)?
2. Как это смоделировать?
3. Какой из двух вопросов главный, первый или второй, и есть ли на него ответ, а если нет, то можно ли двигаться дальше.

Иначе все похоже (просто мнение, истин не глаголю) на выяснение возможного количества ангелов на острие иглы или на построение очередного вечного двигателя...

Приведу возможные ответы на поставленные вопросы.
1. Не важно где клад, важно много копать.
2. Не важно "что", важно "как".
3. Думать ("философствоавние" - это словоблудие, слишком все отвлеченно) не надо, надо трясти (конкретные коды, детерминированные алгоритмы и т.п.).
4. И в противоположность первым трем вариантам - нужна вначале всебщая теория всего и вся (ну к примеру, ИТИИ) .
5. Все предыдущие ответы не верны, для измерения температуры нужен градусник, для измерения напряжения эл. тока вольтметр..., для моделирования неизвестного (имеющего только маркер понимаемый многими очень по разному) надо ОПРЕДЕЛИТЬ это неизвестное как можно четче на РАЗНЫХ примерах из "реальности".

Какой из этих ответов - верный, уж и не знаю...

Ну и на закуску малость конкретнее по теме.
Предполагаю, что единый для всех слов, тембров, частот, речей и т.п. алгоритм распознавания у людей не существует. Этих алгоритмов в голове образуется множество, образно говоря, на разные ситуации, даже на разные слова, и от разных источников звука и т.д..., да и еще дублируются с небольшими отличиями и меняются во времени...

Вот как-то так с утра... да без закуси...

Инженерить-то нас в школах научили, задачи там всякие решать, коды писАть, арифмомить одним словом, а вот про разные методологии самостоятельного познания забыли рассказать....

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 23:25
Изменено: 28 окт 13 5:30, автор изменений: Kek

del

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 08 май 13 0:38

Цитата:
Автор: vchc
То есть, чтобы задать систему, равную по сложности такому решению, ваша целевая функция должна быть эквивалентной сложности. Либо программа должна потратить сравнимое количество времени, обучаясь, то бишь повторить часть научной эволюции. И замечу это количество времени очень велико. Впрочем данная тема очень обширна. Я всего лишь хочу показать куда стоит покопать, если есть такой интерес.

Об этом непременно надо думать и говорить. Говорю...
Я отстаиваю свой подход, который определяет незыблемость целевой функции на всех уровнях. Адекватность системы уровню сложности задачи заключается в этом случае количеством уровней памяти, которые выращены в процессе обучения и которые вовлечены в процесс решения этой задачи. Почувствуйте разницу..."ваша целевая функция должна быть эквивалентной сложности". Таким образом сложность - это количество активно функционирующих уровней памяти, каждый из которых воспринимает и работает со своим уровнем кластеризации.
Относительно времени. Мы уже с вами натыкались и на это. Я говорю, что система "хавает" очень "вкусную" пищу, общаясь и обучаясь у человека. Степень "калорийности" такова, что все эволюционные процессы могут идти быстро. На сколько? Не знаю... И еще... Способ передачи наследственной информации через геном безнадежно устарел. Это я для затравки так выразился. В системе ИИ будет иной способ: (Ctrl + C) - (Ctrl + V). Этот способ быстрее и надежнее. Он пока не подвержен мутагенным воздействиям.

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 08 май 13 0:40
Изменено: 28 окт 13 5:31, автор изменений: Kek

del

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 08 май 13 0:50

Цитата:
Автор: ЭГТР

Предлагаю Вам ещё один метод сравнения... Из каждого массива делать некоторую векторную форму и затем сравнивать эти формы, т.е. подобие. Этот способ распознавания следует из ЭГТР. Идея в том, что человек всегда распознаёт свой голос, а не голос собеседника. Голос собеседника сначала приводится к своему, а затем распознаётся свой. Мы слово сначала копируем, исходя из разложения Фурье, а затем распознаём. Самоорганизация распознавания, основывается как бы на "затягивании" часты генератора в полосу пропускания фильтра.

Вы абсолютно правильные вещи говорите. Я выдал на гора только предварительную работу. В перспективе нужна обратная связь по голосу. Система должна иметь возможность говорить свой паттерн и, слаша этот свой поток, опять запихивать в распознавалку. Но. Здесь технический вопрос. Как это сделать. Либо использовать современные средства типа SAPI5, либо делать что - то свое, в рамках представленного подхода. Я бы предпочел свое. И здесь поле для сотрудничества и совместной работы. Ведь кокретную задачу очень тяжело иной раз вычленить из основного потока. А ситуация с выводом голоса именно такова и хорошо вычленяется.
Теперь вопрос. Когда говорят слово вектор я непонимаю этого. Вот что такое из массива сделать векторную форму? Вот одномерный массив из 10 значений... Как?

[Ответ][Цитата]

Стр.2 (78): 1 [2] 3 4 5 6 ... 78 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net