GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (78)След. > >>   Поиск:  
 Автор Тема: Проект Sound-Agent. Инструментарий. Эксперимент.
Kek
Сообщений: 1133
Проект Sound-Agent. Инструментарий. Эксперимент.
+2
Добавлено: 07 май 13 3:47
Статья на сайте.
Статья в формате MS Word 2003.
Материалы:
Исходники с программой на Delphi 7.
Представляю предварительные материалы.
Теги:
Речевой поток, кластеризация, спектральное представление, оконные фильтры, корреляционная обработка, память нижнего уровня, распознавание, бинаризация, сонарный образ, целевая функция, неклассический подход.

Не каждая птица долетит до середины Днепра, не каждый форумчанин дочитает статью. И это нормально. Можно читать сразу выводы. Критические замечания принимаются все, даже такие: «А зачем это всё?» или «Это ведет в никуда». Над ними я буду громко хохотать горлом. Но вы не услышите.
Вся конкретика в статье, поэтому немного философии.
Чем знания отличаются от мёда? «Мёд, вроде бы есть… и его сразу нет…» Говорил Винни.
Знания не могут исчезнуть как мёд, знаний бесконечное множество. Если знания сделать доступными для всех, кто их может взять, наступит новая эра, изменится сам человек и общество.

Молитва инженера
-------------------------

Убог просящий вожделенно
У Бога суетную блажь.
Стоять коленопреклоненно,
Молить о рейтингах продаж…

Просить здоровья, долгих лет
Не зная жизненных основ…
А вдруг подаст!? И твой обет
Теснее будет тех оков,
Что Прометей примерить смог,
Ты смертен, он же – полубог.

Стою ...подальше от церквей.
В лесу прохлада. Соловей
Модемом выдал на-гора!
Ну что ж, и мне уже пора
Просить Создателя. О чем?
Без трепета, без упований
Возможно в случае моём?
Конечно можно!
... дай мне знаний!
-----------------------
Технические моменты. Уведомления об ответах ко мне на почту почему-то не приходят, поэтому могу пропускать что-то.

[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 4:08
Цитата:
Автор: Kek
...Критические замечания принимаются все, даже такие: ...
...Знания не могут исчезнуть как мёд, знаний бесконечное множество.

«А зачем это всё?»

Конкретные знания могут исчезать как мед...
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 6:21
2 Kek
Вот такие топики должны быть на форуме по ИИ! Спасибо, понравилось.
Мне всегда казалось, что подход к распознаванию звуков должен быть таким же как к распознаванию графических образов. Но там, где в образах присутствует длина, в звуке - присутствует длительность. Интересно попробовать распознавать звуки, сравнивая с эталоном векторизированную огибающую динамики отдельных спектральных составляющих. Т.е. для каждой существенной спектральной составляющей построить график изменения её интенсивности во времени, а потом этот график векторизировать.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 6:44
Цитата:
Автор: Андрей
Т.е. для каждой существенной спекральной составляющей построить график изменения её интенсивности во времени, а потом этот график векторизировать.

Отлично! Положительные эмоции нужны.
В предыдущей версии программы, я делал корреляцию не по вертикали, а по горизонтали для каждой гармоники. Потом закоментировал, ничего что-то не приглянулось в этих опытах. Хотя все может быть. Вы тоже Дельфист и я скажу. Мой Дельфи, любимый Дельфи. Он не создан для таких задач. Нужен язык, который работает с множествами и кортежами, который на раз-два сравнивает переписывает и т.д. Не знаю есть такие или нет. Ведь в тоже время этот язык должен и на низком уровне работать.
[Ответ][Цитата]
vchc
Сообщений: 194
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 8:14
Сергей, если бы все так же оформляли свои размышления как и вы, мир бы стал однозначно лучше ) Хорошая работа.

Что касается вашего иного пути, то он не такой уж иной ) Я уже вам как-то говорил, что по сути вы своим алгоритмом автоматически строите систему фильтров на основе некой накапливаемой статистики. Статистика выбирается целевой функцией. Обычный приём.

Разница между программированием фильтров ручками и программированием алгоритма автоматического построения фильтров в моменте набора фактического материала. В первом случае человек использует накопленные в течение жизни знания о закономерностях, во втором случае такие закономерности строятся автоматически. В любом случае ресурсы для накопления статистики одинаковы. То бишь ваша программа должна потратить столько же времени и памяти сколько человек (в общем смысле). Есть даже обобщённая теория по этому поводу под названием Универсальный Интеллект.
Ещё остаётся вопрос о сложности построенных фильтров. Но это уже совсем теоретические дебри.

Самый главный вопрос: Есть ещё желающие позаниматься распознаванием речи на нормальном уровне?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 8:40
Цитата:
Автор: vchc
Что касается вашего иного пути, то он не такой уж иной )

Спасибо на добром слове!
Да, да, да. Спору нет. Относительно обычного и не обычного пути. Но скажу одну мысль. Если мы говорим о конечной модели, например модель распознавания фонем или даже речи. То разница в ресурсах одинакова, они просто перераспределяются. В одном случае надо много знать и это алгоритмизировать, в другом случае надо много говорить в микрофон. Но. Вы забываете о иерархии потока. Если мы доберемся в своих изысканиях до уровня фраз и понятий, то как, скажите мне на милость, надо здесь применять оконные фильтры или, не дай бог, вейвлет преобразование ? На уровне «Мама мыла раму»… как алгоритмизировать коэффициенты корреляции? Вот. То-то и оно… Отдать все на откуп статистическим обучающим методам – это правильно, на мой взгляд. Нижний сенсорный уровень вопиет о фильтре Калмана. Только в области, близкой к сенсорике это можно и нужно делать.
[Ответ][Цитата]
covax
Сообщений: 1609
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 10:25
2Kek
Работа проделана внушительная и за это отдельное спасибо. С оформлением малость перебрали - много "водянистых" комментариев и отступлений (ожидал жёсткой конкретики на пол страницы).

У меня только один вопрос. Почему для спектрального разложения вы используете преобразование Фурье?


Цитата:
Автор: vchc
Самый главный вопрос: Есть ещё желающие позаниматься распознаванием речи на нормальном уровне?


Вопрос не однозначен. Вы сами хотите продемонстрировать публике "нормальный уровень" распознавания или ожидаете следующего доклада?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 10:37
Цитата:
Автор: covax
У меня только один вопрос. Почему для спектрального разложения вы используете преобразование Фурье?

Вообще-то это вейвлет-преобразование, на конечном участке времени. Но не в этом дело. А что вы можете предложить? Я взял классику. По какому критерию выбирать? Быстродействие - хорошо. Качество - надо проверять.
Интересно то, что борясь за скорость я в тексте решил схулиганить.
Вот как подсчитываются коэфы:
for k:=0 to DFT_kmax-1 do
begin
Re:=DFT.ReDFTQ(k);
Im:=DFT.ImDFTQ(k);
Ampl:=Sqrt(Re*Re+Im*Im);
end;
Думаю, а что здесь корень квадратный делает? А без него можно?
И заменил:

Ampl:=abs(Re)+abs(Im);
Совсем другое преобразование, и качество не сильно упало.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:15
Скриншоты красивые, но... Много "воды"... ОЧЕНЬ МНОГО! Даже вордовский текст больше похож на инструкцию по использованию кнопок чем на цель и шаги к этой цели
Возможно это полезно для учебного материала или для курсовой, но не для программистов.
1) В двух словах - какая КОНЕЧНАЯ цель вашей программы? Приложение к статье как доказательство Вашей теории? Повторить опыт гугл в распознаваниии речи но на домашних компьютерах? Анализ потока звука или маленьких конечных записей?
2) Это Ваш активный проект или одна из старых заброшеных наработок?
3) Давно работаете (много часов вложено в проект)?
4) Планируете продолжать разработку или достигнутое Вас вполне устраивает?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:35
Цитата:
Автор: Tester64

Скриншоты красивые, но... Много "воды"... ОЧЕНЬ МНОГО! Даже вордовский текст больше похож на инструкцию по использованию кнопок чем на цель и шаги к этой цели
Возможно это полезно для учебного материала или для курсовой, но не для программистов.
1) В двух словах - какая КОНЕЧНАЯ цель вашей программы? Приложение к статье как доказательство Вашей теории? Повторить опыт гугл в распознаваниии речи но на домашних компьютерах? Анализ потока звука или маленьких конечных записей?
2) Это Ваш активный проект или одна из старых заброшеных наработок?
3) Давно работаете (много часов вложено в проект)?

Вот в рамках ответов на вопросы я и предполагал раскрытие целей. Могу кратко. А вода в тексте... это спорный вопрос.

Вначеле... Опять много слов... Но иначе никак.
Вначале я написал кучу философских эссе. Потом, два года назад въехал в форумы. Много чего пересмотрел.
1. Цель - СИИ. И не просто СИИ. А создание разумного существа. Но это цель моя, а не представленной программы. Гугл - как частный пример, ориентир. Я намеренно съехал с высот на конкретный уровень. И это оказалось полезным.
2. Это чать проекта. Char-agent, Sound-Agent, Image-agent. Sound-agent вы видели. Char - agent обсуждался, но у меня есть в нем наработки, которые сырые и их пока нет смысла выставлять. Там есть кое-что более продвинутое, чем в Saund-Agent. Image - ждет своего часа. Когда все три потока будут поняты, надо их объединять в кучу. Только в куче будет толк.
3. Конкретно Saund-Agent начат был аж в 1993 году. Тогда на IBM-XT удалось сделать реально быстрое Фурье, подсчитав все коэфы заранее. Всегда есть альтернатива время - память. Над конечной формой работал интенсивно 3 месяца Февраль - апрель.
4. Дальше... вперед! Идей миллион.
[Ответ][Цитата]
covax
Сообщений: 1609
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:40
Цитата:
Автор: Kek
Вообще-то это вейвлет-преобразование, на конечном участке времени.

Хм. Судя по источникам в конце статьи показалось, что Вы использовали FFT. Да и про вейвлеты ничего не было сказано. В исходники ещё не залезал толком. Посмотрю.

Цитата:
Автор: Kek
Но не в этом дело. А что вы можете предложить? Я взял классику. По какому критерию выбирать? Быстродействие - хорошо. Качество - надо проверять.


Выбирать надо по критерию непрерывного потока, которого Вы хотели придерживаться. Разве нет ничего для непрерывного (без кадров) потока?

Цитата:
Автор: Kek
Совсем другое преобразование, и качество не сильно упало.

Кстати, а в каком модуле(функции) происходит восстановление исходного сигнала из спектра?
[Ответ][Цитата]
kondrat
Сообщений: 4026
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:46
Цитата:
Автор: covax
У меня только один вопрос. Почему для спектрального разложения вы используете преобразование Фурье?

+1
Почему именно этот базис?
И чем же это принципиально отличается от чар агента?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:47
Цитата:
Автор: covax
Хм. Судя по источникам в конце статьи показалось, что Вы использовали FFT. Да и про вейвлеты ничего не было сказано.

FFT + оконный фильтр = вейвлет
"Без кадров" мне ничего не приходит в голову...
Обратное выплевывание:
procedure TForm1.OutScart; В модуле UnitMain
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:52
Цитата:
Автор: kondrat
+1
Почему именно этот базис?
И чем же это принципиально отличается от чар агента?

Ваш вопрос слишком общий. Я могу развить, но боюсь будет утомительно...
Чар-агент предательский, простой... Мне задавали вопрос, а почему вы хаваете пробелы? Почему априорно не разделяете на слова, ведь это так просто... Вот теперь с позиции saund-потока не понятно ли почему? Процессы должны быть идентичными. Поток - есть поток. Отличия все должны быть в областях или методах, которые обслуживают самые первые данные от сенсоров.
[Ответ][Цитата]
kondrat
Сообщений: 4026
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 07 май 13 11:58
А также, с "филосовской" точки зрения хочу заметить, что основным признаком жизни (а может и интеллекта) является способность не просто классифицировать или восстановить, а воспринять и обработать что-то новое и выработать новую реакцию.
[Ответ][Цитата]
 Стр.1 (78): [1]  2  3  4  5  ...  78След. > >>