GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.10 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 23:32
Цитата:
Автор: Андрей
спектр никуда не годится для распознавания звуков. Человеческое же ухо явно слышит биения .


Слух у человека стерео.
Он чувствует не только спектр, но и фазу.
Это нужно для определения направления.
Но не для фонетического содержания.
Для определения фонетического содержания спектра достаточно.
[Ответ][Цитата]
victorst
Сообщений: 821
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 23:46
Скорее всего фазу человек ощущает на сверхнизких частотах как задержку в нарастании синусоиды. На всех частотах ощущает лишь задержку между сигналами левого и правого уха.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 23:54
Чувствовать задержку - это и есть чувствовать фазу (для тональных сигналов).
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 0:14
Цитата:
Биения легко объяснимы ....
Как Вы биения можете сравнивать с распознаванием голоса. Если у Вас 30 разных характеристик на кадр, а образец гарантировано ни с кем в 100% не сойдется, то по моему эту технологию здесь не стоит использовать...
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 2:02
Цитата:
Автор: Tester64


пока писал научился многому

А вот это можно будет понять только увидя. Но не поигравшись с графикой этого не узнаешь...


Я согласен, обучение и создание инструментария - это положительный "побочный эффект". Жалко только, что каждый стремится наступить на грабли, вот уже который раз.
Я открою вам страшную тайну: ничего толкового на спектре вы не увидите, увы. Глаз здесь слишком грубый инструмент - он не чувствует нюансов спектра.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 2:10
Цитата:
Автор: Анатоль
Для определения фонетического содержания спектра достаточно.
1. Где программа, узнающая звук так же качественно, как и человек?
2. Где объяснение биений исключительно на анализе спектра?
3. Почему кратные частоты психологически воспринимаются как одна и та же частота разной "высоты"?
4. В чём природа консонанса и диссонанса?
Теория спектра не даёт ответов на эти вопросы. Точно так же можно заявлять, что осциллограмма содержит в себе всё необходимое для распознавания. Вопрос всегда только в том, какой фильтр применять для выделения информативных признаков.
Если ответить на вышеприведённые вопросы, возможно найдётся фильтр, делающий различение речи тривиальной задачей.

Мне думается, что весь секрет в стоячих волнах, потому что ничто в ухе не сравнивает между собой числовые значения частот - там просто волоски расположены в разных местах. И если мы психологически воспринимаем объективно разные звуки как субъективно одинаковые, значит (возможно) для этих звуков возникает подобный геометрический рисунок стоячих волн.
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 2:33
Цитата:
Автор: dr2chek
Жалко только, что каждый стремится наступить на грабли, вот уже который раз.
Я открою вам страшную тайну: ничего толкового на спектре вы не увидите, увы. Глаз здесь слишком грубый инструмент - он не чувствует нюансов спектра.

На мой не просвещенный взгляд, дело обстоит несколько иначе. Глаз не слишком грубый инструмент. Просто мозг идет не по созданию ЕДИНОГО алгоритма для "распознавания" звуков/изображений, а создает множество разных алгоритмов для разных звуков/изображений в разных ситуациях (в разном "окружении") и т.п. При этом еще с разной иерархией "важности". А след-но, как бы не был чувствителен сенсор, дело не в нем (или не только в нем)!!! (Но строгим "технарям" легче что-либо решать и создавать, а что, дело другое, главное побочный эффект - умение проги писать быстро и грамотно....).
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 2:47
Звук и речь - вещи разные.
Человек распознаёт звуки много разнообразнее чем звуки речи.

С биениями никаких проблем нет.
Две близкие частоты в одно ухо - обычное изменение амплитуды с разностной частотой.
В разные уши - сравнение фазы двух сигналов уже в мозгу.

В речи эффект биения не играет никакой роли по причине нестабильности голосовых частот.

После Фурье сознательно оставляют только спектр (интенсивность частот) и отбрасывают их фазы. Потому что фазы не влияют на фонетическое содержание звука.
В этом легко убедиться.
Синтезируйте звук "а" (например) из синусоид. (Чтобы огибающая спектра была как у "а", а под ней любые гармоники).
Теперь поменяйте фазы этих синусоид. Осцилограмма кардинально изменится, а звук останется прежним. (Потому что спектр не изменился).

Спектр не описывает всех аспектов звука.
Это только интенсивность различных частот.
В спектральном описании полностью теряются фазовые особенности звука.
Поэтому некоторые психоаккустические эффекты, где играют роль фазы (биение, например)спектром не описываются.
Но для распознавания речи сознательно ограничиваются только интенсивностями частот и пренебрегают их фазами, не влияющими на фонетическое содержание звука.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 3:05
Цитата:
Автор: Анатоль
Потому что фазы не влияют на фонетическое содержание звука.
В этом легко убедиться.
Синтезируйте звук "а" (например) из синусоид. (Чтобы огибающая спектра была как у "а", а под ней любые гармоники).
Теперь поменяйте фазы этих синусоид. Осциллограмма кардинально измениться, а звук останется прежним. (Потому что спектр не изменился).


Вообще-то я полагал, что этот этап все участники уже прошли. Если нет, то можно зайти еще через год...
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 3:27
Цитата:
Автор: Анатоль
для распознавания речи сознательно ограничиваются только интенсивностями частот
1. Где программа? И ответы на остальные вопросы.
2. Да, человеку для распознавания достаточно того сигнала, который получается после сложения некоторых спектральных составляющих. Но это совсем не значит, что человеческий слух использует именно спектральные составляющие как признаки для распознавания. С таким же успехом можно заявлять, что человек для распознавания использует осциллограмму (которая получается после сложения спектральных составляющих), потому что её тоже достаточно.

Цитата:
Автор: dr2chek
можно зайти еще через год
Можете вообще не приходить.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 3:43
Цитата:
Автор: Андрей

2. Да, человеку для распознавания достаточно того сигнала, который получается после сложения некоторых спектральных составляющих. Но это совсем не значит, что человеческий слух использует именно спектральные составляющие как признаки для распознавания.
Можете вообще не приходить.

Конечно можно было бы не приходить
Но когда видишь какую околесицу несут некоторые участники, в частности вы, то душа болит - молодые ведь будут анализировать вашу "измышления", и сделают неправильные выводы.
Я призываю всех, прежде чем что-то ляпать вслух, ну проверьте свои мысли на практике.
В частности это вот последнее ваше заявление. Сделайте амплитудный спектральный анализ какой-нибудь фразы с шагом 10мс, постройте трехмерную поверхность и ею промодулируйте хоть белый шум (Слава об этом тоже писал), хоть набор гармоник. У всё прекрасно распознается на слух. Вот так.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 6:25
Цитата:
Автор: dr2chek
Конечно можно было бы не приходить

Вы напрасно так эмоциональны. Человек умеет распознавать звуки, но не умеет распознавать мысли... Других собеседников. И это нормально. Всё, что сказано в последних постах разными участниками все верно. Но... движения нет. Нет программы, как говорит Андрей.
1. Визуализация полезна как инструмент для понимания того, что еще можно сделать
2. Спектра звука достаточно для распознавания.
3. В моей проге буфер, который состоит из набора гармоник воспроизводится так, что все синусоиды начинаются с одной фазы. Заканчиваются, правда по разному. Это однозначно говорит за то, что фазы не нужны для распознавания, потому что человек этот буфер воспринимает хорошо.
4. Надо сосредоточится на том, что можно сделать с имеющейся спектральной картиной. Мои скромные изыскания говорят за то, что кадр в 40 мс - слишком малая порция. Если кадр приграть - вообще ничего не понятно. Это означает, что надо создать ассоциацию кадров. Фонема занимает примерно 5-6 кадров. Как эту ассоциацию делать - вопрос творческий. И над этим сейчас интенсивно думаю...



Вот здесь произведена бинаризация той картинки, которая несколько постов выше. Как видно, они все таки похожи, если сжать более длинную. Отчетливо видны форманты, кажется так это называется. Это продольные полосы. Вот их надо выделять и распознавать как подобъекты.


Вот здесь я графическими средствами сжал правую картинку.


Здесь выделены красным локальные максимумы спетральных гармоник. Отчетливо видны эти продольные объекты.
Ассоциации можно представить себе, как набор массивов, только этот набор располагается не в одном кадре, а занимает несколько кадров и может представлять из себя односвязный объект. Либо это - как ловушки. В них попадает что-то и анализируется. Таких ловушек может быть несколько. Все что они умеют делать - должно быть примитивным, а вот их расположение на картине может меняться в зависимости от динамики. Все, что в них попадает является предметом для дальнейшей манипуляции. Эти ассоциации должны поставлять результаты своих манипуляций центру, который анализирует и обучается на основе паттернов.
Это просто мысли вслух.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 6:42
Цитата:
Автор: Kek
Отчетливо видны форманты, кажется так это называется. Это продольные полосы. Вот их надо выделять и распознавать как подобъекты.

Если хотите поглубже повозиться, откажитесь от вокализованной речи - анализируйте шепотную. По крайней мере не будет мешать гребенка гармоник.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 6:45
Цитата:
Автор: dr2chek


Если хотите поглубже повозиться, откажитесь от вокализованной речи - анализируйте шепотную. По крайней мере не будет мешать гребенка гармоник.

Это и правда меняет картину, но проблемы те же.
Ассоциации - думаем...
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 май 13 7:12
Цитата:
Автор: Kek
Спектра звука достаточно для распознавания
И что? Осциллограммы тоже достаточно. Так что теперь, распознавать осциллограммы?... Почему подход такой ограниченный? Почему не ищется новых путей и альтернатив? Например, навскидку, можно пытаться из звука восстанавливать движения артикуляционного аппарата и распознавать речь уже по ним. Ведь для человека важно отличать в речи только то, что сам сможешь повторить. Кроме того, физические ограничения речевого аппарата накладывают ограничения на возможные продолжения звучания.
Вы копаете там, где уже тысячу раз копали и ничего не выкопали.
[Ответ][Цитата]
 Стр.10 (78)1  ...  6  7  8  9  [10]  11  12  13  14  ...  78<< < Пред. | След. > >>