GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.48 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Зри в корень!
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 11 авг 13 13:10
Изменено: 28 окт 13 7:09, автор изменений: Kek
del
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 4:00
Цитата:
Автор: Артем
Распознавание речи - это удобный полигон.

Здравствуйте, коллеги. Добрался до скоростного инета.
Артем, молодец - правильно говОришь. Кто не понимает - проблемы его. Именно полигон. И во многом лучше чем зрение. У зрения нет обратного канала. Речь - идеальный кластеризированный поток. Поэтому роем, товарищи!
Я, сидя в деревне, между кладкой стен из пеноблоков, кое-что осмыслил. В ближайшее время попробую это воплотить. А пока мысли в слух.
Рефлексируя обо всем, что и почему лезло в голову могу высказать:
1. Фонемная функция Пирогова хороша - это первая информация, которая вздыбила моск.
2. Начал ее интерпретировать, пришлось вспомнить опять MEL-шкалу, которую я в своих версиях программы отправил в утиль из-за полного отсутсвия полезности. Полезность и информативность я, повторяю в сотый раз, проверяю по выходу.
3. Помятуюя о частоте основного тона, чему были посвещаны страницы нашей ветки, решил воспроизвести мел-шкалу определенным образом, а не так как советует статья:
http://habrahabr.ru/post/140828/

Получилось то, чего я никак не ожидал.
Ну, вот моя мел-шкала всего из 16 диапазонов:
(6,12,18,24,30,36,42,48,54,60,66,72,78,84,90,106);
Если умножить каждое значение на 25, получатся реальные герцы.
Шкала повторяет интервал при частоте основного тона в 150 гц (6*25), а не логарифмический масштаб, как советует статья. Шкала линейная.
Когда я проиграл, то что сказал в микрофон, получился какой-то голос, явно не мой. Я произнес слово как можно более высоким тоном, а когда проиграл, голос в динамике не изменился. Я об этом писал и попробую предоставить результаты. С этого можно заключить, что подобранные таким образом мел-частоты реализуют некий инвариант относительно частоты основного тона. Разборчивость при этом достаточно хорошая.
Таким образом ковыряясь с одним(фонемная функция), неожиданно получился результат и его надо использовать дальше в системе. Почему раньше этого не было? Да, потому что повторял тупо то, что написано без понимания физического смысла. А здесь смысл в том, что человек все-таки повторяет про себя то, что хочет распознать и повторяет со своими частотами. Если помните, несколько страниц выше я предлагал алгоритмизировать для этого эффекта речевой аппарат. Так вот не надо ничего моделировать. Мел-частоты, подобранные именно таким образом дают желаемый результат.

Далее о функции Пирогова.
Постулат: человек распознает не само частотное распределение, а отношение спектров за время tau. Т.е. изменение спектральной плотности.
Это замечательно. Но кто сказал, что изменение спектральной плотности надо анализировать именно так, как предлагает автор статьи? Не умоляя достоинства этого метода, я все таки вдохновился именно спектром спектра. Наблюдая за поведением локального максимума можно найти алгоритм, который позволит выделить гласные и согласные звуки. Это в конечном итоге то, что делает метод Пирогова. Повторю: аксиома неизменна и правильна, просто другой метод.
Ну, и последнее. Даже все эти методы не полные. Остается вопрос с щипящими, которые полезно выделять просто цифровым фильром в априори известной области.
Таким образом имеем:
1. Частотный инвариант произношения от мел-шкалы
2. Анализ изменения спектральной плотности на основе поведения локального максимума спектра спектра.
3. Цифровая фильтрация шипящих.
4. Ну, и временная реализация тоже может что-то дать, но я пока не касался этой темы, просто констатирую резерв.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 4:17
Kek, судя по посту ударные согласные вас уже не пугают?

Вы делаете обратное преобразование из нелинейного спектра в звук с помощью фурье.
Я собираюсь в ближайшее время сделать обратное преобразование с помощью фильтров.
В этом случае будет вообще неважно каким образом был получен спектр и неважно является ли он линейным или нелинейным. Я думаю обратное преобразование с помощью фильтров, уберет "эффект робота", но, конечно, появится другой какой-то эффект.

[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 4:30
Цитата:
Автор: Артем

Kek, судя по посту ударные согласные вас уже не пугают?


Артем. Все эти выводы получены исключительно из наблюдений. Когда наблюдения будут воплощаться в алгоритмы, появится более взвешенная оценка. Сегодня я в скайпе наконец.
[Ответ][Цитата]
гость
78.25.121.*
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 4:55
кек> моя мел-шкала всего из 16 диапазонов:

исследования зрительной системы на уровне пространственной фильтрации обнаруживают
примерно 8 каналов. Возможно, что более сложная по величине структурных уровней
слуховая система (resp. фонетическая структура языка) (чем зрительная) действительно поддерживает больше функциональных каналов.

[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 5:19
Цитата:
Автор: гость

кек> моя мел-шкала всего из 16 диапазонов:

исследования зрительной системы на уровне пространственной фильтрации обнаруживают
примерно 8 каналов. Возможно, что более сложная по величине структурных уровней
слуховая система (resp. фонетическая структура языка) (чем зрительная) действительно поддерживает больше функциональных каналов.


Я думаю, что уровни пространственной фильтрации гораздо более сложная система, чем мел-диапазоны. Здесь не все так однозначно поддается сравнению. Надо еще понимать что канал - это одно, а элемент канала совсем другое. Т.к. зрением практически еще не занимался, то наверно там своих тараканов тоже хватает.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 5:57
Цитата:
Автор: Kek
Ну, вот моя мел-шкала всего из 16 диапазонов:
(6,12,18,24,30,36,42,48,54,60,66,72,78,84,90,106);
Если умножить каждое значение на 25, получатся реальные герцы.
Шкала линейная.

Kek, не называйте её мел-шкалой, называйте лучше кек-шкалой.
Мел шкала - это вполне определённая нелинейная (приблизительно логарифмическая) шкала частот.
[Ответ][Цитата]
ЭСГТР
Сообщений: 8461
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 6:01
Цитата:
У зрения нет обратного канала.
Говорят что есть... будто бы жертва способна прожечь на сетчатке глаза в момент своей гибели образ своего палача, криминалисты способны восстановить изображение.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 6:27
Цитата:
Автор: Анатоль


Kek, не называйте её мел-шкалой, называйте лучше кек-шкалой.
Мел шкала - это вполне определённая нелинейная (приблизительно логарифмическая) шкала частот.

Привидите пример в цифрах и я Вам покажу, что это будет Анатоль-шкала. Особенно интересует функция "приблизительного логарифмирования".
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 6:43
Во всяком случае не называйте линейную шкалу мел.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 7:04
Цитата:
Автор: Анатоль

Во всяком случае не называйте линейную шкалу мел.

Хорошо, kek-шкала пойдет. Сейчас попробую распознавать с помощью нее гласные...
И если получится, то так и назовем, а нет - тогда забудем....
[Ответ][Цитата]
гость
78.25.122.*
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 7:25
Изменено: 28 окт 13 7:10, автор изменений: Kek
del
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 8:23
Цитата:
Автор: Kek

Когда я проиграл, то что сказал в микрофон, получился какой-то голос, явно не мой. Я произнес слово как можно более высоким тоном, а когда проиграл, голос в динамике не изменился. Я об этом писал и попробую предоставить результаты. С этого можно заключить, что подобранные таким образом мел-частоты реализуют некий инвариант относительно частоты основного тона. Разборчивость при этом достаточно хорошая.


А вы попробуйте шум подать на вход резльтата расфильтровки вместо собственного голоса
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 8:41
Изменено: 28 окт 13 7:11
del
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Зри в корень!
Добавлено: 12 авг 13 10:00
Изменено: 28 окт 13 7:11, автор изменений: Kek
del
[Ответ][Цитата]
 Стр.48 (78)1  ...  44  45  46  47  [48]  49  50  51  52  ...  78<< < Пред. | След. > >>