GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.16 (78)

<< < Пред. | След. > >>

Поиск:

Автор

Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 19 июн 13 9:38

Я просто оставлю это здесь ....
Модель образования речи
http://scask.ru/book_r_cos.php?id=224

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 19 июн 13 10:17

Цитата:

Автор: Артем

.............. Это же биение?

Это артефакты БПФ

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 19 июн 13 10:20

Цитата:

Автор: Артем

Вот!
Вот этим я хочу позаниматься.

Что я знаю? Как я это представляю?
Нужно генерить шум и пропускать его через цепочку фильтров.
Параметры фильтра менять во времени (артикуляция).
Выбор 5-6 и фильтров и их неменяемых параметров - поставить на генетический алгоритм.
Это будет шопот.

К этому добавить Частоту основного тона, тоже пропущенную через ту же цепочку фильтров.
Это будет голос.

Кроме того на артикуляцию (изменяемые параметры фильтров) наложить ограничения по скорости изменения.

Фильтры можно взять рекурсивные, 2-го порядка (например Баттервоута).

И в результате получите синтезатор Клатта

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 19 июн 13 10:52

Цитата:

Автор: Артем

Вот!
Вот этим я хочу позаниматься.

Это хорошая затея. Я об этом думал, но всего объять не возможно. В системе ИИ, необходимо иметь обратный канал (синтезатор речи), который закольцован на вход и тоже подвержен распознаванию.
Но я не очнь понял зачем здесь генетические алгоритмы. Давайте рассмотрим задачу просто синтеза речи, только иным образом нежели SAPI5. Как уж он устроен не знаю и не интересно. Надо именно моделировать речевой аппарат.

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 19 июн 13 13:09

Изменено: 28 окт 13 6:07, автор изменений: Kek

del

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 июн 13 7:33

Генетический алгоритм мне нужен чтобы подобрать адекватную акустическую модель.

На входе :
аудиокнига с одним диктором.(спектрограмма)
Задача :
построить акустическую модель с минимальным количеством параметров.
часть параметров - не меняемые, часть параметров - рычаг управления моделью (мышцы)
Целевая функция:
сравнение спектрограммы книги и сгенерированной речи.

Если уже есть модель, то пробегая по спектрограмме вычисляем параметры для "мышц".
P1(t),P2(t) ... P6(t). Думаю 5-6 параметров не больше.
Затем наоборот - генерим аудиосигнал по имеющимся параметрам.
Сравниваем спектрограммы по како-му то критерию.
Вопрос по какому? Самый четкий критерий - прослушивание человеком.
Считаем ту модель лучшей, которая имеет минимум параметров,
параметры квантизованны реже и качество сгенерированной речи лучше.

В принципе не факт, что для распознавания НУЖНА рефлексия и "внутренний голос", но с другой стороны наличие "внутреннего голоса" может улучшить качество распознавания.
Тут вопрос филосовский. Ведь слушая иностранный язык мы не понимаем и даже не можем произнести слова. Значит все-таки рефлексия нужна.

Можно предположить что распознавание речи - это преобразование звука в сигнал мышцам рта.
А распознавание звуков - это преобразование звука в сигнал "виртуальным мышцам", и тут мы видим что у некоторых людей слух лучше или хуже.

Цитата:

Эмоционально Генетическая Теория Развития

А можно поподробней? или ссылку?

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 июн 13 7:42

Цитата:

Автор: dr2chek

Это артефакты БПФ

стоп.стоп.
А как же принцип неопределенности Гейзенберга?
Нельзя одновременно точно определить временные и частотные характеристики сигнала.
Для заданного уровня сигнал/шум есть предел точности различения сигналов по частоте и по времени.
Это не артефакт БПФ. Это сама суть сигналов.
Любым другим методом - получишь тоже самое.

Поясню еще раз.
Если ты строишь спектрограмму узкополосными фильтрами (типа БПФ на 32768 точек), то ты различишь сигналы близкие по частоте, но не сможешь точно определить их начало и конец.
Если ты строишь спектрограмму широкополсными фильтрами (типа БПФ на 256 точек), то ты можешь точнее определить начало и конец сигнала, но не можешь различить их по частоте.

В итоге в обоих случаях ты не знаешь как оно на самом деле.
Толи это короткие сигналы на одной частоте, толи это длинные сигналы на близких частотах.

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 июн 13 7:46

Изменено: 28 окт 13 6:06, автор изменений: Kek

del

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 июн 13 7:56

Изменено: 28 окт 13 6:07, автор изменений: Kek

del

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 июн 13 8:35

Изменено: 28 окт 13 6:08, автор изменений: Kek

del

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 июн 13 12:24

Изменено: 28 окт 13 6:06, автор изменений: Kek

del

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 июн 13 13:34

Цитата:

Автор: Артем

стоп.стоп.
А как же принцип неопределенности Гейзенберга?

Во-первых, у БПФ квадратная матрица, так что число отсчетов в частотной области совпадает с таковым во временной. Шире временное окно - хуже разрешение по времени в силу усреднения, и Гейзенберга сюда не приплетайте не по делу.
Во-вторых, у БПФ ЕСТЬ артефакты, и если вы их не видите, что-ж...

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 июн 13 23:50

Цитата:

... заразили Вы меня этим проектом... уже 3 дня пишу код как зомби... Выполнил план на 2-3 месяца. Еще таких 1-2 дня и график-индикатор побежит на аудио-книгу (надо разобрать чужие исходники экранов на 15-20 кода).... тогда снова отложу проект "на потом". Много проблем было с потоками, теорией гусеничных/кольцевых буферов, мелкими графиками зажатыми в иконку около часов, серией окошек индикаторов... генератор случайных чисел вместо аудиосигнала успешно проработал уже часа 2 - рисует графики, заполняет мусором буферы. Короче очень уютная не навязчивая програмка, которую можно поставить на любой компьютер и обучать ее когда скучно... подбирать коефициенты, выделять в полученых кусках важное для дальнейшего сравнения вручную. В идеале когда-нибудь будет программа для выполнения простейших голосовых команд.

Думал когда-то про обратный канал для генератора - это поможет приучить программу только к одному голосу и к сильно ограниченом набору слов. Отлавливать/слушать нужно разные голоса! Радио, телевизор, аудио-книги, скайп, телефон, помещение с сотрудниками. Можно начать разработку алгоритмов сравнения с морзянки. Это поможет понять как нужно разделять сигналы на блоки, как потом слова. Для морзянки возможно прийдется писать генератор, но это просто - любой wav сигнал проигрывать с интервалом.
С синтезатором Вы замахнулись слишком высоко!!! Сначала соберите образцы, научитесь их выделять, а уж потом учитесь их мягко складывать по правилам. Даже у гугла это пока плохо получается - с человеком не спутать.

Пусть Ваша программа собирает коллекцию звуков. Если задумали писать генератор речи, это Вам по любому понадобиться... И зачем Вам именно моделировать речевой аппарат? Вы хотите сэмулировать всю физику процесса? Голосовые связки, язык, зубы? Научитесь хотя-бы грамотно склеивать записанные звуки...

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 24 июн 13 3:47

Цитата:

Автор: dr2chek
Во-первых, у БПФ квадратная матрица, так что число отсчетов в частотной области совпадает с таковым во временной. Шире временное окно - хуже разрешение по времени в силу усреднения, и Гейзенберга сюда не приплетайте не по делу.
Во-вторых, у БПФ ЕСТЬ артефакты, и если вы их не видите, что-ж...

У БПФ квадратная матрица, у вэйвлетов - нет. Но можно манипулировать и БПФ для получения нужной матрицы. Это все вопрос погрешностей.
БПФ надо делать с применением окна во временной области, например, Хэмминга.
БПФ ничем не отличается от ДПФ, только ограничением на количество отсчетов - степень двойки. Существуют и другие БПФ, на степень 3-ки, 4-ки. На произведение степеней 2-ки и 3-ки.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 24 июн 13 3:57

[QUOTE]... заразили Вы меня этим проектом... [QUOTE]
Я полсе 9 июля подключюсь, предлагаю по скайпу пообщаться.

Цитата:

Короче очень уютная не навязчивая програмка, которую можно поставить на любой компьютер и обучать ее когда скучно...

Цитата:

Это зря. не будет повторяемости. Только на файлах надо обучать.

С синтезатором Вы замахнулись слишком высоко!!!
Пусть Ваша программа собирает коллекцию звуков.

Ну тут просто изучение обратной стороны процесса, и компилирующий синтезатор вообще не интересен. А вообще подобные синтезаторы делели еще в 60-х на аналоговых схемах. Оттуда и взялся "голос робота".

Цель изучения синтезатора и распознавателя "РЕЧИ" в минимизации параметров модели.
Пусть и с потерей качества.
Например мой внутренний голос говорит моим голосом, при этом не охрипшим.
Иногда я мысленно разговаривою с кем-то, тогда мой внутренний голос говорит другими голосами, но подозреваю что их количество очеь не велико. Скорее это голоса хорошо знакомых людей.

Таким образом минимальные параметры модели позволяют произнести речь, а добавочные параметры - произнести речь голос специального человека.

[Ответ][Цитата]

Стр.16 (78): 1 ... 12 13 14 15 [16] 17 18 19 20 ... 78

<< < Пред. | След. > >>

Форум: Проблемы искусственного интеллекта