Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.28 (78) << < Пред. | След. > >> Поиск:

Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 11:51

Цитата:
Автор: Kek

Спектр спектра это кепстр. Так придумали яйцеголовые умники. Слов больше не нашли.
Про кларнет я не понял. Мы с речью работаем, в речи нет одноголосья. Если вы будете свистеть а не говорить, тогда да, одна частота.

Не вы первый с речью работаете
Человек голосом говорит
несколько человек - несколькими голосами (случаи имитации можно не рассматривать пока)
Голос и основной его тон - не одно и то же
Музыкальный инструмент и любой иной источник звука тоже порождают голоса
Феномен застольной беседы - вариант разноголосия
Оркестр - тоже
В голосе основной тон может отсутствовать и восстанавливаться только через гармоники

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 13:35

Цитата:
Спектр спектра это кепстр. Так придумали яйцеголовые умники. Слов больше не нашли.

Интересный термин... пытаюсь вообразить визуализацию... заклинило!
Для меня спектр звука/голоса - это бесконечная лента графика с пиками на ней. Некое подобие простыни вроде:

А что такое спектр спектра???

p.s. Нашел не менее интересную программу для визуализации спектра http://www.sonicvisualiser.org/index.html

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 22:59

Цитата:
Автор: Kek
обрисовалась идея выделить из реализеции спектра основной речевой тон. Сделать это можно либо двойным косинусным преобразованием, либо алгоритмическими манипуляциями, имея полную картину спектра за 40 мс. Затем попытаться гребенчатым фильтром, настроенным на гармоники основоного тона взять и вычесть эти гармоники, оставляя при этом сложные для анализа переходы с гласных на согласные и наоборот. Затем вставить на место удаленных гармоник какой-нибудь стандартный паттерн. Этим мы сделаем инвариант относительно тона речи.
Это идея всего навсего, может и не выполнимая...
Кто понял, пишите.

Ну, я могу облегчить вам наполовину вашу задачу. Сначала вы определяете комфортный для себя тон и находите ЧОТ (для меня например это 123Гц). Далее МОНОТОННО произносите свое высказывание. После чего гребенчатым фильтром, настроенным на ЧОТ, вырезаете гармоники, хоте все, хоть часть их. Затем можете накладывать паттерн. Но я не понял, где вы его возьмете, и как будете накладывать

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 23:05

Цитата:
Автор: Артем

Огибающая - нет, а вот изменение ЧОТ во времени в течении 50 мс например - очень информативно. ОЧЕНЬ.

Если вы занимаетесь распознаванием тональных языков (китайским, например) то информативно, а для русского языка - это только эмоциональная окраска, ну и плюс к этому выявление вопросительной или утвердительной интонации или интонации несогласия. Две последних на письме вообще никак не оформляются.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 23:08

Цитата:
Автор: Артем

Идея такова чтобы вообще загрубить огибающую спектра но при этом хорошо воспроизвести изменение ЧОТ во времени и смену вокализованных/невокализованных участков.

Получим ли мы в этом случае распознавабельную речь ?

Не получите, так как попутно загрубите форманты, и убьете способность нашего слуха распознавать гласные и сонорные согласные.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 23:12

Цитата:
Автор: Kek

Ну, вот таки тож сделал. Как и у тебя, Артем. Нахожу максимум спектра спектра - это и есть основной тон.

А вы возьмите женский голос. У него первая гармоника низкая. Или звук голоса с небольшого радиоприемника - те же проблемы.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 23:44

Цитата:
Автор: dr2chek
Но я не понял, где вы его возьмете (паттерн), и как будете накладывать

Паттерном может быть мой голос или какой-нибудь диктор с зараее известным ЧОТОМ. Короче суть в том, что кто-бы не говорил, программа должна на выходе произносить это слово, но стандартным голосом. Здесь еще нет никакого распознавания, это просто такое слжное преобразование.

Цитата:
Автор: dr2chek
А вы возьмите женский голос. У него первая гармоника низкая. Или звук голоса с небольшого радиоприемника - те же проблемы.

Да, сложностей и так миллион, Слава вон кларнет хочет распознать или скрипку Паганини.
Я описал идею, пока не сделал, и не представляю поможет это или нет.
Уместен вопрос а зачем. Мы делаем таким образом инвариантное преобразование. Всего инвариантов 3.
Высота тона, громкость и скорость произнесения фразы. Самый сложный по моему, как раз высота тона. Если это можно будет побороть, то дальше легче.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 1:15

Цитата:
Автор: Kek
Всего инвариантов 3.
Высота тона, громкость и скорость произнесения фразы.

Да не три. Вы забыли прозодию, а также индивидуальные особенности речи - кто-то растягивает гласные, кто-то согласные. Я почему и спросил, как накладывать-то будете?

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 2:47

Цитата:
Автор: dr2chek
Да не три. Вы забыли прозодию, а также индивидуальные особенности речи - кто-то растягивает гласные, кто-то согласные. Я почему и спросил, как накладывать-то будете?

Не знаю что такое "прозодия". Индивидуальные особенности есть, но вы забегаете вперед. Стоит задача распознать что говориться а не кто говорит.
Согласные растягивал только Высоцкий, он их пел...
Как накладывать буду - думаю...

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 2:55

Цитата:
Автор: Kek

Не знаю что такое "прозодия".

prosody
Ответ найдете в инете

[Ответ][Цитата]

гость
78.25.122.*

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 4:24

T> спектр спектра

спектральное преобразование примененное к спектральному представлению.
Не обратная операция а как бы вторая производная.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 5:50

Хорошое обсуждение ЧОТ пошло.
На самом деле изменение ЧОТ во времени имеет физическое объяснение.
ЧОТ падает когда напряжение мышц голосовых связок уменьшается.
ЧОТ растет когда напряжение мышц увеличивается.
А напряжение на мышцах - это, извините, первопричина.
Это как нажатие педали газа в автомобиле.

А еще я пообщался со Славой. Теперь я знаю кунгфу, т.е. ковалентный анализ.
Я правильно написал слово "ковалентный" ?
Хочу попробовать, потому как мне этот алгоритм представляется черезвычайно робастным.

[Ответ][Цитата]

гость
31.181.64.*

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:03

Ко мне подкралось любопытство..КЕК, ето, цель проекта распознавание или синтез речи? Что получается?

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:10

Я не КЕК, но отвечу :-)
Распознавание - цель. Но это же и с синтезом как-то связано.

Лично для меня даже распознавание не цель, ибо худо-бедно распознаватель я уже делал.
Лично для меня попытка применить более правильные алгоритмы ИИ - вот цель.
А что я считаю более правильными алгоритмами?
Пока не буду распостраняться.

И как-бы изучение свойств речевого сигнала тоже важная задача.
Вот к примеру очевидно что преобразование Фурье в голове человека не происходит,
но гребенка разных фильтров с разной центральной частотой и полосой пропускания - это очевидно для нейросетей мозга человека - задача на раз плюнуть.
А для компа - очень вычислительно емко получается.
Но ведь есть и математика. А она подсказывает что преобразование Фурье - это по сути гребенка фильтров. И можно показать связь между Спектром и фильтрами.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:22

Вот пару ссылок. Я сам поверху глянул.
про форманты.
http://habrahabr.ru/post/128213/
http://mytts.forum2x2.ru/t239-topic

и еще не про форманты
http://habrahabr.ru/post/130682/
http://habrahabr.ru/post/127064/

И вот эту книгу неплохо бы скачать ...
Минимальная реализация и формантный анализ динамических систем и сигналов

[Ответ][Цитата]

Стр.28 (78): 1 ... 24 25 26 27 [28] 29 30 31 32 ... 78 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net