GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.27 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 2:58
Изменено: 28 окт 13 6:33, автор изменений: Kek
del
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 5:31
Цитата:
Автор: Анатоль
Чем же оно позитивно?
Вместо открытого общения на форуме предлагается где-то в кустах о чём-то секретничать..

Секретов никаких нет.
Просто иногда между двумя форумчанами вспыхивает резонансик симпатий и понимания. С Артемем, который предложил сие я беседовал по теме обработки речи. Послал ему свою последнюю версию. С Виктором Казариновым у меня тоже контакт. Несмотря на то, что пока эти контакты не носят характер деловой работы, для меня они полезны исключительно в следющем формате: мои нейромедиаторы начинают шевелиться и понукают к действию. В режиме ступора это радует.
Как-то так...
P.S. А ступор заключается в том, что обрисовалась идея выделить из реализеции спектра основной речевой тон. Сделать это можно либо двойным косинусным преобразованием, либо алгоритмическими манипуляциями, имея полную картину спектра за 40 мс. Затем попытаться гребенчатым фильтром, настроенным на гармоники основоного тона взять и вычесть эти гармоники, оставляя при этом сложные для анализа переходы с гласных на согласные и наоборот. Затем вставить на место удаленных гармоник какой-нибудь стандартный паттерн. Этим мы сделаем инвариант относительно тона речи.
Это идея всего навсего, может и не выполнимая...
Кто понял, пишите.

P.P.S. Кстати такая манипуляция с гармониками основного тона напоминает мне следующую картину, основанную на психологии речи. Когда мы слышим чью-то речь, мы ее проговаривам свои голосом и про себя. Это как раз эквивалентно замене соновного тона своим собственным. Согласные при этом осотаются прежнеми. Произнесение шопотом тоже напоминает подобную ситуацию.
НЕ находите?
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 6:41
Цитата:
Автор: Kek

P.S. А ступор заключается в том, что обрисовалась идея выделить из реализеции спектра основной речевой тон. Сделать это можно либо двойным косинусным преобразованием, либо алгоритмическими манипуляциями, имея полную картину спектра за 40 мс. Затем попытаться гребенчатым фильтром, настроенным на гармоники основоного тона взять и вычесть эти гармоники, оставляя при этом сложные для анализа переходы с гласных на согласные и наоборот. Затем вставить на место удаленных гармоник какой-нибудь стандартный паттерн. Этим мы сделаем инвариант относительно тона речи.
Это идея всего навсего, может и не выполнимая...
Кто понял, пишите.


А в чем проблема-то? - мы такое делали лет десять назад
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 6:58
Цитата:
Автор: Slava
А в чем проблема-то? - мы такое делали лет десять назад

Проблема в том, что я этого не сделал пока. И не уверен даст это что-то или нет?
А что должно дать по моему разумению. Исходный речевой сигнал, не важно кто говорит тенор или бас должен звучать после обработки так, как если бы говорил диктор - паттерн.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 7:36
Цитата:
Автор: Kek


Проблема в том, что я этого не сделал пока. И не уверен даст это что-то или нет?
А что должно дать по моему разумению. Исходный речевой сигнал, не важно кто говорит тенор или бас должен звучать после обработки так, как если бы говорил диктор - паттерн.


Во-первых, а нахрен?
а во вторых - и такое по сути там тоже было
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 8:14
Цитата:
Автор: Slava
Во-первых, а нахрен?

На хрен, на хрен... Слава, как сделать преобразование инвариантое, относительно высоты основного тона?
Можно конечно и на это ответить "А на хрен..", тогда я уже не смогу ответить.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 8:18
Цитата:
Автор: Kek
как сделать преобразование инвариантое, относительно высоты основного тона?

Огибающая спектра не зависит (приближённо) от ЧОТ.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 8:36
Цитата:
Автор: Kek


На хрен, на хрен... Слава, как сделать преобразование инвариантое, относительно высоты основного тона?
Можно конечно и на это ответить "А на хрен..", тогда я уже не смогу ответить.


Приходите - расскажу
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 8:39
Цитата:
Автор: Анатоль


Огибающая спектра не зависит (приближённо) от ЧОТ.


Огибающая - нет, а вот изменение ЧОТ во времени в течении 50 мс например - очень информативно. ОЧЕНЬ. Я бы даже сказал более информативно чем огибающая спектра.
Также ОЧЕНЬ информативно вообще смена вокализованных участков на не вокализованные, при этом смена идет за 5-10 мс (закрыть/открыть створ).

Идея такова чтобы вообще загрубить огибающую спектра но при этом хорошо воспроизвести изменение ЧОТ во времени и смену вокализованных/невокализованных участков.

Получим ли мы в этом случае распознавабельную речь ?
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 8:42
Вторая причина по которой я зову людей в скайп - научить пользоваться программой CoolEdit. вот ссылка http://www.oldversion.com.ru/windows/cool-edit-pro/
но ей еще надо научить пользоваться.

Третья причина для общения в скайпе - увидеть живого человека и спросить как дела?
:-)
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 8:45
Цитата:
Автор: Артем

Вторая причина по которой я зову людей в скайп - научить пользоваться программой CoolEdit. вот ссылка http://www.oldversion.com.ru/windows/cool-edit-pro/
но ей еще надо научить пользоваться.

Третья причина для общения в скайпе - увидеть живого человека и спросить как дела?
:-)


CoolEdit действительно хороший инструмент
Мы им активно пользовались, реализуя свой подход
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 9:06
Цитата:
Автор: Артем
Идея такова чтобы вообще загрубить огибающую спектра но при этом хорошо воспроизвести изменение ЧОТ во времени и смену вокализованных/невокализованных участков.

Идея правильная. Динамика ЧОТ часто полезна для сегментации на гласные-согласные.
Но слишком уповать на ЧОТ не нужно. Её определение в общем случае не очень надёжно.
Но как добавка к огибающей для качественной (не хриплой, не шёпотной) речи может быть полезной.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 9:47
Ну, вот таки тож сделал. Как и у тебя, Артем. Нахожу максимум спектра спектра - это и есть основной тон. Динамика его наблюдается... Что дальше? Использовать как просто информацию? Непонятно... информации пруд пруди: и тебе огибающая и тебе спектр и тебе ЧОТ.
Ну я попробую сделать так. Наложим на спектр режекторный гребенчатый фильтр: ЧОТ+ЧОТ*2+ЧОТ*3+ЧОТ*4.
Думаю что можно получить согласные.
Артем, я на связи сегодня, думаю к 22:00 сделаю...
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 9:53
Цитата:
Автор: Kek

Ну, вот таки тож сделал. Как и у тебя, Артем. Нахожу максимум спектра спектра - это и есть основной тон. Динамика его наблюдается... Что дальше?


Для одноголосого сигнала спектральный масимум может и не соответствовать основному тону
Кажется, тенор и кларнет основного тона вообще не имеют - он вычисляется только через гармоники
Так сказать - синтезированный бас
А спекрт спектра это - кепстр что ли?

[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июл 13 10:56
Цитата:
Автор: Slava

Для одноголосого сигнала спектральный масимум может и не соответствовать основному тону
Кажется, тенор и кларнет основного тона вообще не имеют - он вычисляется только через гармоники
Так сказать - синтезированный бас
А спекрт спектра это - кепстр что ли?

Спектр спектра это кепстр. Так придумали яйцеголовые умники. Слов больше не нашли.
Про кларнет я не понял. Мы с речью работаем, в речи нет одноголосья. Если вы будете свистеть а не говорить, тогда да, одна частота.
[Ответ][Цитата]
 Стр.27 (78)1  ...  23  24  25  26  [27]  28  29  30  31  ...  78<< < Пред. | След. > >>