GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.30 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 11:18
*Коллеги, нужны озвученные русские слова в формате WAV или MP3*
Слова конечно самому прийдётся наделать, можно аудио книгу распотрошить.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 12:14
Полнофункциональный анализ спектра спектра.
Краткие и беглые выводы.

---------------------------------------------
В классике над спектром делают Дискретное Косинусное Преобразование ДКП/(DCT)

Читать тута

Кепстральные коэфы - есть ничто иное как 12 значений реализации кепстра.
Всего 12 - это классика.
По их значениям чего-то там распознают, запихивая их в нейронную сеть.
Результат плачевный.

Я предлагаю анализировать честный спектр спектра не на основе ДКП, а на основе того же Фурье.
И назвать это нармально, например "DublSpectrum".
В результате получается некая функция, у которой значений поболе, чем 12.
И вот её-то и надо с пристрастием анализировать.
См картинку.

Желтый график - это обычный спектр.
Голубой - DublSpectrum.
Что он кажет?
Левая часть всегда приподнята и от неё надо отступить пунктов 10 (см. верхнюю шкалу).
И анализировать область от 10 до 80.

Его главный локальный максимум в этой области показывает ЧОТ (Частоту Основного Тона).
Иногда локальных максимумов много, до 4 и более. Их тоже надо анализировать.

Выявленные закономерности:
1. Если основной локальный максимум несколько кадров подряд стоит на месте - это гласная буква
2. Резкие скачки локалного максимума по горизонтальной шкале - переходы в область без гласных.
Анализ этих переходов и то, что внутри - отдельная песня, пока не готов.

Какие параметры надо анализировать:
1. Количество локальных максимумов
2. Соотношение амплитуды главного и второстепенных
3. Слабые перемещения главного локального максимума - интонации
Какие закономерности эти параметры будут выявлять - это предмет исследования.

Заметьте, перечисленные параметры - это не массивы, а числа, с ними уже легче.

При всем при этом полная независимость от тона говорящего.
ч.т.д!!!!!

На данный момент с вдохновением заканчиваю возню и уезжаю в деревню!
Кому интересно, может скачать http://www.keklab.ru/buf/ai/Sound_Agent 2.8.6.zip -> прогу.
Как ей пользоваться во многом описано в начале ветки.
Отдельные нюансы объясню кому интересно. Сделал редактирование спектра в кадре ручками. Можно самому выстроить спектра или удалить лишнее и проиграть.
Буду условно доступен по почте.



[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 16:58
Хе. Прога по ссылке без кэпстра. Не та версия.
И синий график DublSpectrum не мешало бы развернуть и привести к герцам.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 20:48
Цитата:
Автор: Kek


Результат плачевный.


Не надо путать божий дар с яичницей.
Мелкепстральные к-нты не предназначены для извлечения ЧОТ - это совсем другой инструмент.
Просто вычисляя кепстр, можно, конечно, найти некий "горб" на результирующей кривой, но точность этого ЧОТ будет охренительно низкой. Можете и дальше развлекаться, конечно, это ваш лоб и ваши грабли, но это тупик имхо.
И уберите слово "гармоники" из ваших графиков - там не гармоники а частота. У гармоник есть только номер - 1,2,3 и т.д. Первую гармонику иногда называют ЧОТ-ом.
Успехов в деревне.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 8:49
dr2chek, а вы не знаете робастный метод выделения ЧОТ?

Я тут еще автокорреляцию попробовал, на первый взгляд получилось робастней чем кэпстр.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 10:01
Цитата:
Автор: Артем

dr2chek, а вы не знаете робастный метод выделения ЧОТ?

Я тут еще автокорреляцию попробовал, на первый взгляд получилось робастней чем кэпстр.

Робастный, робастный... Ну и словечко! Это вам Слава его подкинул?
Все методы, которые я знаю, имеют ограничения на область применения. Есть, работающие надежно только в "тепличных" условиях, но есть и в более-менее реальных, типа взял микрофон, сказал что-то и тут-же увидел кривую ЧОТ в реальном времени, узнал много интересного .
Но нет такого, который выловил бы ЧОТ в условиях акустических помех от говорящих собеседников. Надежно выловил, я имею в виду. Может кто-то на коленке уже "допиливает" такую прогу - я не знаю.
Проблема в том, что для любого известного метода нахождения ЧОТ можно придумать такой издевательский входной сигнал, что у метода обломаются зубы и он сдуется. А человеку будет все нипочем, распознает влёт.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 10:22
[QUOTE]Автор: dr2chek


Робастный, робастный... Ну и словечко! Это вам Слава его подкинул?/QUOTE]

Я его тоже не люблю
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 12:59
Цитата:
Робастный, робастный... Ну и словечко!


Ну здрасте приехали. Чем вам не понравлася термин альфа и омега военной техники?

Допустим мы используем метод1. Для метода1 нам надо определить порог срабатывания.
Очевидно что если порог мы вычисляем из текущего фрагмента самого сигнала - это робастно. Если я должен делать усреднения за N секунд - это скользко.

Похоже самый робастный метод - использовать несколько способов одновременно.

Вот что мне не понравилось в словах КЕК-а? Типа если ЧОТ пляшет - то не вокализованный участок. Для исллодевательских целей - это нормальная характеристика, а для программы, для алгоритма - слабовато ...

Сейчас я думаю над тем чтобы использовать минимум 3 принципиально отличающихся метода определения и отслеживания ЧОТ. И на комбинации этих методов получить один робастный.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 13:06
Цитата:
Автор: dr2chek
Но нет такого, который выловил бы ЧОТ в условиях акустических помех от говорящих собеседников.


Секундочку. Если говорящих несколько, то мы используем 2 уха. Т.е. пеленгатор или аналог ФАР (фазированной антенной решетки).

Второе. если я не могу понять, то могу я определить фактор - "нипанятно" ?
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 13:12
Цитата:
Автор: Артем

Похоже самый робастный метод - использовать несколько способов одновременно.


Без понимания слышимого все равно все это - только лишь частичное решение
Так вот и приходишь к тому, что заниматься в языке нужно совсем не нулевым уровнем
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 13:26
Цитата:
Автор: Slava
Так вот и приходишь к тому, что заниматься в языке нужно совсем не нулевым уровнем


Но если нулевой уровень ниже плинтуса - то дальше нечего ловить.
Да. Есть много алгоритмов хорошо формализованных и описанных для ненулевого уровня.
Ну что такое ненулевой уровень? это бинаризованные данные.
Скоро мы придем к этому уровню. Будет. Я уже был дальше ненулевого уровня.
Но по возвращении к этой тематике я хочу сделать нулевой уровень лучше.

Последняя мысль - иметь нарезку 1 канала сигнала на несколько каналов сигнала в разных частотных диапазонах. Ну штук 5. и в каждом из диапазонов делать одни и те же алгоритмы.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 13:33
Цитата:
Автор: Артем

Последняя мысль - иметь нарезку 1 канала сигнала на несколько каналов сигнала в разных частотных диапазонах. Ну штук 5. и в каждом из диапазонов делать одни и те же алгоритмы.


Делать можно много и разного
Вопрос в том - для чего, что ваша цель?
Если можете ее сформулировать, остальное уже - частоности
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 13:35
Цитата:
Автор: Артем



Секундочку. Если говорящих несколько, то мы используем 2 уха. Т.е. пеленгатор или аналог ФАР (фазированной антенной решетки).

Второе. если я не могу понять, то могу я определить фактор - "нипанятно" ?


Когда вы слушаете "моно", вам без разницы, два или одно ухо
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 13:57
Цитата:
Автор: Slava
Делать можно много и разного
Вопрос в том - для чего, что ваша цель?


Цель номер 1. Разграничить гласные и согласные. разметить слоги. расставить ударения.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июл 13 14:01
Цитата:
Автор: Артем

Цель номер 1. Разграничить гласные и согласные. разметить слоги. расставить ударения.


Прекрасно
А многоголосость вы при этом допускаете?
[Ответ][Цитата]
 Стр.30 (78)1  ...  26  27  28  29  [30]  31  32  33  34  ...  78<< < Пред. | След. > >>