GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.30 (78)

<< < Пред. | След. > >>

Поиск:

Автор

Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

гость
31.181.64.*

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 17 июл 13 11:18

*Коллеги, нужны озвученные русские слова в формате WAV или MP3*
Слова конечно самому прийдётся наделать, можно аудио книгу распотрошить.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 17 июл 13 12:14

Полнофункциональный анализ спектра спектра.
Краткие и беглые выводы.
---------------------------------------------
В классике над спектром делают Дискретное Косинусное Преобразование ДКП/(DCT)

Читать тута

Кепстральные коэфы - есть ничто иное как 12 значений реализации кепстра.
Всего 12 - это классика.
По их значениям чего-то там распознают, запихивая их в нейронную сеть.
Результат плачевный.

Я предлагаю анализировать честный спектр спектра не на основе ДКП, а на основе того же Фурье.
И назвать это нармально, например "DublSpectrum".
В результате получается некая функция, у которой значений поболе, чем 12.
И вот её-то и надо с пристрастием анализировать.
См картинку.

Желтый график - это обычный спектр.
Голубой - DublSpectrum.
Что он кажет?
Левая часть всегда приподнята и от неё надо отступить пунктов 10 (см. верхнюю шкалу).
И анализировать область от 10 до 80.

Его главный локальный максимум в этой области показывает ЧОТ (Частоту Основного Тона).
Иногда локальных максимумов много, до 4 и более. Их тоже надо анализировать.

Выявленные закономерности:
1. Если основной локальный максимум несколько кадров подряд стоит на месте - это гласная буква
2. Резкие скачки локалного максимума по горизонтальной шкале - переходы в область без гласных.
Анализ этих переходов и то, что внутри - отдельная песня, пока не готов.

Какие параметры надо анализировать:
1. Количество локальных максимумов
2. Соотношение амплитуды главного и второстепенных
3. Слабые перемещения главного локального максимума - интонации
Какие закономерности эти параметры будут выявлять - это предмет исследования.

Заметьте, перечисленные параметры - это не массивы, а числа, с ними уже легче.

При всем при этом полная независимость от тона говорящего.
ч.т.д!!!!!

На данный момент с вдохновением заканчиваю возню и уезжаю в деревню!
Кому интересно, может скачать http://www.keklab.ru/buf/ai/Sound_Agent 2.8.6.zip -> прогу.
Как ей пользоваться во многом описано в начале ветки.
Отдельные нюансы объясню кому интересно. Сделал редактирование спектра в кадре ручками. Можно самому выстроить спектра или удалить лишнее и проиграть.
Буду условно доступен по почте.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 17 июл 13 16:58

Хе. Прога по ссылке без кэпстра. Не та версия.
И синий график DublSpectrum не мешало бы развернуть и привести к герцам.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 17 июл 13 20:48

Цитата:

Автор: Kek

Результат плачевный.

Не надо путать божий дар с яичницей.
Мелкепстральные к-нты не предназначены для извлечения ЧОТ - это совсем другой инструмент.
Просто вычисляя кепстр, можно, конечно, найти некий "горб" на результирующей кривой, но точность этого ЧОТ будет охренительно низкой. Можете и дальше развлекаться, конечно, это ваш лоб и ваши грабли, но это тупик имхо.
И уберите слово "гармоники" из ваших графиков - там не гармоники а частота. У гармоник есть только номер - 1,2,3 и т.д. Первую гармонику иногда называют ЧОТ-ом.
Успехов в деревне.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 8:49

dr2chek, а вы не знаете робастный метод выделения ЧОТ?

Я тут еще автокорреляцию попробовал, на первый взгляд получилось робастней чем кэпстр.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 10:01

Цитата:

Автор: Артем

dr2chek, а вы не знаете робастный метод выделения ЧОТ?

Я тут еще автокорреляцию попробовал, на первый взгляд получилось робастней чем кэпстр.

Робастный, робастный... Ну и словечко! Это вам Слава его подкинул?
Все методы, которые я знаю, имеют ограничения на область применения. Есть, работающие надежно только в "тепличных" условиях, но есть и в более-менее реальных, типа взял микрофон, сказал что-то и тут-же увидел кривую ЧОТ в реальном времени, узнал много интересного

.
Но нет такого, который выловил бы ЧОТ в условиях акустических помех от говорящих собеседников. Надежно выловил, я имею в виду. Может кто-то на коленке уже "допиливает" такую прогу - я не знаю.
Проблема в том, что для любого известного метода нахождения ЧОТ можно придумать такой издевательский входной сигнал, что у метода обломаются зубы и он сдуется. А человеку будет все нипочем, распознает влёт.

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 10:22

[QUOTE]Автор: dr2chek

Робастный, робастный... Ну и словечко! Это вам Слава его подкинул?/QUOTE]

Я его тоже не люблю

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 12:59

Цитата:

Робастный, робастный... Ну и словечко!

Ну здрасте приехали. Чем вам не понравлася термин альфа и омега военной техники?

Допустим мы используем метод1. Для метода1 нам надо определить порог срабатывания.
Очевидно что если порог мы вычисляем из текущего фрагмента самого сигнала - это робастно. Если я должен делать усреднения за N секунд - это скользко.

Похоже самый робастный метод - использовать несколько способов одновременно.

Вот что мне не понравилось в словах КЕК-а? Типа если ЧОТ пляшет - то не вокализованный участок. Для исллодевательских целей - это нормальная характеристика, а для программы, для алгоритма - слабовато ...

Сейчас я думаю над тем чтобы использовать минимум 3 принципиально отличающихся метода определения и отслеживания ЧОТ. И на комбинации этих методов получить один робастный.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 13:06

Цитата:

Автор: dr2chek
Но нет такого, который выловил бы ЧОТ в условиях акустических помех от говорящих собеседников.

Секундочку. Если говорящих несколько, то мы используем 2 уха. Т.е. пеленгатор или аналог ФАР (фазированной антенной решетки).

Второе. если я не могу понять, то могу я определить фактор - "нипанятно" ?

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 13:12

Цитата:

Автор: Артем

Похоже самый робастный метод - использовать несколько способов одновременно.

Без понимания слышимого все равно все это - только лишь частичное решение
Так вот и приходишь к тому, что заниматься в языке нужно совсем не нулевым уровнем

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 13:26

Цитата:

Автор: Slava
Так вот и приходишь к тому, что заниматься в языке нужно совсем не нулевым уровнем

Но если нулевой уровень ниже плинтуса - то дальше нечего ловить.
Да. Есть много алгоритмов хорошо формализованных и описанных для ненулевого уровня.
Ну что такое ненулевой уровень? это бинаризованные данные.
Скоро мы придем к этому уровню. Будет. Я уже был дальше ненулевого уровня.
Но по возвращении к этой тематике я хочу сделать нулевой уровень лучше.

Последняя мысль - иметь нарезку 1 канала сигнала на несколько каналов сигнала в разных частотных диапазонах. Ну штук 5. и в каждом из диапазонов делать одни и те же алгоритмы.

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 13:33

Цитата:

Автор: Артем

Последняя мысль - иметь нарезку 1 канала сигнала на несколько каналов сигнала в разных частотных диапазонах. Ну штук 5. и в каждом из диапазонов делать одни и те же алгоритмы.

Делать можно много и разного
Вопрос в том - для чего, что ваша цель?
Если можете ее сформулировать, остальное уже - частоности

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 13:35

Цитата:

Автор: Артем

Секундочку. Если говорящих несколько, то мы используем 2 уха. Т.е. пеленгатор или аналог ФАР (фазированной антенной решетки).

Второе. если я не могу понять, то могу я определить фактор - "нипанятно" ?

Когда вы слушаете "моно", вам без разницы, два или одно ухо

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 13:57

Цитата:

Автор: Slava
Делать можно много и разного
Вопрос в том - для чего, что ваша цель?

Цель номер 1. Разграничить гласные и согласные. разметить слоги. расставить ударения.

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 18 июл 13 14:01

Цитата:

Автор: Артем

Цель номер 1. Разграничить гласные и согласные. разметить слоги. расставить ударения.

Прекрасно
А многоголосость вы при этом допускаете?

[Ответ][Цитата]

Стр.30 (78): 1 ... 26 27 28 29 [30] 31 32 33 34 ... 78

<< < Пред. | След. > >>

Форум: Проблемы искусственного интеллекта