|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:39
|
книга Полиспектральный анализ. Новиков А. 2002г. вот какая-то ссылка. h t t p ://jv3.ru/12855-polispektralnyy-analiz-novikov-a-.html (upd. Говорят ссылка заражена. )
Когда я писал в 2005-7 годах статьи на тему полиспектров - мне просто нужно было писать статьи. Для анализ искусственных сигналов, таких как радиосигналы - полиспектры как-бы бесполезны, но для анализа физических процессов - очень перспективно.
Вычислительная мощность - сумасшедшая. Даже современным компьютерам не очень позубам. В моей статье (взято у Новикова) есть формула и ее ускоренный/упрощенный аналог.
Существуют полиспектры четного порядка и нечетного. Обычный спектр - это полиспектр 2-го порядка. Биспектр - это полиспектр 3-го порядка.
Биспектр - это функция от двух переменных, от частоты и от частоты. Получаем трехмерный график.
Полиспектр 4-го порядка - функция от трех переменных (три частоты), значит нарисовать это уже не представляется возможным.
Для практики вычисляют какие-то особые диагонали и рисуют график.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:45
|
Вот упрощенная формула. Допустим есть спектр БПФ на 512 точек. A1,A2,A3 .... A511
Функция биспектра выглядит так F(wx,wy)=A(wx)*A(wy)*A(wx+wy) Я привел А - значит амплитуда, но также формула выглядит и если брать комплексное значение. F(wx,wy)=C(wx)*C(wy)*C^(wx+wy). C^ - я обозначил комплексно сопряженное.
Полиспектры четного и нечетного порядка имеют разный смысл фазы, но не будем сейчас об этом, допустим нас интересует только амплитуда.
|
|
|
| |
| |
| |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:20
|
Автор: Артем
Ахахаю начал гуглить и что я нашел? |
|
В.Н.Сорокин из ИППИ восстанавливает форму импульса, порождающего основной тон У него недавно вышла книга, где и про это тоже что-то есть
|
|
|
| |
| |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 15:42
|
По первой ссылке Сорокина законспектировал кое-что:
В дополнение к коэффициентам кепстра используются также их первые и вторые разности по времени.
Сегментация дикторов в потоке разговора разных дикторов (audio-indexing, diarization) необходима при разметке звуковых стенограмм, теле-конференций, радио- и теле-передач, интервью, расшифровке записей разговоров на вечеринке
В определенных условиях для сегментации достаточно распознать пол диктора.
Форма речевого тракта лучше всего проявляется при нейтральном положении артикуляторных органов. Ближе всего к нейтральному состоянию соответствует артикуляция гласного /э/.
...известен так называемый эффект Ломбарда, состоящий в повышении уровня высокочастотных компонент речевого сигнала при непроизвольном повышении громкости в присутствии помех...
Применяется также вычитание среднего кепстра.
Система управления артикуляцией формирует просодические характеристики: динамику частоты основного тона, длительность фонетических сегментов
сообщается, что наиболее важный фактор индивидуальности голоса – это частота основного тона F0, за ней следуют формантные частоты, размер флюктуаций F0 и наклон спектра (Артем: че за наклон спектра?)
Логарифмическое представление F0 более информативно, чем сама частота основного тона ...
Схема этого метода такова: на интервале времени в 10 – 20 мс вычисляется текущий спектр мощности, а затем применяется обратное преобразование Фурье от логарифма этого спектра (кепстр)
Свойства слуха учитываются путем нелинейного преобразования шкалы частот, обычно в шкале мел. Эта шкала формируется исходя из присутствия в слухе так называемых критических полос, таких, что сигналы любой частоты в пределах критической полосы неразличимы. Шкала мел вычисляется как M(f) = 1125*ln(1+f/700), где f - частота в Гц, M – частота в мелах.
...было найдено, что наибольшая информация о дикторе находится в полосах ниже 600 Гц и выше 3000 Гц. Частотный диапазон стандартного телефонного канала 300 -3400 Гц обрезает высокие частоты, ухудшая различимость голоса диктора. (Артем: это я к тому что распознавание речи и диктора-разные задачи)
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 23:32
|
Автор: Артем
По первой ссылке Сорокина законспектировал кое-что:
В дополнение к коэффициентам кепстра используются также их первые и вторые разности по времени. |
|
Это похоже на "фонетическую функцию" Пирогова
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 0:00
|
Автор: Артем че за наклон спектра? |
|
Ну, например, отношение интенсивности первой форманты к третьей. критических полос, таких, что сигналы любой частоты в пределах критической полосы неразличимы.
|
|
Вы неправильно поняли что такое критические полосы. Они довольно широкие (десятки и сотни герц). Сигналы, раличающиеся настолько, легко различимы.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:17
|
Автор: Анатоль Вы неправильно поняли что такое критические полосы. Они довольно широкие (десятки и сотни герц). Сигналы, раличающиеся настолько, легко различимы. |
|
Я понял одно. В радио отталкиваются от частот. И спектр - это функция от частоты. А вот в распознавании речи (естественный физический процесс) надо отталкиваться от периода, и строить спектр как функцию от периода. Вот сейчас третью ссылку читаю - там тоже на это активно все построено. Upd: Там прекрасные таблички распределения формант. Букву у - специально забыли?
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:38
|
Автор: Артем Я понял одно. В радио отталкиваются от частот. И спектр - это функция от частоты. А вот в распознавании речи (естественный физический процесс) надо отталкиваться от периода, и строить спектр как функцию от периода. |
|
Вообще-то, это - довольно любопытное утверждение Не могли бы пояснить эту мысль, плз
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:50
|
Строишь спектр. По X - частота, по оси Y-амплитуда. Смотришь на него - нипанятно ничего. А некоторые строят спектр с учетом шкалы MEL - различимость звуков на разных частотах. В формуле MEL есть логарифм от частоты.
Вывод. Надо строить спектр чтобы по оси X-был период а не частота, что естественным образом преобразует шкалу к шкале MEL. хотя я ошибся... все равно логарифм нужен ...
|
|
|
| |
|