GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.33 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:39
книга
Полиспектральный анализ. Новиков А. 2002г.
вот какая-то ссылка.
h t t p ://jv3.ru/12855-polispektralnyy-analiz-novikov-a-.html
(upd. Говорят ссылка заражена. )

Когда я писал в 2005-7 годах статьи на тему полиспектров - мне просто нужно было писать статьи. Для анализ искусственных сигналов, таких как радиосигналы - полиспектры как-бы бесполезны, но для анализа физических процессов - очень перспективно.

Вычислительная мощность - сумасшедшая. Даже современным компьютерам не очень позубам.
В моей статье (взято у Новикова) есть формула и ее ускоренный/упрощенный аналог.

Существуют полиспектры четного порядка и нечетного.
Обычный спектр - это полиспектр 2-го порядка.
Биспектр - это полиспектр 3-го порядка.

Биспектр - это функция от двух переменных, от частоты и от частоты. Получаем трехмерный график.

Полиспектр 4-го порядка - функция от трех переменных (три частоты), значит нарисовать это уже не представляется возможным.

Для практики вычисляют какие-то особые диагонали и рисуют график.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:45
Вот упрощенная формула.
Допустим есть спектр БПФ на 512 точек.
A1,A2,A3 .... A511

Функция биспектра выглядит так F(wx,wy)=A(wx)*A(wy)*A(wx+wy)
Я привел А - значит амплитуда, но также формула выглядит и если брать комплексное значение. F(wx,wy)=C(wx)*C(wy)*C^(wx+wy). C^ - я обозначил комплексно сопряженное.

Полиспектры четного и нечетного порядка имеют разный смысл фазы, но не будем сейчас об этом, допустим нас интересует только амплитуда.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:49
Пример. Пусть ЧОТ 100 гц.
Тогда будем иметь выраженные пик биспектра частотах 100:200 на F(100,200) = A(100)*A(200)*A(100+200)
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 12:42
Цитата:
Автор: Артем

книга
Полиспектральный анализ. Новиков А. 2002г.
вот какая-то ссылка.
http://jv3.ru/12855-polispektralnyy-analiz-novikov-a-.html


Ссылка заражена
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 12:56
Ахахаю начал гуглить и что я нашел?
переворовали мою статью. вот эти картинки я сам готовил
http://www.scienceforum.ru/2013/pdf/3129.pdf

Вот на картинках треугольник - это и есть биспектр.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:20
Цитата:
Автор: Артем

Ахахаю начал гуглить и что я нашел?


В.Н.Сорокин из ИППИ восстанавливает форму импульса, порождающего основной тон
У него недавно вышла книга, где и про это тоже что-то есть
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:44
Угу. погуглил. Вот что-то нашел
http://www.jip.ru/2012/1-30-2012.pdf

Честно говоря не представляю пока как восстанавливать форму порождающего ЧОТ импульса.
Но видимо это ключ к разпознаванию личности диктора.

и вот похожее
http://me.behos.net/1/2_1/%D0%A0%D1%83%D1%87%D0%B0%D0%B9/%D0%A0%D1%83%D1%87%D0%B0%D0%B9%20%D0%91%D0%B8%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0.pdf
http://speechtechnology.ru/files/1-2009.pdf
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:49
Цитата:
Автор: Артем

Угу. погуглил. Вот что-то нашел
http://www.jip.ru/2012/1-30-2012.pdf

Честно говоря не представляю пока как восстанавливать форму порождающего ЧОТ импульса.
Но видимо это ключ к разпознаванию личности диктора.

и вот похожее
http://me.behos.net/1/2_1/%D0%A0%D1%83%D1%87%D0%B0%D0%B9/%D0%A0%D1%83%D1%87%D0%B0%D0%B9%20%D0%91%D0%B8%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0.pdf
http://speechtechnology.ru/files/1-2009.pdf


И в эту сторону они тоже давно смотрят
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 15:42
По первой ссылке Сорокина законспектировал кое-что:

В дополнение к коэффициентам кепстра используются также их первые и вторые разности по
времени.

Сегментация дикторов в потоке разговора разных дикторов (audio-indexing, diarization)
необходима при разметке звуковых стенограмм, теле-конференций, радио- и теле-передач, интервью,
расшифровке записей разговоров на вечеринке

В определенных условиях для сегментации достаточно распознать пол диктора.

Форма речевого тракта лучше всего проявляется при нейтральном положении
артикуляторных органов.
Ближе всего к нейтральному состоянию соответствует артикуляция гласного /э/.

...известен так называемый эффект Ломбарда, состоящий
в повышении уровня высокочастотных компонент речевого сигнала при непроизвольном повышении
громкости в присутствии помех...

Применяется также вычитание среднего кепстра.

Система управления артикуляцией формирует просодические характеристики:
динамику частоты основного тона, длительность фонетических сегментов

сообщается, что наиболее важный фактор индивидуальности голоса – это частота
основного тона F0, за ней следуют формантные частоты,
размер флюктуаций F0 и наклон спектра (Артем: че за наклон спектра?)

Логарифмическое представление F0 более информативно, чем сама частота основного тона ...

Схема этого метода такова: на
интервале времени в 10 – 20 мс вычисляется текущий спектр мощности, а затем применяется
обратное преобразование Фурье от логарифма этого спектра (кепстр)

Свойства слуха учитываются путем нелинейного преобразования шкалы частот, обычно в
шкале мел. Эта шкала формируется исходя из присутствия в слухе так называемых критических
полос, таких, что сигналы любой частоты в пределах критической полосы неразличимы. Шкала мел
вычисляется как M(f) = 1125*ln(1+f/700), где f - частота в Гц, M – частота в мелах.

...было найдено, что наибольшая информация о дикторе находится в полосах
ниже 600 Гц и выше 3000 Гц. Частотный диапазон стандартного телефонного канала 300 -3400 Гц
обрезает высокие частоты, ухудшая различимость голоса диктора.
(Артем: это я к тому что распознавание речи и диктора-разные задачи)
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 23:32
Цитата:
Автор: Артем

По первой ссылке Сорокина законспектировал кое-что:

В дополнение к коэффициентам кепстра используются также их первые и вторые разности по
времени.


Это похоже на "фонетическую функцию" Пирогова
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 0:00
Цитата:
Автор: Артем
че за наклон спектра?

Ну, например, отношение интенсивности первой форманты к третьей.
Цитата:

критических полос, таких, что сигналы любой частоты в пределах критической полосы неразличимы.

Вы неправильно поняли что такое критические полосы.
Они довольно широкие (десятки и сотни герц). Сигналы, раличающиеся настолько, легко различимы.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:17
Цитата:
Автор: Анатоль
Вы неправильно поняли что такое критические полосы.
Они довольно широкие (десятки и сотни герц). Сигналы, раличающиеся настолько, легко различимы.


Я понял одно. В радио отталкиваются от частот. И спектр - это функция от частоты.
А вот в распознавании речи (естественный физический процесс) надо отталкиваться от периода, и строить спектр как функцию от периода.

Вот сейчас третью ссылку читаю - там тоже на это активно все построено.
Upd: Там прекрасные таблички распределения формант. Букву у - специально забыли?
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:38
Цитата:
Автор: Артем
Я понял одно. В радио отталкиваются от частот. И спектр - это функция от частоты.
А вот в распознавании речи (естественный физический процесс) надо отталкиваться от периода, и строить спектр как функцию от периода.


Вообще-то, это - довольно любопытное утверждение
Не могли бы пояснить эту мысль, плз
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:50
Строишь спектр. По X - частота, по оси Y-амплитуда.
Смотришь на него - нипанятно ничего.
А некоторые строят спектр с учетом шкалы MEL - различимость звуков на разных частотах.
В формуле MEL есть логарифм от частоты.

Вывод. Надо строить спектр чтобы по оси X-был период а не частота, что естественным образом преобразует шкалу к шкале MEL.
хотя я ошибся... все равно логарифм нужен ...
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 8:37
Цитата:
Автор: Артем

Строишь спектр. По X - частота, по оси Y-амплитуда.
Смотришь на него - нипанятно ничего.


Скажите, а что должно быть понятно?
[Ответ][Цитата]
 Стр.33 (78)1  ...  29  30  31  32  [33]  34  35  36  37  ...  78<< < Пред. | След. > >>