Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.33 (78) << < Пред. | След. > >> Поиск:

Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:39

книга
Полиспектральный анализ. Новиков А. 2002г.
вот какая-то ссылка.
h t t p ://jv3.ru/12855-polispektralnyy-analiz-novikov-a-.html
(upd. Говорят ссылка заражена. )

Когда я писал в 2005-7 годах статьи на тему полиспектров - мне просто нужно было писать статьи. Для анализ искусственных сигналов, таких как радиосигналы - полиспектры как-бы бесполезны, но для анализа физических процессов - очень перспективно.

Вычислительная мощность - сумасшедшая. Даже современным компьютерам не очень позубам.
В моей статье (взято у Новикова) есть формула и ее ускоренный/упрощенный аналог.

Существуют полиспектры четного порядка и нечетного.
Обычный спектр - это полиспектр 2-го порядка.
Биспектр - это полиспектр 3-го порядка.

Биспектр - это функция от двух переменных, от частоты и от частоты. Получаем трехмерный график.

Полиспектр 4-го порядка - функция от трех переменных (три частоты), значит нарисовать это уже не представляется возможным.

Для практики вычисляют какие-то особые диагонали и рисуют график.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:45

Вот упрощенная формула.
Допустим есть спектр БПФ на 512 точек.
A1,A2,A3 .... A511

Функция биспектра выглядит так F(wx,wy)=A(wx)*A(wy)*A(wx+wy)
Я привел А - значит амплитуда, но также формула выглядит и если брать комплексное значение. F(wx,wy)=C(wx)*C(wy)*C^(wx+wy). C^ - я обозначил комплексно сопряженное.

Полиспектры четного и нечетного порядка имеют разный смысл фазы, но не будем сейчас об этом, допустим нас интересует только амплитуда.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 11:49

Пример. Пусть ЧОТ 100 гц.
Тогда будем иметь выраженные пик биспектра частотах 100:200 на F(100,200) = A(100)*A(200)*A(100+200)

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 12:42

Цитата:
Автор: Артем

книга
Полиспектральный анализ. Новиков А. 2002г.
вот какая-то ссылка.
http://jv3.ru/12855-polispektralnyy-analiz-novikov-a-.html

Ссылка заражена

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 12:56

Ахахаю начал гуглить и что я нашел?
переворовали мою статью. вот эти картинки я сам готовил
http://www.scienceforum.ru/2013/pdf/3129.pdf

Вот на картинках треугольник - это и есть биспектр.

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:20

Цитата:
Автор: Артем

Ахахаю начал гуглить и что я нашел?

В.Н.Сорокин из ИППИ восстанавливает форму импульса, порождающего основной тон
У него недавно вышла книга, где и про это тоже что-то есть

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:44

Угу. погуглил. Вот что-то нашел
http://www.jip.ru/2012/1-30-2012.pdf

Честно говоря не представляю пока как восстанавливать форму порождающего ЧОТ импульса.
Но видимо это ключ к разпознаванию личности диктора.

и вот похожее
http://me.behos.net/1/2_1/%D0%A0%D1%83%D1%87%D0%B0%D0%B9/%D0%A0%D1%83%D1%87%D0%B0%D0%B9%20%D0%91%D0%B8%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0.pdf
http://speechtechnology.ru/files/1-2009.pdf

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 13:49

Цитата:
Автор: Артем

Угу. погуглил. Вот что-то нашел
http://www.jip.ru/2012/1-30-2012.pdf

Честно говоря не представляю пока как восстанавливать форму порождающего ЧОТ импульса.
Но видимо это ключ к разпознаванию личности диктора.

и вот похожее
http://me.behos.net/1/2_1/%D0%A0%D1%83%D1%87%D0%B0%D0%B9/%D0%A0%D1%83%D1%87%D0%B0%D0%B9%20%D0%91%D0%B8%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0.pdf
http://speechtechnology.ru/files/1-2009.pdf

И в эту сторону они тоже давно смотрят

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 15:42

По первой ссылке Сорокина законспектировал кое-что:

В дополнение к коэффициентам кепстра используются также их первые и вторые разности по
времени.

Сегментация дикторов в потоке разговора разных дикторов (audio-indexing, diarization)
необходима при разметке звуковых стенограмм, теле-конференций, радио- и теле-передач, интервью,
расшифровке записей разговоров на вечеринке

В определенных условиях для сегментации достаточно распознать пол диктора.

Форма речевого тракта лучше всего проявляется при нейтральном положении
артикуляторных органов.
Ближе всего к нейтральному состоянию соответствует артикуляция гласного /э/.

...известен так называемый эффект Ломбарда, состоящий
в повышении уровня высокочастотных компонент речевого сигнала при непроизвольном повышении
громкости в присутствии помех...

Применяется также вычитание среднего кепстра.

Система управления артикуляцией формирует просодические характеристики:
динамику частоты основного тона, длительность фонетических сегментов

сообщается, что наиболее важный фактор индивидуальности голоса – это частота
основного тона F0, за ней следуют формантные частоты,
размер флюктуаций F0 и наклон спектра (Артем: че за наклон спектра?)

Логарифмическое представление F0 более информативно, чем сама частота основного тона ...

Схема этого метода такова: на
интервале времени в 10 – 20 мс вычисляется текущий спектр мощности, а затем применяется
обратное преобразование Фурье от логарифма этого спектра (кепстр)

Свойства слуха учитываются путем нелинейного преобразования шкалы частот, обычно в
шкале мел. Эта шкала формируется исходя из присутствия в слухе так называемых критических
полос, таких, что сигналы любой частоты в пределах критической полосы неразличимы. Шкала мел
вычисляется как M(f) = 1125*ln(1+f/700), где f - частота в Гц, M – частота в мелах.

...было найдено, что наибольшая информация о дикторе находится в полосах
ниже 600 Гц и выше 3000 Гц. Частотный диапазон стандартного телефонного канала 300 -3400 Гц
обрезает высокие частоты, ухудшая различимость голоса диктора.
(Артем: это я к тому что распознавание речи и диктора-разные задачи)

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 20 июл 13 23:32

Цитата:
Автор: Артем

По первой ссылке Сорокина законспектировал кое-что:

В дополнение к коэффициентам кепстра используются также их первые и вторые разности по
времени.

Это похоже на "фонетическую функцию" Пирогова

[Ответ][Цитата]

Анатоль
Сообщений: 1964

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 0:00

Цитата:
Автор: Артем
че за наклон спектра?

Ну, например, отношение интенсивности первой форманты к третьей.
Цитата:

критических полос, таких, что сигналы любой частоты в пределах критической полосы неразличимы.

Вы неправильно поняли что такое критические полосы.
Они довольно широкие (десятки и сотни герц). Сигналы, раличающиеся настолько, легко различимы.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:17

Цитата:
Автор: Анатоль
Вы неправильно поняли что такое критические полосы.
Они довольно широкие (десятки и сотни герц). Сигналы, раличающиеся настолько, легко различимы.

Я понял одно. В радио отталкиваются от частот. И спектр - это функция от частоты.
А вот в распознавании речи (естественный физический процесс) надо отталкиваться от периода, и строить спектр как функцию от периода.

Вот сейчас третью ссылку читаю - там тоже на это активно все построено.
Upd: Там прекрасные таблички распределения формант. Букву у - специально забыли?

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:38

Цитата:
Автор: Артем
Я понял одно. В радио отталкиваются от частот. И спектр - это функция от частоты.
А вот в распознавании речи (естественный физический процесс) надо отталкиваться от периода, и строить спектр как функцию от периода.

Вообще-то, это - довольно любопытное утверждение
Не могли бы пояснить эту мысль, плз

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 7:50

Строишь спектр. По X - частота, по оси Y-амплитуда.
Смотришь на него - нипанятно ничего.
А некоторые строят спектр с учетом шкалы MEL - различимость звуков на разных частотах.
В формуле MEL есть логарифм от частоты.

Вывод. Надо строить спектр чтобы по оси X-был период а не частота, что естественным образом преобразует шкалу к шкале MEL.
хотя я ошибся... все равно логарифм нужен ...

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 21 июл 13 8:37

Цитата:
Автор: Артем

Строишь спектр. По X - частота, по оси Y-амплитуда.
Смотришь на него - нипанятно ничего.

Скажите, а что должно быть понятно?

[Ответ][Цитата]

Стр.33 (78): 1 ... 29 30 31 32 [33] 34 35 36 37 ... 78 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net