GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.5 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 0:16
Вот хорошая интерпретация книги Ирины Алдошиной:
http://inform-hifi.narod.ru/3.htm
У меня вопрос. Есть такое понятие как "основной тон".
Я понимаю это так. При произнесении слова каждый говорит каким-то тоном. Но к основоному тону подмешиваются обертона. Поэтому получается гребенка из K гармоник, которые синхронно все перемещаются по оси Y, если происходит изменение основоного тона в момент изменения интонаций (например при вопросе, фраза изменяется повышением тона).
Задача выделить гребенку и заменить ее одной или несколькими гармониками (заведомо меньшим количеством). При чем всегда одним и тем же набором. И только после этого распознавать.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 0:20
Цитата:
Вобщем метод сравнения одинаковых массивов не работает.
Механистически их сравнивать не правильно, даже если они одинаковы по размеру.

Что-вы, КОНЕЧНО не правильно! это как сравнение 2х фотографий - чуть-чуть повернуто, растянуто, громче, шум другой, голос другой, голос "осип"(простуда), прокуреный/пропитый, мужчина/женщина... отличий слишком много что-бы нагло сравнивать два массива. Сначала запишите десяток образцов с одной фразой/фонемой, потом найдите НАГЛЯДНО одинаковые характеристики. А уж потом подбирайте алгоритм для сравнения. Это как сравнивать холмы в ледниках и пустыне - должны быть похожи, но как их сравнивать не видя ни разу...

Если ВСТРОЕТЕ в программу запись голоса, то думаю местные (форумчане) не будут сильно против выслать Вам записи определеных слов/фонем для анализа...
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 4:06
Цитата:
Автор: Kek
У меня вопрос.

1)Почему Вы взяли для определения спектра 640 значений амплитуды звука?
Ведь для БПФ нужно чтоб была степень двойки (512).

2)Зачем такое длинное окно? Зачем Вам такое высокое разрешение по частоте (25 гц)?
Достаточно окна 256 точек (или даже 128)

3)Почему у Вас окна не перекрываются?

4)Почему Вы называете частоты Фурье разложения гармониками?

5)Различаете ли Вы их от гармоник сигнала?

6)Зачем Вам вообще для распознавания гармоники?
Для распознавания нужна только огибающая спектра (логарифмизированного по амплитуде и усреднённого по Мелл или Бар шкале), (или кепстральные коефициенты, полученные из неё).
Только динамика огибающей определяет фонетическое содержание звука.
Гармоники (гармоники сигнала, а не то, что Вы называете гармониками) нужны только для определения частоты основного тона.
[Ответ][Цитата]
ЭСГТР
Сообщений: 8449
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 6:59
Цитата:
Автор: Kek

Вот хорошая интерпретация книги Ирины Алдошиной:
http://inform-hifi.narod.ru/3.htm
У меня вопрос. Есть такое понятие как "основной тон".
Я понимаю это так. При произнесении слова каждый говорит каким-то тоном. Но к основоному тону подмешиваются обертона. Поэтому получается гребенка из K гармоник, которые синхронно все перемещаются по оси Y, если происходит изменение основоного тона в момент изменения интонаций (например при вопросе, фраза изменяется повышением тона).
Задача выделить гребенку и заменить ее одной или несколькими гармониками (заведомо меньшим количеством). При чем всегда одним и тем же набором. И только после этого распознавать.
Если соотношение гармоник одинаковое, а основные тоны разные, то для человека это одно и тоже. ЭГТР утверждает, что для распознавания информации важна конструкция сигнала, Гармоники определяют эту конструкцию, а основной тон получается в результате повторения своим голосовым аппаратом.
Схема такая. Поступающий сигнал разлагается на гармоники благодаря ушной улитке. Затем синтезируется сигнал который идёт на голосовые связки с той же гармонической конструкцией. Затем идёт распознавание своего голосового импульса. Если передать только гармоники, то звук всё равно должен распознаться. Проверьте.
[Ответ][Цитата]
ЭСГТР
Сообщений: 8449
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 7:00
Цитата:
Автор: Анатоль
Почему Вы называете частоты Фурье разложения гармониками?

Зачем Вам вообще для распознавания гармоники?
Разложение Фурье это разложение на гармонические составляющие.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 7:34
Цитата:
Автор: Анатоль
Почему...

Причина ваших вопросов в основном в несовпадении терминологии.
1. Я не понимаю пока чем отличается быстрое преобразование Фурье от просто преобразования. У меня преобразование длится 16 мс, помоему это быстро... Может потом разберусь досканально именно с БПФ.
2. Если длина окна - это количество гармоник, то да, я сейчас уменьшил до 240.
3. Не понимаю, что вы называете окном. Если кадры, то перекрытие... может что-то и даст, не знаю...
4. Меня так учили. Функцию можно представить в виде ряда любой другой функции, только непрерывной. Можно разложить в степенные ряды... а можно в cos и sin. Они описывают гармонические калебания.
5. Не понимаю. (с гарониками нестыковка).
6. А затем, что до кепстрального преобразования пока не добрался. Динамика огибающей спектра, согласен, информативна. Но если бы утверждение "Для распознавания нужна только огибающая спектра" было бы верным, то вопрос распознавания был бы закрыт полностью. А это не так.

Если не биться на шпагах относительно слова гармоника, которое я буду понимать так, как подсказывает мне физическая суть, то осталось все таки понять в рамках тех определений, которые у меня в статье:

Кадр - 40 мс;
Количество гармоник в кадре 240;
Длительность записи 2000 мс. 50 кадров.;
Огибающая спектральная - в каждом кадре своя.;
Общая энергетическая огибающая сигнала в процессе записи 2000 мс.;

Так вот
1. Что перекрывать?
2. "Только динамика огибающей определяет фонетическое содержание звука." Какая огибающая - спектральная в каждом кадре, или общая энергетическая?


[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 8:11
Цитата:
Автор: ЭГТР
Разложение Фурье это разложение на гармонические составляющие.


В ДПФ сигнал приближенно представляется как сумма некоторого количества синусов и косинусов частот кратных некоторой частоте, зависящей от длины окна , а не от сигнала.
Они, конечно, гармоники в том смысле что их частоты кратны некоторой.
Но к гармоникам сигнала они никакого отношения не имеют.

Гармоники сигнала - это частоты кратные частоте основного тона сигнала (звука).
Они наоборот, являются характеристиками сигнала и не зависят от выбора длины окна анализа.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 8:26
Цитата:
Автор: Анатоль
Гармоники сигнала - это частоты кратные частоте основного тона сигнала (звука).

Теперь понятно. Это обертона, в моем словаре.
Про кепстры прочитал ваши объяснения на форуме "ИСХОДНИКИ.RU". Попробую.
Единственно хочется понять, откуда взялась бар(мел) - шкала? Это эмпирика? Почему именно эти частоты?
Они отражают какую-то физ. суть?
И еще.
Все таки я понимаю так. Кепстральные коэфы - это просто методика уменьшить количество сравниваемых чисел при распознавании. Да, они несут какой-то физ. смысл. Но, согласитесь, что этого не достаточно?
И чем больше будет разрозненных параметров сигнала для описания уникальности речевой реализации, тем лучше. Это с одной стороны, с другой их должно быть реальное число, не гигабайты.

Да, еще вопрос. Применение кепстральных коэфов дает инвариантность относительно того говорят басом или тенором? Мне кажется что с ними еще надо городить огород. B ваш Вася, помоему что-то делает типа НС?
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 8:50
Цитата:
Автор: Kek
Я не понимаю пока чем отличается быстрое преобразование Фурье от просто преобразования.

Быстротой преобразования.

Цитата:
Если длина окна - это количество гармоник

Длина окна - это количество семплов, значений сигнала.

Цитата:
Не понимаю, что вы называете окном. Если кадры, то перекрытие... может что-то и даст, не знаю...

Наверно то, что Вы называете кадром. Но Вы же не называете оконную функцию кадровой..
Перекрытие окон (кадров) даст плавнось изменения спектра.

Цитата:
Не понимаю. (с гарониками нестыковка).

Смотрите мой ответ ЭГТРу.

Цитата:
Но если бы утверждение "Для распознавания нужна только огибающая спектра" было бы верным, то вопрос распознавания был бы закрыт полностью.

Не всё так просто.
Для распознавания впринципе достоточно и просто динамики амплитуды (т.е. осцилограммы),ведь в ней вся информация есть, но...
А в динамике огибающей спектра информации намного меньше, чем в осцилограмме (в десятки раз),но достаточно для распознавания, и она в форме, мало зависящей от индивидуальных особенностей звука.


Цитата:
Что перекрывать?

Окна (кадры).
Цитата:
"Только динамика огибающей определяет фонетическое содержание звука." Какая огибающая - спектральная в каждом кадре, или общая энергетическая?


Огибающая спектра - это вектор, несколько чисел (около 20 после Мелл усреднения спектра).
Изменение этого вектора во времени и есть динамика огибающей.
Интенсивность одних компонент (частотных полос) увеличивается, других в это время может уменьшаться... И вот картина этих изменений является прямым следствием фонетического содержания звука.
Но в чём тут проблема?
На самом-то деле динамика формант (резонансов голосового тракта)несёт фонетическое содержание. А огибающая спектра является представлением формант (частота которых плавает) полосами фиксированных частот.
Если бы по динамике огибающей спектра удалось получить динамику формант (фактически максимумов на этой огибающей) - то это было бы инвариантное представление фонетики спектрограммой.
Но увы..

[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 9:12
Цитата:
Автор: Kek
откуда взялась бар(мел) - шкала? Это эмпирика? Почему именно эти частоты?
Они отражают какую-то физ. суть?

Да, это психоакустика человека. Частотное разрешение на высоких частотах хуже чем на низких. Поэтому усреднять спектр на высоких частотах можно в более широких полосах.

Цитата:
Да, еще вопрос. Применение кепстральных коэфов дает инвариантность относительно того говорят басом или тенором? Мне кажется что с ними еще надо городить огород. B ваш Вася, помоему что-то делает типа НС?


Даже огибающая спектра инвариантна относительно баса или тенора.
А кепстральные коэффициенты (полученные из неё) ещё дают инвариантность относительно громкости.
Вася - нейросеть обученная на кепстральных коэффициентах.
Но там есть ещё автоматическая сегментация сигналла, поэтому "сравниваются" коэффициенты с определённых участков гласных и согласных звуков.
Без автоматической сегментации применяют или динамическое программирование или скрытые Марковские модели.
Может это и надёжней чем с автосегментацией, но намного затратней.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 9:33
Цитата:
Автор: Анатоль
Если бы по динамике огибающей спектра удалось получить динамику формант (фактически максимумов на этой огибающей) - то это было бы инвариантное представление фонетики спектрограммой.
Но увы..

Почему увы? Правильно я понимаю, что "по динамике огибающей спектра" НЕ удается выделить поведение отдельных формант? Значит надо именно эту задачу ставить и решать ее не только с помощью кепстра, а как - то иначе...
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 21:06
Цитата:
Автор: Kek
И чем больше будет разрозненных параметров сигнала для описания уникальности речевой реализации, тем лучше.


Подумалась аналогия.
Имеем фотографии зайчиков, кошек, собак... (осцилограмма).
Обработали их и получили контурные изображения, без цвета, без полутонов и фактуры (огибающая спектра).
Распознать по контуру можно и менее затратно.
Но тоже сложная проблема.
А Вы говорите: - чем больше будет разрознённых параметров (кроме контура) - тем лучше.
Оно то лучше если вычислительных ресурсов хватает.
Но это не тот случай.
[Ответ][Цитата]
ЭСГТР
Сообщений: 8449
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 23:41
Изменено: 28 окт 13 5:46, автор изменений: Kek
del
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 11 май 13 23:50
Цитата:
Автор: Анатоль
Подумалась аналогия.

Я тоже вспомнил. Форумчанин Slava как - то обмолвился, что они говорили в микрофон шепетом. Я попробовал. Блин, человек распознает, а набор спектров совсем другой...
Буду изучать кепстры и мел/бар. Все таки до конца я не понимаю, так чтобы применить с точностью до байта.

Вопрос. Вот у меня реализация спектра с разрешением 25 гц. Могу я из этого набора сделать набор по стандарту бар? Правильно ли я понимаю физ. смысл этого, который в том, что указанные частоты набора бар - это просто центры полос, в которых надо посчитать энергетику текущей реализации?Таким образом получается, что мы привели спектральную реализацию в кадре(окне) к стандартным плосам и сделали как-бы интегральный спектр со стандартными гармониками(полосами). Если это так - то идея хороша. Идея стандартизации и нормировки. А логарифм просто для нормировки амплитуды.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 1:40
Цитата:
Автор: Kek
Вот у меня реализация спектра с разрешением 25 гц. Могу я из этого набора сделать набор по стандарту бар? Правильно ли я понимаю физ. смысл этого, который в том, что указанные частоты набора бар - это просто центры полос, в которых надо посчитать энергетику текущей реализации?


Да, это просто способ усреднения, зглаживания спектра.
Так как нам нужен не спектр, а его огибающая (сильно сглаженная).
Из 256 значений спектра (или сколько там у Вас)получите около 20 значений (огибающей).
[Ответ][Цитата]
 Стр.5 (78)1  2  3  4  [5]  6  7  8  9  ...  78<< < Пред. | След. > >>