|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 1:54
|
Автор: ЭГТР Я не знаю что такое "окно",.. А окно это наверно ширина полоса пропускания. |
|
Окно - это для Фурье. Это отрезок времени, в который попадает нек. количество измерений сигнала (для ДПФ).
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 2:23
|
Автор: Kek Я тоже вспомнил. Форумчанин Slava как - то обмолвился, что они говорили в микрофон шепетом. Я попробовал. Блин, человек распознает, а набор спектров совсем другой... |
|
Немножко не так - мы моделировали огибающую текущего спектра методом, который тогда разрабатывали, а потом пропускали через этот фильтр белый шум. Так и получалась замечательно разборчивая шопотная речь
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 3:10
|
Автор: Kek они говорили в микрофон шепетом. Я попробовал. Блин, человек распознает, а набор спектров совсем другой... Буду изучать кепстры и мел/бар. Все таки до конца я не понимаю, так чтобы применить с точностью до байта. |
|
Имхо, в корне неправильно пытаться речевой сигнал рассматривать как целиком и полностью информативный и пытаться выжать из него максимум признаков. Наоборот - из сигнала нужно выжимать минимум, но именно тот, что надо. В речи важны только моменты перехода от одного согласного звука к другому согласному. Гласные звуки вообще не нужны для распознавания текста на русском языке. Тембральные характеристики звука важны только для опознавания говорящего. Попробуйте при произношении заменить все гласные звуки на один звук (например "о") - речь будет великолепно распознаваться. О чём-то похожем Slava уже много раз говорил на этом форуме.
|
|
|
| |
| |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 20:23
|
Автор: Андрей Имхо, Гласные звуки вообще не нужны для распознавания текста на русском языке. . |
|
Именно в динамике огибающей спектра гласных звуков находится львиная часть фонетической информации (эта динамика зависит, конечно, от прилегающих согласных). В этом очень легко убедиться. Возьмите запись фразы и замените в ней (в звуковом редакторе) согласные тишиной. Фраза на слух легко распознаётся. А вот если замените тишиной гласные то ничего не распознаем.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 23:27
|
Автор: гость 31.181.246.* "кол кок кол бол воткнот в зомло", я нихера не распознал |
|
Автор: Анатоль Возьмите запись фразы и замените в ней (в звуковом редакторе) согласные тишиной. |
|
Замените в любой фразе на русском языке все согласные звуки на какой-то один (например "т") - распознавание становится практически невозможным. При замене гласных на любой гласный - распознавание возможно. Отсюда делаем простой вывод - основная информация для распознавания содержится в переходах от согласной к согласной. А отсюда следует, что, при построении фильтров для распознавания, согласным нужно уделять больше внимания. Конечно, если мы распознали и согласные и гласные - это самый лучший вариант. Но всё смешивать и хоронить в братской могиле гласные и согласные, выделяя их одними и теми же фильтрами - неверно.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 0:05
|
Автор: Андрей основная информация для распознавания содержится в переходах от согласной к согласной. |
|
Вот именно - в переходах. В основном в переходах от согласной к гласной. (В меньшей мере от гласной к согласной). И эти переходы - это в основном изменения гласных. Согласные меньше меняются, да и меньше слышимы.
|
|
|
| |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 1:14
|
| Отсюда делаем простой вывод - основная информация для распознавания содержится в переходах от согласной к согласной |
|
Отсюда делаем ещё более простой вывод - чем тратить ресурсы на поиск переходов от согласных к гласным и наоборот проще распознавать всё подряд, за исключением подряд идущих повторений.
|
|
|
Kek Сообщений: 1133 |
 |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 1:23
|
Автор: Анатоль Вот именно - в переходах.
|
|
Я вот думаю над тем какой фильтр сочинить для выявления именно переходов. Мой ликбез в мел-шкалах и MFCC подходит к концу. Люди за формулами не видят смысла и сочиняют страшные процедуры для реализации именно того, что написано.
|
|
|
| |
Kek Сообщений: 1133 |
 |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 3:03
|
Автор: гость
Отсюда делаем ещё более простой вывод - чем тратить ресурсы на поиск переходов от согласных к гласным и наоборот проще распознавать всё подряд, за исключением подряд идущих повторений. |
|
Именно это я в статье назвал условно "неклассический подход". Именно это мне нравится, но как я писал ранее то, что должно сравниваться должно иметь компактную структуру. Сравнивать большие массивы чехом не хватит памяти и времени. И вот тут надо крепко почесаться, чтобы в копактной структуре было максимум информативности. И такое наклевывается. Может я опять желаемое за действительное принмаю, но это массив из 20 точек по шкале мел. Элементы этого массива - амплитуды спектра в кадре(окне), при чем после логарифма. Это классика MFCC. Но далее без всяких кепстров. Этот массив и будет минимальным кластером в непрерывном потоке. И вот оценить сколько таких массивов составляет полное поле событий - это интересно.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 4:03
|
Автор: Kek это массив из 20 точек по шкале мел. Элементы этого массива - амплитуды спектра в кадре(окне), при чем после логарифма. Это классика MFCC. Но далее без всяких кепстров. |
|
CC в MFCC означает кепстральные коэффициенты. Поэтому классикой MFCC будет брать не 20 значений огибающей спектра, а вычислить из них 10 (8-12) кепстральных коэффициентов и работать с ними.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 5:10
|
| Сравнивать большие массивы чехом не хватит памяти и времени. |
|
Почему бы не сравнивать побайтно накапливая совпадения в режиме реального времени? Допустим произнесённое слово можно выделить на фоне других звуков как писалось по тембру, слово на то и слово что имеет начало и имеет конец, если опустить повторения и с максимальной точностью выявлять его начало и конец, получится относительно небольшой и максимально информативный массив, его можно распознать, накапливая совпадения в массив например букв по каждому вновь поступившему байту звука с запоминанием порядка добавления и в конце получить слово из символов. Такое думаю средний процессор потянет не говоря уже о параллельных вычислениях.
|
|
|
|