GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.6 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 1:54
Цитата:
Автор: ЭГТР
Я не знаю что такое "окно",.. А окно это наверно ширина полоса пропускания.

Окно - это для Фурье. Это отрезок времени, в который попадает нек. количество измерений сигнала (для ДПФ).
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 2:23
Цитата:
Автор: Kek
Я тоже вспомнил. Форумчанин Slava как - то обмолвился, что они говорили в микрофон шепетом. Я попробовал. Блин, человек распознает, а набор спектров совсем другой...


Немножко не так - мы моделировали огибающую текущего спектра методом, который тогда разрабатывали, а потом пропускали через этот фильтр белый шум. Так и получалась замечательно разборчивая шопотная речь
[Ответ][Цитата]
Андрей
Сообщений: 3944
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 3:10
Цитата:
Автор: Kek
они говорили в микрофон шепетом. Я попробовал. Блин, человек распознает, а набор спектров совсем другой...
Буду изучать кепстры и мел/бар. Все таки до конца я не понимаю, так чтобы применить с точностью до байта.
Имхо, в корне неправильно пытаться речевой сигнал рассматривать как целиком и полностью информативный и пытаться выжать из него максимум признаков. Наоборот - из сигнала нужно выжимать минимум, но именно тот, что надо.
В речи важны только моменты перехода от одного согласного звука к другому согласному. Гласные звуки вообще не нужны для распознавания текста на русском языке. Тембральные характеристики звука важны только для опознавания говорящего. Попробуйте при произношении заменить все гласные звуки на один звук (например "о") - речь будет великолепно распознаваться. О чём-то похожем Slava уже много раз говорил на этом форуме.
[Ответ][Цитата]
гость
31.181.246.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 14:23
Цитата:
например "о"
чот не распозналось. попробуй ещё раз.
Пример - слова "кол" и "кал", "купол" и "купал".
[Ответ][Цитата]
гость
31.181.246.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 14:27
Даже предложение "кол кок кол бол воткнот в зомло", я нихера не распознал, а ктото кричит что гласные ненужны.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 20:23
Цитата:
Автор: Андрей
Имхо, Гласные звуки вообще не нужны для распознавания текста на русском языке. .

Именно в динамике огибающей спектра гласных звуков находится львиная часть фонетической информации (эта динамика зависит, конечно, от прилегающих согласных).
В этом очень легко убедиться.
Возьмите запись фразы и замените в ней (в звуковом редакторе) согласные тишиной.
Фраза на слух легко распознаётся.
А вот если замените тишиной гласные то ничего не распознаем.
[Ответ][Цитата]
Андрей
Сообщений: 3944
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 12 май 13 23:27
Цитата:
Автор: гость 31.181.246.*
"кол кок кол бол воткнот в зомло", я нихера не распознал
Цитата:
Автор: Анатоль
Возьмите запись фразы и замените в ней (в звуковом редакторе) согласные тишиной.
Замените в любой фразе на русском языке все согласные звуки на какой-то один (например "т") - распознавание становится практически невозможным. При замене гласных на любой гласный - распознавание возможно. Отсюда делаем простой вывод - основная информация для распознавания содержится в переходах от согласной к согласной. А отсюда следует, что, при построении фильтров для распознавания, согласным нужно уделять больше внимания.
Конечно, если мы распознали и согласные и гласные - это самый лучший вариант. Но всё смешивать и хоронить в братской могиле гласные и согласные, выделяя их одними и теми же фильтрами - неверно.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 0:05
Цитата:
Автор: Андрей
основная информация для распознавания содержится в переходах от согласной к согласной.

Вот именно - в переходах.
В основном в переходах от согласной к гласной. (В меньшей мере от гласной к согласной).
И эти переходы - это в основном изменения гласных.
Согласные меньше меняются, да и меньше слышимы.
[Ответ][Цитата]
Андрей
Сообщений: 3944
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 0:57
Со-гласен.
[Ответ][Цитата]
гость
31.181.246.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 1:14
Цитата:
Отсюда делаем простой вывод - основная информация для распознавания содержится в переходах от согласной к согласной
Отсюда делаем ещё более простой вывод - чем тратить ресурсы на поиск переходов от согласных к гласным и наоборот проще распознавать всё подряд, за исключением подряд идущих повторений.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 1:23
Цитата:
Автор: Анатоль
Вот именно - в переходах.
Я вот думаю над тем какой фильтр сочинить для выявления именно переходов.
Мой ликбез в мел-шкалах и MFCC подходит к концу. Люди за формулами не видят смысла и сочиняют страшные процедуры для реализации именно того, что написано.
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 1:33
Цитата:
Автор: Kek
... Люди за формулами не видят смысла и сочиняют страшные процедуры ...

Хорошо сказано...
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 3:03
Цитата:
Автор: гость

Отсюда делаем ещё более простой вывод - чем тратить ресурсы на поиск переходов от согласных к гласным и наоборот проще распознавать всё подряд, за исключением подряд идущих повторений.

Именно это я в статье назвал условно "неклассический подход". Именно это мне нравится, но как я писал ранее то, что должно сравниваться должно иметь компактную структуру. Сравнивать большие массивы чехом не хватит памяти и времени. И вот тут надо крепко почесаться, чтобы в копактной структуре было максимум информативности. И такое наклевывается. Может я опять желаемое за действительное принмаю, но это массив из 20 точек по шкале мел. Элементы этого массива - амплитуды спектра в кадре(окне), при чем после логарифма. Это классика MFCC. Но далее без всяких кепстров. Этот массив и будет минимальным кластером в непрерывном потоке. И вот оценить сколько таких массивов составляет полное поле событий - это интересно.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 4:03
Цитата:
Автор: Kek
это массив из 20 точек по шкале мел. Элементы этого массива - амплитуды спектра в кадре(окне), при чем после логарифма. Это классика MFCC. Но далее без всяких кепстров.


CC в MFCC означает кепстральные коэффициенты.
Поэтому классикой MFCC будет брать не 20 значений огибающей спектра, а вычислить из них 10 (8-12) кепстральных коэффициентов и работать с ними.
[Ответ][Цитата]
гость
31.181.246.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 5:10
Цитата:
Сравнивать большие массивы чехом не хватит памяти и времени.
Почему бы не сравнивать побайтно накапливая совпадения в режиме реального времени? Допустим произнесённое слово можно выделить на фоне других звуков как писалось по тембру, слово на то и слово что имеет начало и имеет конец, если опустить повторения и с максимальной точностью выявлять его начало и конец, получится относительно небольшой и максимально информативный массив, его можно распознать, накапливая совпадения в массив например букв по каждому вновь поступившему байту звука с запоминанием порядка добавления и в конце получить слово из символов. Такое думаю средний процессор потянет не говоря уже о параллельных вычислениях.
[Ответ][Цитата]
 Стр.6 (78)1  2  3  4  5  [6]  7  8  9  10  ...  78<< < Пред. | След. > >>