GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (1)   Поиск:  
 Автор Тема: Какие есть пути для распознования голоса?
Buggy
Сообщений: 28
Какие есть пути для распознования голоса?
Добавлено: 23 окт 07 21:36
Собственно по сабжу. Но хотелось бы услышать все пути какие вы знаете? Я например сделал простой AI классификации, обучал его тупо звуковым данным и потом проверял. Работает, но как сказать, обучается нууу очеень долго. С цифровой обработкой сигналов я не хорошо знаком, там есть какая-то корреляция и.т.д.
[Ответ][Цитата]
гость
62.183.126.*
На: Какие есть пути для распознования голоса?
Добавлено: 14 май 17 23:01
-
[Ответ][Цитата]
гость
95.161.239.*
На: Какие есть пути для распознования голоса?
Добавлено: 24 сен 17 22:47
Для голоса восновном анализ частот.
А для речи анализ частоты, амплитуды и времени (зависит от задачи)
и неточный поиск.

Слышал роботов делали которые реагирывали на команды,
типа "стОООй, идИИИ, впрАААво, влЕЕЕво". Заметь как написал.
Думаю там после микрофона стоял фильтр выделяющий частоты О,А,Е,И.
Так же как в радио. Но это годится только для дешёвого фокуса.

Или ещё бывает свет включающийся когда 2 раза хлопниш ладошками.
Тут надо только зафиксировать два всплеска звука с примерным интервалом,
т.е. распознавать отпечаток по амплитуде и времени.

Чуть сложнее чисто по амплитуде. Типо как звуковые редакторы изображают звук,
когда не каждую волну с фазой, а в уменьшенном виде.
Вот если несколько раз повторить слово, то в таком виде все повторы будут
выглядеть очень похожими. Остаётся найти отпечаток через не точное сравнение.
Но тут будет много ошибок из за интанаций, посторонних шумов..
К тому же обычная речь достаточно безпрерывная, как текст без пробелов.

Ещё можно попробывать анализ частот и амплитуды. Идея такая:
это как картинка из спектроскопа (например WinAMP и Audition такие выдают).
там чётко видно, что ударники (в музыке) изображаются как короткие всплески по всем частотам,
а когда поют то линии рисуются в определённых частотах, ударные гласные будут чуть дольше
и с большей амплитудой.. Вот такие отпечатки надо искать.
Распознавать по известным словам проще, а по отдельным буквам д.б намного сложнее.

Или попробывать более грубый метод. Звук делить на основные частоты и шумы.
Тогда слова будут выглядеть как последовательность из шумов и частот с приблизительной
средней частотой и длительностью т.е оставлять только 1..3 основных частот.
так (Ч = почти частота, Ш = распознано явно как шум с усреднённой частотой):
Ч(1200hz,40ms), Ш(2500hz,20ms), Ш(2800hz,10ms), Ч(1600hz,60ms),..
Туда же и амплитуды записать, для относительного сравнения.
А дальше корректировать и искать по фонемному словарю, чтобы ошибки исправить
и преобразовать в обычные письменные слова. Типо мАлАко -> мОлОко.

Вобще я этим ни занимался, но вот такие идеи пришли сейчас в голову,
надеюсь поможет.
[Ответ][Цитата]
 Стр.1 (1)