Для голоса восновном анализ частот.
А для речи анализ частоты, амплитуды и времени (зависит от задачи)
и неточный поиск.
Слышал роботов делали которые реагирывали на команды,
типа "стОООй, идИИИ, впрАААво, влЕЕЕво". Заметь как написал.
Думаю там после микрофона стоял фильтр выделяющий частоты О,А,Е,И.
Так же как в радио. Но это годится только для дешёвого фокуса.
Или ещё бывает свет включающийся когда 2 раза хлопниш ладошками.
Тут надо только зафиксировать два всплеска звука с примерным интервалом,
т.е. распознавать отпечаток по амплитуде и времени.
Чуть сложнее чисто по амплитуде. Типо как звуковые редакторы изображают звук,
когда не каждую волну с фазой, а в уменьшенном виде.
Вот если несколько раз повторить слово, то в таком виде все повторы будут
выглядеть очень похожими. Остаётся найти отпечаток через не точное сравнение.
Но тут будет много ошибок из за интанаций, посторонних шумов..
К тому же обычная речь достаточно безпрерывная, как текст без пробелов.
Ещё можно попробывать анализ частот и амплитуды. Идея такая:
это как картинка из спектроскопа (например WinAMP и Audition такие выдают).
там чётко видно, что ударники (в музыке) изображаются как короткие всплески по всем частотам,
а когда поют то линии рисуются в определённых частотах, ударные гласные будут чуть дольше
и с большей амплитудой.. Вот такие отпечатки надо искать.
Распознавать по известным словам проще, а по отдельным буквам д.б намного сложнее.
Или попробывать более грубый метод. Звук делить на основные частоты и шумы.
Тогда слова будут выглядеть как последовательность из шумов и частот с приблизительной
средней частотой и длительностью т.е оставлять только 1..3 основных частот.
так (Ч = почти частота, Ш = распознано явно как шум с усреднённой частотой):
Ч(1200hz,40ms), Ш(2500hz,20ms), Ш(2800hz,10ms), Ч(1600hz,60ms),..
Туда же и амплитуды записать, для относительного сравнения.
А дальше корректировать и искать по фонемному словарю, чтобы ошибки исправить
и преобразовать в обычные письменные слова. Типо мАлАко -> мОлОко.
Вобще я этим ни занимался, но вот такие идеи пришли сейчас в голову,
надеюсь поможет.