Если бы я писал статью, назвал бы так:
«Метод адаптивной корреляционной обработки речевого сигнала для выделения фонем»
Но так как этот метод я только нащупал и не проверил на большом материале, то писать не буду и слово «фонем» заменю на «объект».
Частота дискретизации(Hz): 12000
Количество значений в кадре: 240
Количество частот в кадре: 120/(5950Hz)
Время записи(ms): 2000
Длительность кадра(ms): 20
Количество кадров записи: 100
Каждый кадр преобразуется из 120 частот в 20 методом, который тождественен преобразованию в MEL-шкалу, только выбор этих частот иной.
Далее собственно корреляционная обработка.
Сравниваются два соседних кадра. Если их коэффициент корреляции больше 0.7, то они остаются без изменения. Если меньше, то текущий кадр заменяется предыдущим.
В чем адаптивность? На самом деле коэффициент корреляции не 0.7, а либо 0.7, либо 0.99. Переход при сравнении зависит от огибающей сигнала. Если изменения огибающей существенные, как при атаке, то 0.99, если огибающая плавная, то 0.7.
Результаты на слове «молоко».Ниже приведены временные реализации слова при разных условиях

Оригинальная запись.
Play
Воспроизводятся только те частоты с номерами 0-120, которые имеют локальные максимумы.
Play
Воспроизводится набор кадров после корреляционной обработки.
Соседние кадры отличаются друг от друга больше, чем на 500 условных единиц в метрике огибающей.
PlayПо Y - время с дискретностью 20 мс
По X - 20 частотных полос
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
1077,353,31,79,79,15,11,14,13,11,11,11,4,0,0,0,0,0,0,0,
953,457,112,417,300,45,37,39,34,17,15,15,15,15,15,58,49,22,22,22,
953,457,112,417,300,45,37,39,34,17,15,15,15,15,15,58,49,22,22,22,
953,457,112,417,300,45,37,39,34,17,15,15,15,15,15,58,49,22,22,22,
366,798,1088,1112,497,153,21,17,15,7,6,6,5,4,5,22,18,6,6,6,
324,632,947,865,1097,240,26,17,13,6,6,5,4,5,4,20,20,6,6,5,
306,714,1095,733,642,446,70,40,30,10,17,22,16,7,12,64,52,14,8,4,
307,600,924,660,725,481,118,155,104,27,24,41,41,25,13,87,38,10,11,8,
385,684,788,584,592,316,62,65,64,29,25,24,24,21,15,62,39,11,10,10,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
605,925,560,428,332,468,30,6,9,5,5,4,4,5,4,21,21,7,5,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
526,938,885,507,277,298,155,72,17,6,6,6,6,5,5,24,23,8,5,3,
526,938,885,507,277,298,155,72,17,6,6,6,6,5,5,24,23,8,5,3,
438,804,348,265,280,214,186,67,8,4,3,3,3,3,3,13,10,4,4,4,
191,247,139,95,72,148,45,17,3,1,1,1,1,1,1,0,0,0,0,0,
37,43,20,14,12,15,13,3,2,1,1,1,1,1,1,1,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
163,158,99,122,11,3,2,1,1,0,0,0,0,0,0,0,0,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
441,421,227,208,83,4,3,3,2,1,1,1,1,1,1,6,2,0,0,0,
442,461,278,349,200,7,6,6,5,3,3,3,3,2,1,7,9,4,4,4,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
185,250,370,293,255,264,9,5,4,2,2,1,1,1,1,7,9,4,4,4,
185,250,370,293,255,264,9,5,4,2,2,1,1,1,1,7,9,4,4,4,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
11,7,8,14,5,3,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
11,7,8,14,5,3,1,0,0,0,0,0,0,0,0,0,0,0,0,0,

Воспроизводится набор кадров после корреляционной обработки.
Соседние кадры отличаются друг от друга больше, чем на 1200 условных единиц в метрике огибающей.
PlayПо Y - время с дискретностью 20 мс
По X - 20 частотных полос
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
366,798,1088,1112,497,153,21,17,15,7,6,6,5,4,5,22,18,6,6,6,
324,632,947,865,1097,240,26,17,13,6,6,5,4,5,4,20,20,6,6,5,
324,632,947,865,1097,240,26,17,13,6,6,5,4,5,4,20,20,6,6,5,
307,600,924,660,725,481,118,155,104,27,24,41,41,25,13,87,38,10,11,8,
385,684,788,584,592,316,62,65,64,29,25,24,24,21,15,62,39,11,10,10,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
605,925,560,428,332,468,30,6,9,5,5,4,4,5,4,21,21,7,5,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
438,804,348,265,280,214,186,67,8,4,3,3,3,3,3,13,10,4,4,4,
191,247,139,95,72,148,45,17,3,1,1,1,1,1,1,0,0,0,0,0,
37,43,20,14,12,15,13,3,2,1,1,1,1,1,1,1,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
163,158,99,122,11,3,2,1,1,0,0,0,0,0,0,0,0,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
Здесь приведены наборы числовых данных трех последних вариантов.
Выводы:Из временных графиков видно как огибающая приобретает упрощенный ступенчатый характер. При всем при этом можно сказать, что слово можно понять.
Если посмотреть на числовые реализации, то видно, что в определенных местах последовательности одинаковые. Т.е. формируется некая область, которую условно можно назвать «объект». Это еще не фонема. Фонема будет тогда, когда к этой области присовокупятся быстро меняющиеся участки.
Можно сказать, что это начальный метод для формирования объектов в речевом потоке. Это метод реализуется без учителя, только статистическим набором. Но. Чтобы сформировавшимся объектам поставить в соответствие определенную фонему нужен учитель.
Пока все.