Автор: dr2chek Конечно можно было бы не приходить |
|
Вы напрасно так эмоциональны. Человек умеет распознавать звуки, но не умеет распознавать мысли... Других собеседников. И это нормально. Всё, что сказано в последних постах разными участниками все верно. Но... движения нет. Нет программы, как говорит Андрей.
1. Визуализация полезна как инструмент для понимания того, что еще можно сделать
2. Спектра звука достаточно для распознавания.
3. В моей проге буфер, который состоит из набора гармоник воспроизводится так, что все синусоиды начинаются с одной фазы. Заканчиваются, правда по разному. Это однозначно говорит за то, что фазы не нужны для распознавания, потому что человек этот буфер воспринимает хорошо.
4. Надо сосредоточится на том, что можно сделать с имеющейся спектральной картиной. Мои скромные изыскания говорят за то, что кадр в 40 мс - слишком малая порция. Если кадр приграть - вообще ничего не понятно. Это означает, что надо создать ассоциацию кадров. Фонема занимает примерно 5-6 кадров. Как эту ассоциацию делать - вопрос творческий. И над этим сейчас интенсивно думаю...

Вот здесь произведена бинаризация той картинки, которая несколько постов выше. Как видно, они все таки похожи, если сжать более длинную. Отчетливо видны форманты, кажется так это называется. Это продольные полосы. Вот их надо выделять и распознавать как подобъекты.

Вот здесь я графическими средствами сжал правую картинку.

Здесь выделены красным локальные максимумы спетральных гармоник. Отчетливо видны эти продольные объекты.
Ассоциации можно представить себе, как набор массивов, только этот набор располагается не в одном кадре, а занимает несколько кадров и может представлять из себя односвязный объект. Либо это - как ловушки. В них попадает что-то и анализируется. Таких ловушек может быть несколько. Все что они умеют делать - должно быть примитивным, а вот их расположение на картине может меняться в зависимости от динамики. Все, что в них попадает является предметом для дальнейшей манипуляции. Эти ассоциации должны поставлять результаты своих манипуляций центру, который анализирует и обучается на основе паттернов.
Это просто мысли вслух.