Автор: antol Быть может следует посмотреть на "проблему" с другой, с противоположной стороны. |
|
Опишу, что есть на данный момент.
1. При произнесении слова в памяти формируются буферы. Параметры элемента буфера: 20 равномерно разнесенных частотных полос. Диапазон перекрытия 150 - 3000 Гц.
2. Применены следующие процедуры сжатия без потери информативности:
- амплитудная нормализация - сужает динамический диапазон
- процедура, похожая на формирование MEL-частот, только с равномерной шкалой. В результате имеется некий инвариант относительно тона говорящего.
- корреляционная предобработка кадра (длительность кадра - 20 мс)
3. Новизна потока кадров определяется корреляциолнным методом. Похожесть оценивается априорным пока значением К=0.9. В дальнейшем изменение коэффициента корреляции будет отдано на откуп процессу.
4. Существует 4 уровня памяти:
0 - кадр как он есть (массив из 20 чисел)
1 - сочетание двух кадров. (массив из 2-х чисел, каждое число - индекс предыдущего массива)
2 - сочетание 4-х кадров.(массив из 2-х чисел, каждое число - индекс предыдущего массива)
3 - сочетание 8-ми кадров.(массив из 2-х чисел, каждое число - индекс предыдущего массива)
Если произносить слова достаточно долго, то в памяти, которая отражает сочетание из 8 кадров формируются часто произносимые фрагменты. При обратном проигрывании эти фрагменты воспринимаются на слух, как фонемы. Есть четко выраженные ("ма"), есть раздробленные ("ама"). Не оценивал пока на других словах, кроме "маманя". Что значит "достаточно долго"? А все зависит от априори выбранного коэффициента корреляции. При К=0.7 фрагменты появляются через 10-15 повторов, их качество так же зависит от этого коэфа.
Выводы: данные фрагменты есть кластеры потока, которые формируются по статистическому принципу. Не знаю к какому классу этот принцип отнести "с учителем" или "без учителя". Обратной связи пока нет, кроме прослушивания данных фрагментов.
Манипуляция коэффициентом корреляции напоминает мне следующую аналогию. Скажите ребенку 3-х лет:" Скажи слово "кластеризация". Он повторит что-то вроде "а-ци". Я это проделывал с внучкой. Просто ее коэф корреляции 0.7. Малый коэф сглаживает неоднородности. И похоже, что манипуляция этим коэфом должна быть адаптивной. Все это можно наблюдать в программе.
Дальнейшее: фрмирование абстрактного уровня, оторванного от сенсорики на основе кластеризации. Принцип построения памяти - такой же, как и предыдущие, только элемент памяти - объект. На данный момент есть понимание того, что объект должен описываться по онтологическому принципу. Детали обдумываются...и обсуждаются...
Кому интересно, могу выслать прогу. На данный момент реализована запись и чтение из WAV - файла.