Генетический алгоритм мне нужен чтобы подобрать адекватную акустическую модель.
На входе :
аудиокнига с одним диктором.(спектрограмма)
Задача :
построить акустическую модель с минимальным количеством параметров.
часть параметров - не меняемые, часть параметров - рычаг управления моделью (мышцы)
Целевая функция:
сравнение спектрограммы книги и сгенерированной речи.
Если уже есть модель, то пробегая по спектрограмме вычисляем параметры для "мышц".
P1(t),P2(t) ... P6(t). Думаю 5-6 параметров не больше.
Затем наоборот - генерим аудиосигнал по имеющимся параметрам.
Сравниваем спектрограммы по како-му то критерию.
Вопрос по какому? Самый четкий критерий - прослушивание человеком.
Считаем ту модель лучшей, которая имеет минимум параметров,
параметры квантизованны реже и качество сгенерированной речи лучше.
В принципе не факт, что для распознавания НУЖНА рефлексия и "внутренний голос", но с другой стороны наличие "внутреннего голоса" может улучшить качество распознавания.
Тут вопрос филосовский. Ведь слушая иностранный язык мы не понимаем и даже не можем произнести слова. Значит все-таки рефлексия нужна.
Можно предположить что распознавание речи - это преобразование звука в сигнал мышцам рта.
А распознавание звуков - это преобразование звука в сигнал "виртуальным мышцам", и тут мы видим что у некоторых людей слух лучше или хуже.
Эмоционально Генетическая Теория Развития |
|
А можно поподробней? или ссылку?