Автор: antol И все же я нахожусь в полном не понимании предмета ваших поисков. |
|
Пожалуй если я найду предмет своего поиска, только тогда это и будет понятно многим. Если не найду, это останется в притчах и статьях. Хотя есть люди, которым понятно. И если б не они, я бы полагал, что я шизофреник конченный, который двух слов связать не может.
Попробую кратко сказать без философских заморочек.
Речевой поток разбивается системой на элементарные единицы. Такой единицей является кадр с параметрами: длительность 20 мс, содержание - амплитуды 20-ти частот. Априори в этом потоке содержаться классы или кластеры, состоящие из групп кадров. Следующим по иерархии кластером является фонема.
Задача №1: построить систему, которая на основе статистической обработки выделит фонемы из потока. Критерием того, что данное сообщество кадров является фонемой определяется частотой появления данных сообществ. При этом очевидно, что если мы хотим увидеть этот процесс за приемлемый срок, то надо говорить одно и то же слово. Но это необязательное требование. Важным является так же описание множеств или сообществ, которые являются фонемами. Очевидно, что фонемы в некотором своем разнообразии (разные дикторы, разные интонации) будут занимать в памяти много кадров. Одна фонема будет описываться к примеру сотнями вариантов сочетаний кадров. Надо еще придумать как системе дать знать, что эти варианты относятся к одной фонеме. Если это будет учитель, то это один путь. Но можно подумать и о неком ином пути, так же статистическом, который бы основывался на иных характеристиках потока, таких как например огибающая с характерными локальными максимумами.
Задача №2: Построить такую же логику с фонемами. В данной ситуации сообществами фонем будут слова. И хорошо бы ничего не менять в алгоритме, а просто изменить входные данные.
Это и есть предмет «ловли». Если кто-то считает, что это все элементарно и очевидно для статистической обработки, то мне нечего сказать. Добавлю только, что это все задачи, лежащие на поверхности. В дальнейшем необходимо выработать очевидные критерии перехода системы от анализа кадров к анализу фонем, и от анализа фонем к анализу множества фонем (слов) . Таким критерием в моем случае является отсутствие новизны поступающей информации от потока. И это пока работает. В дальнейшем так же хочется ввести в систему не только память, элементами которой являются непосредственные данные от потока, но и память событий. И формализовать эти новые данные, а так же подвергнуть их такой же алгоритмике с накоплением и анализом частоты повторения. И здесь надо заметить, что событиями могут быть как внешние изменения (увеличился период следования слов, молчание), так и внутренние, произведенные системой (изменился коэффициент корреляции, увеличилась частота множества №21212323). Вот тогда это будет агент, а не галимая распознавалка.
Пардон, кратко не получилос...