Посмотрим в корень, сиречь, вернемся к истокам.Все методы опираются на частотное преобразование Фурье. Мел-ы, кепстры и т.д.
Ну, какие-то достижения имеются, я тоже был заморочен этим спектром.
И даже спектром спектра..., до тех пор пока не взял старую добрую программу под названием Sound Forge 4.5.
Записал слово и стал его разглядывать не в частотной, а во временной области.
Тут надо сказать, что Слава тоже кое-что рассказал именно про временную область и про метод,
который называется клипирование. Спасибо ему отдельно. Просто иногда из разрозненных фактов
собирается цепочка, которую я хочу озвучить.
И так смотрим на
картину:
Слово "ЩЕКОЛДА"
Я без труда выделил характерные участки, соответствующие буквам.
Длительность этих участков разная, и это понятно. Чем плох частотный метод? А тем,
что прреобразование Фурье не привязано к длительности звучания вообще,
а шпарит себе асинхронно по 40 милисекунд. Из-за этого и возникают непонятные переходные процессы.
Здесь бы и сказать, что типа надо делать Фурье синхронно, предварительно выделив характерные участки.
Но. Если мы выделим эти характерные участки, а это сама по себе задачка.. то нафига нам тогда Фурье?
И вот тут я вспомнил про Славу и его метод клипирования.
Это, говоря языком схемотехника, коим я являюсь, процедура пропускания сигнала через компаратор, у которого есть порог срабатывания: выше порога - 1, ниже - 0. Значение порога = 0 АЦП.
Получаем набор ноликов и единичек. Дальше анализируем на всем участке фразы периоды чередования переходов из 0 в 1.
Наиболее часто встречаемые значения периода - и есть
период частоты основного тона(ЧОТ). А, как вам?
Далее, чтобы выделить характерные участки можно провести клипирование не только на уровне нуля, но и взять еще пару - тройку уровней компарирования (см. синие горизонтальные полосы).
Эта информация что-то даст характерного для выделения участков.
Далее конечно надо сделать огибающую (см. зеленый цвет),
и на основании огибающей и выбирать дополнительные уровни компарирования (клипирования).
Все это в совокупности богатый материал, и что интересно мне кажется все эти методы побыстрей будут,
чем постройка спектра.
Это идея, кто со мной на штурм?
P.S. На нижней части картинки метод клипирования в действии. Амплитуд нету, они все под одну гребенку. Высокочастотные сигналы интерпретируются как залитые участки с большой интенсивностью.