|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 09 май 13 12:07
|
Цитата из текста: "Заметьте, что все шипящие звуки фактически «шипят» одинаково. Ну, по крайней мере, разнообразия в этом «шипе» не так уж и много"
О какой одинаковости вы пишете? Я вот и вижу (на спектре), и слышу (ушами) их по-разному.
|
|
|
| |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 09 май 13 23:36
|
Автор: dr2chek
Цитата из текста: "Заметьте, что все шипящие звуки фактически «шипят» одинаково. Ну, по крайней мере, разнообразия в этом «шипе» не так уж и много"
О какой одинаковости вы пишете? Я вот и вижу (на спектре), и слышу (ушами) их по-разному. |
|
Не думаю что бы НС опускалась бы каждый раз при распознавании до тонкостей спектра. Сначала она извлекает основную эмоцию это "опасность" по любому шипящему... а затем если целевая функция не выполняется тогда НС начинает анализировать спектральные компоненты, причём начинает анализировать гармоники постепенно в порядке возрастания её номера. Только тогда мы начинаем понимать, как эта шипящая шипит. И вообще сознание это зритель.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 0:08
|
Автор: ЭГТР
Не думаю что бы НС опускалась бы каждый раз при распознавании до тонкостей спектра. |
|
Вы не думайте, а возьмите шум и подвергните спектральной фильтрации. Потом послушайте результат. О результатах доложите. Какие нахрен гармоники в шуме, ЭГТР, вы что, очнитесь, весна уже!
|
|
|
Kek Сообщений: 1133 |
|
| |
Kek Сообщений: 1133 |
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 0:36
|
Автор: dr2chek
Цитата из текста: "Заметьте, что все шипящие звуки фактически «шипят» одинаково. Ну, по крайней мере, разнообразия в этом «шипе» не так уж и много"
О какой одинаковости вы пишете? Я вот и вижу (на спектре), и слышу (ушами) их по-разному. |
|
Это просто гипотеза. Задача стоит распознавание голоса, а не фуги Баха. Информативные гармоники, как видно из эксперимента, да и из литературы лежат в диапазоне 125 - 625 Гц. Шипящие привносят всплеск выше этого диапазона. Далее, в книге Алдошиной приводится такая характеристика, как распознавание человеком частот. Эта распознаваемость падает с повышением частоты звука. Вот это есть априорное знание, которое можно использовать для уменьшения кадра по Y. Как его уменьшать пока не знаю. Можно тупо, а можно адаптивно.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 5:11
|
Автор: Kek
Это просто гипотеза. Задача стоит распознавание голоса, а не фуги Баха. Информативные гармоники, как видно из эксперимента, да и из литературы лежат в диапазоне 125 - 625 Гц. Шипящие привносят всплеск выше этого диапазона. Далее, в книге Алдошиной |
|
125 - 625 тоже взяли из Алдошиной? Она человек уважаемый, и не могла написать такую ересь. Проделайте эксперимент - возьмите и обрежьте в голосовом высказывании все, что ниже 625 Гц. А потом послушайте результат. Будете удивлены, насколько информативно то, что выше 625. Также сделайте оцените информативность того, что ниже частоты 625Гц.
|
|
|
Kek Сообщений: 1133 |
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 6:19
|
Автор: dr2chek
125 - 625 тоже взяли из Алдошиной? Она человек уважаемый, и не могла написать такую ересь. |
|
Я пока воздержусь от баталий по этому факту. На эти цифры я обратил внимание после наблюдений в своей пргограмме. Просто там наиболее часто встречающиесы длины кадров это до 20-25. 25 * 25(частотное разрешение)=625 Гц. И все. Может это и не корректно, надо глюки еще выбрать в программе.
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 6:35
|
Автор: Kek
Я пока воздержусь от баталий по этому факту. |
|
Ладно. Мой вам совет: чаще экспериментируйте и проверяйте свои "гипотезы" до вынесения на обсуждение, и это предохранит вас от epic fails. Удачи.
|
|
|
Kek Сообщений: 1133 |
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 7:32
|
Автор: dr2chek
Ладно. Мой вам совет: чаще экспериментируйте и проверяйте свои "гипотезы" до вынесения на обсуждение, и это предохранит вас от epic fails. Удачи. |
|
Невижу ничего страшного в ошибках, я выдал предварительные результаты, уже сейчас нашел чушь...
|
|
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 11:16
|
Вот тут начинаешь понимать, что не все языки высокого уровня "высоки"! |
|
Вся проблема в том что здесь НЕ НУЖНЫ языки высокого уровня. Наоборот приходится спускаться максимально вниз. Обходиться без ООП, почти до асемблера, вручную перебирать таблицы, вручную создавать не стандартные сортировки. Потом этот набор из "клубков проводов" заворачивать в красивую оболочку из ООП и уже ею пользоваться. Иногда можно использовать конечно готовые чужие наработки - библиотеки, но почти всегда в них что-то не до конца устраивает. Я например уже больше года пишу "для себя" текстовый редактор с раскраской "с нуля". Теоретически можно было бы взять один из десятков готовых и с исходниками и методами ООП адаптировать под свои нужды. Оказалось не реально! Слишком не класическая схема. А раз так, то почему бы не добавить туда то чего ни у одного редактора нет... Многопоточность, скрытые поля, ссылки, свои скролинги, многостолбцовость...
|
|
|
Kek Сообщений: 1133 |
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 13:20
|
Вести с полей.
Из-за ошибки в программе ожидаемое было принято за действительное. А именно. Радужная оценка количества абсолютных совпадений одинаковых массивов. Было так:
Массивов памяти: 4012 Массивов с повторами: 2058 Памяти: 99170 Повторы с длинами: ,13,14,14,15,12,15... -----------------------
Стало так:
Массивов памяти: 7254 Массивов с повторами: 27 Памяти: 305752 Повторы с длинами: (1,1)(2,1)(2,1)(1,1)(1,1)... ----------------------- Не 50% совпадений, а всего 0.3%
Чтобы наговорить такое количество слов использовал SAPI5 на ноутбуке. Микрофон от основной машины подоткнул к ноутбуку. Движок "Катерина" работал в цикле, произнося 1 слово в течении 20 минут. "Неклассический" путь требует оптимизации размера памяти. Это можно сделать используя бинаризацию. Попробую...
|
|
|
| |
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 14:58
|
А разве он не одинаково синтезирует это слово? |
|
Думаю абсолютно одинаково. Просто Кек'у похоже не терпится увидеть результаты распознавалки еще до создания полноценной среды. По логике стоило работать не с живым звуком, а с записями. Но... у каждого свой путь
|
|
|
Kek Сообщений: 1133 |
|
|
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 23:15
|
Автор: Анатоль А разве он не одинаково синтезирует это слово? |
|
Через микрофон шумы. Вобщем метод сравнения одинаковых массивов не работает. Механистически их сравнивать не правильно, даже если они одинаковы по размеру.
|
|
|
|