GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.4 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 09 май 13 12:07
Цитата из текста:
"Заметьте, что все шипящие звуки фактически «шипят» одинаково. Ну, по крайней мере, разнообразия в этом «шипе» не так уж и много"

О какой одинаковости вы пишете? Я вот и вижу (на спектре), и слышу (ушами) их по-разному.
[Ответ][Цитата]
ЭСГТР
Сообщений: 8449
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 09 май 13 23:27
Цитата:
Автор: Kek


три динамических массива массивов выпили из меня весь моск...но я еще жив
Природа над этой проблемой работала долго... а результат на лице!
[Ответ][Цитата]
ЭСГТР
Сообщений: 8449
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 09 май 13 23:36
Цитата:
Автор: dr2chek

Цитата из текста:
"Заметьте, что все шипящие звуки фактически «шипят» одинаково. Ну, по крайней мере, разнообразия в этом «шипе» не так уж и много"

О какой одинаковости вы пишете? Я вот и вижу (на спектре), и слышу (ушами) их по-разному.
Не думаю что бы НС опускалась бы каждый раз при распознавании до тонкостей спектра. Сначала она извлекает основную эмоцию это "опасность" по любому шипящему... а затем если целевая функция не выполняется тогда НС начинает анализировать спектральные компоненты, причём начинает анализировать гармоники постепенно в порядке возрастания её номера. Только тогда мы начинаем понимать, как эта шипящая шипит. И вообще сознание это зритель.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 0:08
Цитата:
Автор: ЭГТР

Не думаю что бы НС опускалась бы каждый раз при распознавании до тонкостей спектра.

Вы не думайте, а возьмите шум и подвергните спектральной фильтрации. Потом послушайте результат. О результатах доложите. Какие нахрен гармоники в шуме, ЭГТР, вы что, очнитесь, весна уже!
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 0:30
Цитата:
Автор: Tester64


Я это уже проходил!

Вот тут начинаешь понимать, что не все языки высокого уровня "высоки"!
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 0:36
Цитата:
Автор: dr2chek

Цитата из текста:
"Заметьте, что все шипящие звуки фактически «шипят» одинаково. Ну, по крайней мере, разнообразия в этом «шипе» не так уж и много"

О какой одинаковости вы пишете? Я вот и вижу (на спектре), и слышу (ушами) их по-разному.

Это просто гипотеза. Задача стоит распознавание голоса, а не фуги Баха. Информативные гармоники, как видно из эксперимента, да и из литературы лежат в диапазоне 125 - 625 Гц. Шипящие привносят всплеск выше этого диапазона. Далее, в книге Алдошиной приводится такая характеристика, как распознавание человеком частот. Эта распознаваемость падает с повышением частоты звука.
Вот это есть априорное знание, которое можно использовать для уменьшения кадра по Y. Как его уменьшать пока не знаю. Можно тупо, а можно адаптивно.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 5:11
Цитата:
Автор: Kek


Это просто гипотеза. Задача стоит распознавание голоса, а не фуги Баха. Информативные гармоники, как видно из эксперимента, да и из литературы лежат в диапазоне 125 - 625 Гц. Шипящие привносят всплеск выше этого диапазона. Далее, в книге Алдошиной

125 - 625 тоже взяли из Алдошиной? Она человек уважаемый, и не могла написать такую ересь.
Проделайте эксперимент - возьмите и обрежьте в голосовом высказывании все, что ниже 625 Гц. А потом послушайте результат. Будете удивлены, насколько информативно то, что выше 625. Также сделайте оцените информативность того, что ниже частоты 625Гц.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 6:19
Цитата:
Автор: dr2chek


125 - 625 тоже взяли из Алдошиной? Она человек уважаемый, и не могла написать такую ересь.

Я пока воздержусь от баталий по этому факту. На эти цифры я обратил внимание после наблюдений в своей пргограмме. Просто там наиболее часто встречающиесы длины кадров это до 20-25. 25 * 25(частотное разрешение)=625 Гц. И все. Может это и не корректно, надо глюки еще выбрать в программе.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 6:35
Цитата:
Автор: Kek


Я пока воздержусь от баталий по этому факту.

Ладно. Мой вам совет: чаще экспериментируйте и проверяйте свои "гипотезы" до вынесения на обсуждение, и это предохранит вас от epic fails. Удачи.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 7:32
Цитата:
Автор: dr2chek


Ладно. Мой вам совет: чаще экспериментируйте и проверяйте свои "гипотезы" до вынесения на обсуждение, и это предохранит вас от epic fails. Удачи.

Невижу ничего страшного в ошибках, я выдал предварительные результаты, уже сейчас нашел чушь...
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 11:16
Цитата:
Вот тут начинаешь понимать, что не все языки высокого уровня "высоки"!

Вся проблема в том что здесь НЕ НУЖНЫ языки высокого уровня. Наоборот приходится спускаться максимально вниз. Обходиться без ООП, почти до асемблера, вручную перебирать таблицы, вручную создавать не стандартные сортировки. Потом этот набор из "клубков проводов" заворачивать в красивую оболочку из ООП и уже ею пользоваться. Иногда можно использовать конечно готовые чужие наработки - библиотеки, но почти всегда в них что-то не до конца устраивает.

Я например уже больше года пишу "для себя" текстовый редактор с раскраской "с нуля". Теоретически можно было бы взять один из десятков готовых и с исходниками и методами ООП адаптировать под свои нужды. Оказалось не реально! Слишком не класическая схема. А раз так, то почему бы не добавить туда то чего ни у одного редактора нет... Многопоточность, скрытые поля, ссылки, свои скролинги, многостолбцовость...
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 13:20
Вести с полей.

Из-за ошибки в программе ожидаемое было принято за действительное.
А именно.
Радужная оценка количества абсолютных совпадений одинаковых массивов.
Было так:

Массивов памяти: 4012
Массивов с повторами: 2058
Памяти: 99170
Повторы с длинами: ,13,14,14,15,12,15...
-----------------------

Стало так:

Массивов памяти: 7254
Массивов с повторами: 27
Памяти: 305752
Повторы с длинами: (1,1)(2,1)(2,1)(1,1)(1,1)...
-----------------------
Не 50% совпадений, а всего 0.3%

Чтобы наговорить такое количество слов использовал SAPI5 на ноутбуке. Микрофон от
основной машины подоткнул к ноутбуку. Движок "Катерина" работал в цикле, произнося 1 слово в течении 20 минут.
"Неклассический" путь требует оптимизации размера памяти. Это можно сделать используя бинаризацию. Попробую...
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 13:56
Цитата:
Автор: Kek
Движок "Катерина" работал в цикле, произнося 1 слово в течении 20 минут.

А разве он не одинаково синтезирует это слово?
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 14:58
Цитата:
А разве он не одинаково синтезирует это слово?
Думаю абсолютно одинаково. Просто Кек'у похоже не терпится увидеть результаты распознавалки еще до создания полноценной среды. По логике стоило работать не с живым звуком, а с записями. Но... у каждого свой путь
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 10 май 13 23:15
Цитата:
Автор: Анатоль
А разве он не одинаково синтезирует это слово?

Через микрофон шумы. Вобщем метод сравнения одинаковых массивов не работает.
Механистически их сравнивать не правильно, даже если они одинаковы по размеру.
[Ответ][Цитата]
 Стр.4 (78)1  2  3  [4]  5  6  7  8  ...  78<< < Пред. | След. > >>