GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.7 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 7:07
Цитата:
Автор: гость
его можно распознать, накапливая совпадения в массив например букв по каждому вновь поступившему байту звука с запоминанием порядка добавления и в конце получить слово из символов. Такое думаю средний процессор потянет не говоря уже о параллельных вычислениях.

В том-то и дело, что букв нет. Буква или слог - это еще надо распознать в слитном слове. Минимальный кластер - это то, что попадает в 40 мс интервал.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 9:22
Цитата:
В том-то и дело, что букв нет. Буква или слог - это еще надо распознать в слитном слове. Минимальный кластер - это то, что попадает в 40 мс интервал.
Минимальнй кластер называют фонемой. Из фонем состоят буквы и слоги... Распознайте фонемы с определенной вероятностью, сложите их в слоги с определенной вероятностью(гро>гра), сложите слоги в слова с определенной вероятностью(громче>гром+Чу). Выберите наилучшую вероятность слова в данных обстоятельствах. Возможно с учетом сленга, времени суток и воощбе обстоятельств. Но начинать нужно с фонем... Учтите что фонема может быть сильно растянутой (а-а-апчхи или в песне или крике) или составной (два голоса одновременно произноят разные фонемы)

А программа/проект вообще развивается? Архив на первой странице не изменился. Или ушел в закрытую разработку? Не плохо было бы видеть новые версии.... Может что посоветую... Или подарю готовый блок. Скучно... Знаю по теории распознавания звука не мало, но до серьезной практики не дошел - застрял на стадии интерфейсов. Вы же "зашли" с другой стороны - не имея интерфейсов пробуете распознавать "в слепую".
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 9:41
Цитата:
Автор: Tester64

А программа/проект вообще развивается? Архив на первой странице не изменился. Или ушел в закрытую разработку? Не плохо было бы видеть новые версии.... Может что посоветую... Или подарю готовый блок. Скучно... Знаю по теории распознавания звука не мало, но до серьезной практики не дошел - застрял на стадии интерфейсов. Вы же "зашли" с другой стороны - не имея интерфейсов пробуете распознавать "в слепую".

Да. Я писал, что эйфория по поводу поля событий реализовалась в огромный массив. До фонем я пока не дошел. Конкретно сейчас трахаюсь с мел-шкалой, как только ее победю, оформлю и выложу.
[Ответ][Цитата]
гость
31.181.130.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 9:45
Как нет? Яж писал - слово имеет начало и имеет конец. Кластеры можно раскидать по буквам, тоесть каждой букве присвояем свой набор кластеров при обучении так сказать. Дальше та же тема, распознаём кластеры минуя подряд идущие совпадения и накапливаем совпадения с кластерами букв. У каких букв больше совпадений те наверняка и будут буквами из слова. Тут мне не понятно как слова то отделять. Думаю хватит и некоего порога накопления совпадений, при достижении которого будет выдана буква, также можно поступить со словами например в словарике и выдавать наиболее похожее на получившийся набор букв.
[Ответ][Цитата]
гость
31.181.130.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 9:47
Изменено: 28 окт 13 5:49, автор изменений: Kek
del
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 10:14
Изменено: 28 окт 13 5:50, автор изменений: Kek
del
[Ответ][Цитата]
гость
31.181.130.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 10:30
Изменено: 28 окт 13 5:50, автор изменений: Kek
del
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 10:39
Цитата:
Автор: гость
... тоесть каждой букве присвояем свой набор кластеров при обучении так сказать.

Это верно. Но. Вы представляете себе каков этот набор для одной буквы? Оченно большой. Я сотню раз произнес одно и тоже слово. Совпадений очень мало. Масив вырос до 100 кб и более. Плюс разные люди, разная громкость. Метод верный, но объекты надо рихтовать. Нормировать и т.д.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 10:57
Цитата:
Половину этой схемы можно выкинуть вычеркнуть и забыть. Многие ветки включают в себя функционал других веток
Ваша схема после уменьшения стала нечитабельной... Но то что видно - зря Вы выкинули. Например дикторо-зависимость. Она намного проще. Всегда применялась на нейронах. Избегаем кучи нюансов вроде акцента, изьянов речи (присвистывания, шепелявость, картавость...), отличий микрофонов при переходе на другую технику - переобучи нейронную сеть и все. А "простейшие детекторы" зачем выкинули - их хватает чтобы примерно узнать голос по ключевым пикам - например для голосового пароля.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 12:27
Самая страшная ошибка в программе, это когда не должно работать - а работает...
[Ответ][Цитата]
гость
31.181.130.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 12:48
[quote]Но. Вы представляете себе каков этот набор для одной буквы?[quote]
Нет. Если кластер - байт, тогда да. Человеческое ухо слышит 12 500 байт звука в секунду - думаю нет. А значит что каждые 1000 кластеров можно например сложить. Или если аудио информация для динамика это очень быстрая смена звуков то тогда количество кластеров не уменьшить так просто, по крайней мере моя воображалка не осилит устройство звука без изучения матчасти.
Хотя я сомневаюсь что количество информации соответствующее 12 500 байт в секунду(типо я так представил частоту съёма байт с микрофона) вообще нужно существу говорящему информацию с частотой от 200 до 8000 Гц(от 400 до 16000 байт(частота и амплитуда по два байта на герц)).
Частоту можно понизить, если всего две величины являются информацией о звуке. Ну и получить можно слово длиной в секунду времени весом от 400 байт.
база данных на 32 буквы ето например от 102,4 Кб(по 200мс на букву). По моему немного.

Цитата:
Но то что видно - зря Вы выкинули
Может быть.
[Ответ][Цитата]
гость
31.181.130.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 12:50
Цитата:
Плюс разные люди, разная громкость.
Есть такая штука как усреднение. Усредняет всё до приемлемого уровня.
[Ответ][Цитата]
гость
31.181.130.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 13 май 13 12:53
Ооо.. совсем пардон спать хочу запутался. 12 500 ето герцы, по два байта на герц будет 25 000 байт.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 май 13 5:24
Цитата:
Автор: Kek


Через микрофон шумы.

Дружище Kek,
учитесь работать сразу в реальных условиях жизни, а то потом потратите еще больше времени на "допиливание".
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 май 13 6:26
Цитата:
Автор: dr2chek


Дружище Kek,
учитесь работать сразу в реальных условиях жизни, а то потом потратите еще больше времени на "допиливание".

У каждого свой стиль. Свой я выращивал гугол лет.
Что вы имеете ввиду? Ошибки? Их есть у нас!
Вы лучше помогите понять. У меня программа работает на всех моих компах - их три.
Иногда я слышу на разных форумах:"У меня чего-то тормозит". Я хочу понять чего?
Вот у вас моя прога работает? Только скачайти плз сейчасошний вариант.
Сейчас на подходе вер 2.5. В ней мел-шкалы и т.д. Сижу смотрю...
Если хотите вот:
www.keklab.ru/buf/ai/Sound_Agent_2.5.zip
Только описание новых функций не готово.
Мне важно:
1. Спектр рисуется?
2. Record - происходит за 2000мс, или больше. Зависоны именно здесь.
3. Удалось ли подобрать приемлемое звучание Play
4. Уровень шумов каков? У меня на карте звуковоцй есть аппаратное подавления шума, поэтому у меня уровень шумов очень низкий 2 или 4.
Самое интересное это PlayMel. До сих пор все только визуально наблюдали, как мел шкала преобразует спектр. А я мел шкалу запихнул обратно в динамик. Интересная картина, блин...
Если количество мел-частот меньше 40, то ничего понять при воспроизведении нельзя. Даже человеку, а мы хотим 12-ю кепстральными коэфами что-то распознать!
Причесывать прогу для совместного использования у меня нет сил.
[Ответ][Цитата]
 Стр.7 (78)1  ...  3  4  5  6  [7]  8  9  10  11  ...  78<< < Пред. | След. > >>