Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.15 (78) << < Пред. | След. > >> Поиск:

Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июн 13 21:43

А если эту систему использовать для перевода на разные языки общения? У меня на сотовом синтезатор и дешифратор на русская язык, у вас аналогичный на английский я говорю он передаёт морзе, ваш сотовый слышит слышит и произносит на английском.... А ещё лучше по блутуз... Мой сотовый обучен под мой голос, Ваш соответственно.

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июн 13 23:28

Цитата:
А если эту систему использовать для перевода на разные языки общения? У меня на сотовом синтезатор и дешифратор на русская язык, у вас аналогичный на английский я говорю он передаёт морзе, ваш сотовый слышит слышит и произносит на английском.... А ещё лучше по блутуз... Мой сотовый обучен под мой голос, Ваш соответственно.

бред! Вы думаете так легко обучить под ваш голос? Или даже просто распознать морзянку с любого устройства а не специально-заточеного генератора. А перевод тут причем - можно по блутузу и слова передать - перевод от этого лучше не станет. К тому-же во время морзянки говорить проблематично - шумно очень! Цель - изобрести распознавалку голоса, решив ВСЕ проблемы, которые могут помешать этому (мужской/женский/детский/шопот, быстрый/медленный, громкий/тихий, помехоустойчивый...).

Но при распознавании морзянки возникают теже проблемы, что и при голосе, но их меньше. Выше-ниже частоты, громше/тише, быстрее/медленнее, стабильная скорость/скачущая, наличие шумов... Но если решить эти проблемы, думаю проще будет перейти к распознавания голоса. Пока что не надо рисовать "карты" фонем - фонемы всего 2 и они крайне простые и относительные - длинее/короче, громче/тише или 2 группы частот - в зависимости от проигрывателя и помех (например затухание звука в колонках не мгновенное или эхо создает отклонения)

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июн 13 23:35

Цитата:
Автор: Tester64
Возникла интересная мысль: голос довольно сложная конструкция... попробуйте распознать нечто более простое - морзянку!

Я уже лыжи навострил на что-то посложней. Морзянка мне представляется слишком простой задачей.
Дела тем не менее движутся. Что-то показать пока не могу, идет внутренняя битва. Вот направление главного удара:
1. Разработана память первого сенсорного уровня. Ее элементом является массив из локальных максимумов гармоник в кадре. Массив представляет из себя 140 элементов по числу гармоник. 140 = 3500 Гц. Елемент массива 0 или 1. 1 - это наличие локального максимума. Информация об амплитуде отсутсвует.
2. Разработан критерий похожести двух массивов. Этот критерий может управляться самой системой.
3. Разработана память второго уровня, элементом которой является сочетание двух входных массивов.
4. Проводится статистический анализ, сортировка повторяемости при слитной речи. Результаты интересные. Размер памяти не астрономический и сильно зависит от критерия похожести.

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 16 июн 13 23:52

>>> слишком простой задачей
Уверены? Представьте что у Вас есть всего 2 слова/фонема. Но сказаны они могут быть разными ЖУТКО ИСКАЖЕННЫМИ генераторами - например сквозь старинную телефонную линию, или пробитые колонки, или растянуты во времени в 2-3 раза, или отличаться амплитудной модуляцией, или разходиться в частотах при схожих других характеристиках, или накладываться друг на друга (не успел утихнуть звук в колонках от одного сигнала как начинается другой). Цель - получать текст в любом случае. Возможно переобучаться в процессе подстраиваясь. А где 2 увереные фонемы, там и 3-4-5-тысяча... Попробуйте генератор сигнала в момент распознания приглушать подушкой или удалять от микрофона.

p.s. Я тоже реанимировал свой проект - правда начал востановление с интерфейса и графики. Моя программа напоминает анитивирус Касперского - сидит себе тихо в часах, рисует активность микрофона и/или внутреннего аудио-сигнала (снова подсел на аудио-книги). Можно приостановить на указанное время чтобы не нагружал процессор во время работы и не отвлекал своим движущимся микрографиком... Цель - сделать ее не внешней программой, а интегрировать в систему - сделать слежение сверх-надежным явлением.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июн 13 7:19

Цитата:
Автор: Tester64
p.s. Я тоже реанимировал свой проект - правда начал востановление с интерфейса и графики.

Эт хорошо. Но что делает программа?
Относительно фонем. Когда мы говорим "фонема" и более того наблюдаем ее на сонарной картинке это означает, что мы у себя в голове уже присвоили какой-то группе цифр класс и назвали его "фонема".
Человек распознает это в лёт. На данный момент я до этого не добрался. И специально не хочу делать какие-то фильтры для распознавания фонем. Пусть система делает. Для этого у нее есть целевая функция нижнего уровня и кой какие арсеналы. Такая задачка. Об арсеналах еще надо подумать. Они должны быть элементарно простыми: сортировка, изменение критерия похожести и более быстрая оценка по этой причине, комбинация кадров и оценка этой комбинации и т.д. Все это можно будет делать, наблюдать пока в интерактивном режиме, когда закончу вторую волну.

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июн 13 12:47

Цитата:
Эт хорошо. Но что делает программа?

Пока ничего! Пытается рисовать графики. Причем что-бы избежать глюков с микрофоном на первых этапах заменил входящий сигнал генератором случайных чисел. Ползет себе красивый график из ломаных... но... это заготовка для введения логики и полировки бесконечных (зацикленых/перезаписываемых/гусеничных) буферов, отладка обработки и отрисоки графиков в отдельном потоке, отладки механизма интеграции в ОС. Позднее будет востановлена из мертвых (когда-то уже созданная, но слегка "подглючивающая") функция получения сигнала из микрофона. Позднее востановлю фурье анализы и попробую рисовать звуки, из разложения на частоты, преобразования гусеничных лент/буферов частот, простые преобразования громкости, чистки от фонового шума. Позднее востановлю отрисовку 3Д картин звука в реальном времени... А тогда уже подумаю с какой стороны браться за анализ фонем/морзянки/голоса. Но перед этим хочу ГЛАЗАМИ увидеть чем похожи два одинаковых слова/сингала... но... даже первый этап может длиться месяцы - улучшил внешний вид графика, вывел индикатор в хинт "до запуска осталось 00:00:34"...
Поэтому и подумал, что результаты по морзянке я увижу намного быстрее, чем комп поймет мое первое слово. Кстати как вариант более "продвинутой" морзянки, можно распознавать музыкальную композицию на ноты.

Цитата:

Человек распознает это в лёт. На данный момент я до этого не добрался. И специально не хочу делать какие-то фильтры для распознавания фонем. Пусть система делает. Для этого у нее есть целевая функция нижнего уровня и кой какие арсеналы. Такая задачка. Об арсеналах еще надо подумать. Они должны быть элементарно простыми: сортировка, изменение критерия похожести и более быстрая оценка по этой причине, комбинация кадров и оценка этой комбинации и т.д. Все это можно будет делать, наблюдать пока в интерактивном режиме, когда закончу вторую волну.

Вы слишком сильно доверяете закрытым функциям!!! Нельзя же так!! Как программист, Вы должны контролировать процесс распознавания, направлять его. Допустим Вам попадется какой-нибудь голос, который система не понимает, но Вы его четко понимаете. Выкидывать наработки и пробовать обучить заново? Проигнорировать этого человека? Или найти что является мусором в его фонемах, мешающих распознаванию, найти небольшие отличия в частотной схеме и либо поправить базовую схему сравнения, либо завести дополнительный "образец".

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июн 13 13:13

Цитата:
Автор: Tester64

Пока ничего!

Вот и у меня пока ничего... Нету еще распознавания. Идет накопление данных из чего распознавать потом можно будет. Попутно идет сортировка по частоте присутствия. Нету еще фонем. Они состоят из 5-6 кадров.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июн 13 8:15

Привет всем. Привет Kek.
переезжаю сюда на обсуждение этой ветки темы с
http://www.project-ai.org/forum/viewtopic.php?f=7&t=1037

Чтобы отметится сделаю замечание.
На ветке говорили о том что фаза не имеет значения и говорили о биениях.
- Фаза сигнала зависит от расстояния между источником и приемником.
- Биение это сочетание двух близких частот. Чтобы различить нужно 2 уха.

На спектрограмме всегда можно видеть биение гармоник частоты основного тона на частотах выше 3-х кг. Это результат смешения шумоподобной составляющей (окрашеный шум) и частоты гармоник частоты основного тона.
Причина возникновения шумоподобной составляющай - это поток воздуха через речевой тракт. Гармоники частоты основного тона - это прохождение частоты основного тона через речевой тракт.
Короче шопот + голос.
По биениям можно идентифицировать говорящего.

Что сделать чтобы понять о чем я говорю?
В идеале записать ОДНОВРЕМЕННО запись на двух микрофонах.
Но можно и построить модель распостранения звука в пространстве.
Подавать на вход модели wav файл - как бы делать запись с разных виртуальных микрофонов.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 18 июн 13 11:37

Цитата:
Автор: Артем

На спектрограмме всегда можно видеть биение гармоник частоты основного тона на частотах выше 3-х кг. Это результат смешения шумоподобной составляющей (окрашеный шум) и частоты гармоник частоты основного тона.

Вы под биениями понимаете явно что-то другое - поясните.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 июн 13 3:50

Если сложить 2 синусоиды, которые отличаются по частоте меньше чем разрешающая способность на спектрограмме то получим биение.
Пример.
Частота дискретизации 16 000 гц.
Быстрое преобразование фурье 512 отсчетов.
Разрешающая способность 16000/512 ~ 31 гц. (с учетом оконной функции, например Хэмминга, будет ~50гц)
Так значит смешиваем частоты 1000 гц и 1020 гц - получаем биение.
На спектрограмме это выглядит как 20 кусочков в секунду.
Кусочки с частотой около 1000 гц.
Попробую нарисовать:
слева направо - время, снизу ввехр - частота. (*) - большая амплитуда. (.) - маленькая
............... 2000 гц
...............
...............
...............
.*.*.*.*.*.*.*. 1000 гц
...............
...............
...............
............... 0 гц

Если же синусоиды бы были например 1000 и 1600 Гц, то картинка такая получится
............... 2000 гц
***************
...............
...............
*************** 1000 гц
...............
...............
...............
............... 0 гц

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 июн 13 4:32

Да, понятно, о чем вы говорите - здесь вы рассматриваете биения между синусами. Тогда неясен такой ваш вывод, сделанный ранее, что видны биения между шумом(!) и синусом.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 июн 13 4:56

Шум пропустим через полосовой фильтр. Получим такую картину.
..............
++++++++++++++
++++++++++++++
++++++++++++++
..............
..............
Далее добавим синусоиду, по мощности сопоставимой с мощностью шума.
получим:
..............
++++++++++++++
*.*.*.*.*.*.*.
++++++++++++++
..............
.............. Это же биение?

P.S. Кто знает ка тут постить моноширинным шрифтом?

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 июн 13 8:13
Изменено: 28 окт 13 6:05, автор изменений: Kek

del

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 июн 13 8:18

Цитата:
Автор: Kek

Я уже лыжи навострил на что-то посложней. Морзянка мне представляется слишком простой задачей.
Дела тем не менее движутся. Что-то показать пока не могу, идет внутренняя битва. Вот направление главного удара:
1. Разработана память первого сенсорного уровня. Ее элементом является массив из локальных максимумов гармоник в кадре. Массив представляет из себя 140 элементов по числу гармоник. 140 = 3500 Гц. Елемент массива 0 или 1. 1 - это наличие локального максимума. Информация об амплитуде отсутсвует.
2. Разработан критерий похожести двух массивов. Этот критерий может управляться самой системой.
3. Разработана память второго уровня, элементом которой является сочетание двух входных массивов.
4. Проводится статистический анализ, сортировка повторяемости при слитной речи. Результаты интересные. Размер памяти не астрономический и сильно зависит от критерия похожести.
А сложно написать волновую функцию для звука, слова? Или придумать формирователь такой функции. Затем пробовать работать с этими функциями. Переходя к функции мы уберём и шумы, и индивидуальность рассматривая их подобие. Выделяя в функции параметр основного тона, заменяя его на известный и проигрывая как бы своим голосом имеющим эквивалент образа.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 июн 13 9:05

Цитата:
Автор: ЭГТР

А сложно написать волновую функцию для звука, слова? Или придумать формирователь такой функции. Затем пробовать работать с этими функциями. Переходя к функции мы уберём и шумы, и индивидуальность рассматривая их подобие. Выделяя в функции параметр основного тона, заменяя его на известный и проигрывая как бы своим голосом имеющим эквивалент образа.

Вот!
Вот этим я хочу позаниматься.

Что я знаю? Как я это представляю?
Нужно генерить шум и пропускать его через цепочку фильтров.
Параметры фильтра менять во времени (артикуляция).
Выбор 5-6 и фильтров и их неменяемых параметров - поставить на генетический алгоритм.
Это будет шопот.

К этому добавить Частоту основного тона, тоже пропущенную через ту же цепочку фильтров.
Это будет голос.

Кроме того на артикуляцию (изменяемые параметры фильтров) наложить ограничения по скорости изменения.

Фильтры можно взять рекурсивные, 2-го порядка (например Баттервоута).

[Ответ][Цитата]

Стр.15 (78): 1 ... 11 12 13 14 [15] 16 17 18 19 ... 78 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net