GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.25 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Продвижки
Slava
Сообщений: 3070
На: Продвижки
Добавлено: 01 июл 13 23:36
Изменено: 28 окт 13 6:29, автор изменений: Kek
del
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Продвижки
Добавлено: 01 июл 13 23:38
Изменено: 28 окт 13 6:29, автор изменений: Kek
del
[Ответ][Цитата]
ЭСГТР
Сообщений: 8461
На: Продвижки
Добавлено: 01 июл 13 23:55
Изменено: 28 окт 13 6:29, автор изменений: Kek
del
[Ответ][Цитата]
ЭСГТР
Сообщений: 8461
На: Продвижки
Добавлено: 01 июл 13 23:58
Изменено: 28 окт 13 6:29, автор изменений: Kek
del
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Продвижки
Добавлено: 02 июл 13 0:01
Изменено: 28 окт 13 6:29, автор изменений: Kek
del
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 02 июл 13 9:15
2Kek
Уже добрался до 3-го пункта своего мегаплана - вывожу громкости от реального звука. Причем ВНУТРЕННЕГО, а не микрофонного. Хотя могу и микрофонного (одна галочка).
Немного криво, но явно видно изменение.
Причем запись ведется в кольцевой буфер без остановок (уже 6 часов протестировал).
Теперь следующий пункт - попробую вывести реальные волны в много-линейный график и научусь писать в файл.
Потом отполирую расчет громкости и смену качества записи на лету.
На сегодня в программе уже 6 потоков и 2 графика...

А у Вас как дела?

p.s. Только заметил что тему уже давно переименовали... на "На: Продвижки" и разговор уже давно не о звуке и не о голосе...
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 02 июл 13 11:13
Цитата:
Автор: Tester64

А у Вас как дела?

p.s. Только заметил что тему уже давно переименовали... на "На: Продвижки" и разговор уже давно не о звуке и не о голосе...

Тема замусоревается. Надо чистить. Но это потом. Уезжаю в деревню,там Инет никакой.
Дела таковы. Как и у вас показать пока нечего. Пока концептуальные продвижки отдельных моментов.
Сделел память первого уровня - сенсорную. Запоминаются толко уникальные кадры, которые по имеющемуся критерию считаются не одинаковыми. Одновременно с записью кадра в память происходит анализ и ранжирование по частоте встречаемости. Все очень быстро, т.к. перетасовки массивов не происходит, а происходит перетасовка уникальных индексов массива, которые просто число.
Организована память второго уровня, элементом которой является два числа. Первое число - индекс массива сенсорной области, второе число - такой же индекс. Этот факт отражает, что в данной реализации отмечены два чередующихся кадра.
Сделана память третьего уровня, у нее элемент тоже два числа. Этот факт отражает чередование четырех кадров. И т.д. По степени двойки. Каждый уровень также ранжируется по количеству повторяемости.
Дальше вроде бы надо набирать статистику, но меня останавливает незавершенность. Есть понимание, что статистика ничего не даст существенного. Нужно придумать, а что система будет делать с этми уровнями памяти. Понимание есть, но это долго объяснять. И думать, думать...
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 02 июл 13 11:53
Цитата:
Уезжаю в деревню,там Инет никакой.
Удачного отдыха! эх... и мне бы туда где инет никакой... И мобильный не ловит (увы не знаю таких мест)

Цитата:
Как и у вас показать пока нечего.

Увы! Проделано работы УЙМА, а показать нечего. Все внутри, куча мелочей, куча теории, а до реального распознавания еще месяцы рабты... Хотя... При такой работе через месяц-два смогу показать красивые бегущие (и главное ОЧЕНЬ надежные) графики с микрофона, внутреннего аудио и из файла. Пока-что "утилитка" получается ОЧЕНЬ красивой и удобно настраиваемой. А учитывая многолетний (>10лет) оптыт в Делфи, то чего там только нет... И свой скин (оптимизированый для разрабки), и свой отладчик, и регистрация через ключи (уже пол года встраиваю во ВСЕ свои даже домашние проекты). Короче ЛИЧНО МОЕГО кода уже 650кбайт.

Цитата:
Сделел память первого уровня - сенсорную...
Организована память второго уровня, ...
Дальше вроде бы надо набирать статистику, но меня останавливает незавершенность. Есть понимание, что статистика ничего не даст существенного. Нужно придумать, а что система будет делать с этми уровнями памяти.

Подозреаю СИЛЬНУЮ разбежность в терминологии... Термин "память" немного сбивает с мысли - возможно имеете в виду буферы. Накопительный от внешнего сигнала (?сенсорный) и результаты его обрабоки разныи алгоритмами...
Приедите - обьясните...
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 02 июл 13 12:19
Цитата:
Автор: Tester64
Термин "память" немного сбивает с мысли - возможно имеете в виду буферы. Накопительный от внешнего сигнала (?сенсорный) и результаты его обрабоки разныи алгоритмами...
Приедите - обьясните...

Пока не уехал поясню.
Конечно буфер - динамический массив. Data: array of array of byte;
Сенсорный массив - это набор локальных максимумов амплитуд спетра от 7-й гармоники до 200-ой, который реализовался за 40 мс. Динамики амплитуды хватает на байт 0-255 за глаза. Можно даже уменьшить. Удивительно следующее, что при обратном проигрывании я вместо амплитуд каждой гармоники подставляю константу. Т.е. динамический диапазон - никакой. Т.е. взять все амплитуды гармоник за кадр и подстричь на одинаковом уровне. И все равно ухо что-то распознает:
Это оригинальный голос.
А это с константой.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 02 июл 13 12:49
Цитата:
Сенсорный массив - это набор локальных максимумов амплитуд спетра от 7-й гармоники до 200-ой, который реализовался за 40 мс. Динамики амплитуды хватает на байт 0-255 за глаза. Можно даже уменьшить. Удивительно следующее, что при обратном проигрывании я вместо амплитуд каждой гармоники подставляю константу. Т.е. динамический диапазон - никакой. Т.е. взять все амплитуды гармоник за кадр и подстричь на одинаковом уровне. И все равно ухо что-то распознает:
Это оригинальный голос.
А это с константой.

Довольно мутная схема... Начну с файлов - признаюсь если бы слушал не с оригинала а с констант - не догодался бы что это за фраза! СОВСЕМ не догодался бы...
В коды (раньше Вы выкладывали) серьезно лезть не хочется - смотрел "по диагонали" и даже не пытался понять где там начинается распознавание...
Теперь вопросы:
"локальных максимумов амплитуд спектра от 7-й гармоники до 200-ой, который реализовался за 40 мс" - берете запись за 40 мс, из микрофона в виде таблицы амплитуд и... дальше "поплыл"! Гармоники - это что? Раскладываете через FFT таблицу на таблицу из 200 частот? Или это просто название результата прогонки этого начального аудио-буфера через некую математическую функцию "разложения на гармоники"? Или работаете напрямую с первичной таблицей?

"Динамики амплитуды хватает на байт 0-255 за глаза." - опять "поплыл"! Результатом КАКИХ амплитуд пользуетесь? Первичную аудио-таблицу урезаете или результат обработки математикой? почему 255?

Где-то догадваюсь, но прежде чем задавать следующие вопросы, хотелось бы получить ответы на уже заданные...
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 02 июл 13 17:57
Цитата:
Автор: Tester64
Гармоники - это что? Раскладываете через FFT таблицу на таблицу из 200 частот?

Гармоника - это частота от FFT преобразования. Я во второй раз встречаю непонимание этого термина, странно...
Колебания гармонические складываются в определенной фазе и с определенной амплитудой и в результате получается непрерывный исходный сигнал - это обратное Фурье преобразование.
Тут же ответ на второй вопрос об амплитуде. Гармонические колебания определенной амплитуды, фаза не важна, я об этом говорил. А теперь и амплитуда не важна, она не разная у каждой гармоники, а одинаковая. Результат звучания мутный, но это просто для примера, который говорит, что значения этих амплитуд могут быть сужены по динамическому диапазону. Об этом говорят и приверженцы МЕЛ-частотного преобразования, который используют логарифм. Опять же, чтобы сузить динамический диапазон.
[Ответ][Цитата]
vchc
Сообщений: 194
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 03 июл 13 1:18
Цитата:
Автор: Kek
Гармоника - это частота от FFT преобразования. Я во второй раз встречаю непонимание этого термина, странно...


Вы некорректно используете термин "гармоника". По определению это элементарная составляющая гармонического сигнала. Делая прямое FFT, вы производите свёртку с опорными колебаниями. Так вот результат этой свёртки уже нельзя называть "гармоникой". При работе со спектром используют термины спектральная составляющая, спектральная компонента, частотная позиция, элементарный частотный канал и так далее. Сделав обратное FFT вы перейдёте от спектра к гармоническому сигналу и соответственно от спектральных компонент к гармоникам.
Возможно это какая-то особенность вашей школы обучения.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 03 июл 13 2:47
Цитата:
Гармоника - это частота от FFT преобразования. Я во второй раз встречаю непонимание этого термина, странно...
Колебания гармонические складываются в определенной фазе и с определенной амплитудой и в результате получается непрерывный исходный сигнал - это обратное Фурье преобразование.
Тут же ответ на второй вопрос об амплитуде. Гармонические колебания определенной амплитуды, фаза не важна, я об этом говорил. А теперь и амплитуда не важна, она не разная у каждой гармоники, а одинаковая. Результат звучания мутный, но это просто для примера, который говорит, что значения этих амплитуд могут быть сужены по динамическому диапазону. Об этом говорят и приверженцы МЕЛ-частотного преобразования, который используют логарифм. Опять же, чтобы сузить динамический диапазон.

Теперь немного понятнее...
Не удивляйтесь про Гармонику - я тоже (как и vchc) помню что это составляющая ЯВНО не речи. И самым близким значением в теории речи является "частота".
Про ФАЗЫ вполне согласен, хотя интересно будет их отобразить на графике... может они тоже несут важную инфонмацию... И возможно уменьшат потери качества при обратном преобразовании Фурье (частоты склеиваем назад в звук после усиления/чистки/фильтра/преобразований).

Но в общих чертах понял - Вы пытаетесь использовать чистую математику. Вы нашли формулы разложения в (довольно странный) набор частот, удобный для формул. Полностью игнорируете ВСЕ потери как не важные. И даже если слух после обратного преобразования почти не справляется, считаете что для "распознавалки" ЭТОГО хватит...

А я пытаюсь далеко не уходить от физики - максимум частот(кторые выжму и процессора), полные амплитуды. Не слыал про ограничения частот в ухе человека. А амплитуды частот дают разный УРОВЕНЬ сигнала в передающих (в центр распознания) нейронах. Возможно, если получится, будет еще "слой" фаз (может пригодится). На каждом этапе обратное пребразование и прогон через "свои уши" чтобы не потерять больше 5-10% качества и 0% "понимаемости/распознаваемости". Например чтобы убедится что ушел именно шум или неслышимые (мне, а возможно и кому-нибудь еще) частоты полезные для распознавания. Когда-же получу результат - это будет похоже на горный ланшафт из частот И их преобразования(например логарифмическая амплитуда, линейка частот и даже длина фонемы).
Теперь постараюсь добиться чтобы ланшафт от вашей "мамани"(фонемы) стал ОЧЕНЬ похож на мой(с небольшими РУЧНЫМИ преобразованиями - сжатие/растяжение, чистка шумов и лишних сигналов, возможно прокутка), но АБСОЛЮТНО не похож на другую фонему. А дальше уже применю свои задумки алгоритмов (желательно НЕ нейроные) по поиску этих сходств в базе данных. Причем предварительно постараюсь их ПРОИНДЕКСИРОВАТЬ, чтобы распознаание занимало на порядки меньше времени чем сравнение с каждой фонемой-образцом чрез нейронную матрицу (но ЭТОТ этап будет ох как не скоро).

p.s. Советую посмотреть на аудио-проигрыватель foobar2000 - показ FFT на 16384 (похоже частот) при проигрывании аудио-книги. Поразительное зрелище. Она меня и стимулирует возвращаться к этой программе. Глядя на эти частоты (особенно если растянуть на весь экран в линейных и стационарных режимах) чуствуешь что скоро в этих распечатках похожих на ДНК сможеш читать надиктовываемый текст - чуть-чуть качества не хватает и слишком быстро двигается - не успеваю..

скриншот
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 03 июл 13 3:20
Цитата:
Автор: Tester64
Советую посмотреть на аудио-проигрыватель foobar2000 - показ FFT на 16384 (похоже частот) при проигрывании аудио-книги. Поразительное зрелище. Она меня и стимулирует возвращаться к этой программе. Глядя на эти частоты (особенно если растянуть на весь экран в линейных и стационарных режимах) чуствуешь что скоро в этих распечатках похожих на ДНК сможеш читать надиктовываемый текст - чуть-чуть качества не хватает и слишком быстро двигается - не успеваю..

скриншот


Давно на речь не глядел, но эти картинки очень напоминают то, что мы видим изучая схватки у беременных
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 03 июл 13 3:22
Нашел аудио-книгу в неизвестном мне формате .m4b
Шикарное сжатие - не ожидал! 160 Мб на 6:30 часов!!!!
Так вот в foobar2000 ВИДНО какие частоты срезаны, как их можно просеивать без потери качесва. ШИКАРНЫЙ график... еще бы сделать возможность накладывать СВОИ фильтры по вырезанию частот и раскрасить цветами по формулам...

Скриншот2
[Ответ][Цитата]
 Стр.25 (78)1  ...  21  22  23  24  [25]  26  27  28  29  ...  78<< < Пред. | След. > >>