GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.25 (78)

<< < Пред. | След. > >>

Поиск:

Автор

Тема: На: Продвижки

Slava
Сообщений: 3070

На: Продвижки

Добавлено: 01 июл 13 23:36

Изменено: 28 окт 13 6:29, автор изменений: Kek

del

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Продвижки

Добавлено: 01 июл 13 23:38

Изменено: 28 окт 13 6:29, автор изменений: Kek

del

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Продвижки

Добавлено: 01 июл 13 23:55

Изменено: 28 окт 13 6:29, автор изменений: Kek

del

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Продвижки

Добавлено: 01 июл 13 23:58

Изменено: 28 окт 13 6:29, автор изменений: Kek

del

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Продвижки

Добавлено: 02 июл 13 0:01

Изменено: 28 окт 13 6:29, автор изменений: Kek

del

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 02 июл 13 9:15

2Kek
Уже добрался до 3-го пункта своего мегаплана - вывожу громкости от реального звука. Причем ВНУТРЕННЕГО, а не микрофонного. Хотя могу и микрофонного (одна галочка).
Немного криво, но явно видно изменение.
Причем запись ведется в кольцевой буфер без остановок (уже 6 часов протестировал).
Теперь следующий пункт - попробую вывести реальные волны в много-линейный график и научусь писать в файл.
Потом отполирую расчет громкости и смену качества записи на лету.
На сегодня в программе уже 6 потоков и 2 графика...

А у Вас как дела?

p.s. Только заметил что тему уже давно переименовали... на "На: Продвижки"

и разговор уже давно не о звуке и не о голосе...

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 02 июл 13 11:13

Цитата:

Автор: Tester64

А у Вас как дела?

p.s. Только заметил что тему уже давно переименовали... на "На: Продвижки"

и разговор уже давно не о звуке и не о голосе...

Тема замусоревается. Надо чистить. Но это потом. Уезжаю в деревню,там Инет никакой.
Дела таковы. Как и у вас показать пока нечего. Пока концептуальные продвижки отдельных моментов.
Сделел память первого уровня - сенсорную. Запоминаются толко уникальные кадры, которые по имеющемуся критерию считаются не одинаковыми. Одновременно с записью кадра в память происходит анализ и ранжирование по частоте встречаемости. Все очень быстро, т.к. перетасовки массивов не происходит, а происходит перетасовка уникальных индексов массива, которые просто число.
Организована память второго уровня, элементом которой является два числа. Первое число - индекс массива сенсорной области, второе число - такой же индекс. Этот факт отражает, что в данной реализации отмечены два чередующихся кадра.
Сделана память третьего уровня, у нее элемент тоже два числа. Этот факт отражает чередование четырех кадров. И т.д. По степени двойки. Каждый уровень также ранжируется по количеству повторяемости.
Дальше вроде бы надо набирать статистику, но меня останавливает незавершенность. Есть понимание, что статистика ничего не даст существенного. Нужно придумать, а что система будет делать с этми уровнями памяти. Понимание есть, но это долго объяснять. И думать, думать...

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 02 июл 13 11:53

Цитата:

Уезжаю в деревню,там Инет никакой.

Удачного отдыха!

эх... и мне бы туда где инет никакой... И мобильный не ловит (увы не знаю таких мест)

Цитата:

Как и у вас показать пока нечего.

Увы! Проделано работы УЙМА, а показать нечего. Все внутри, куча мелочей, куча теории, а до реального распознавания еще месяцы рабты... Хотя... При такой работе через месяц-два смогу показать красивые бегущие (и главное ОЧЕНЬ надежные) графики с микрофона, внутреннего аудио и из файла. Пока-что "утилитка" получается ОЧЕНЬ красивой и удобно настраиваемой. А учитывая многолетний (>10лет) оптыт в Делфи, то чего там только нет... И свой скин (оптимизированый для разрабки), и свой отладчик, и регистрация через ключи (уже пол года встраиваю во ВСЕ свои даже домашние проекты). Короче ЛИЧНО МОЕГО кода уже 650кбайт.

Цитата:

Сделел память первого уровня - сенсорную...
Организована память второго уровня, ...
Дальше вроде бы надо набирать статистику, но меня останавливает незавершенность. Есть понимание, что статистика ничего не даст существенного. Нужно придумать, а что система будет делать с этми уровнями памяти.

Подозреаю СИЛЬНУЮ разбежность в терминологии... Термин "память" немного сбивает с мысли - возможно имеете в виду буферы. Накопительный от внешнего сигнала (?сенсорный) и результаты его обрабоки разныи алгоритмами...
Приедите - обьясните...

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 02 июл 13 12:19

Цитата:

Автор: Tester64
Термин "память" немного сбивает с мысли - возможно имеете в виду буферы. Накопительный от внешнего сигнала (?сенсорный) и результаты его обрабоки разныи алгоритмами...
Приедите - обьясните...

Пока не уехал поясню.
Конечно буфер - динамический массив. Data: array of array of byte;
Сенсорный массив - это набор локальных максимумов амплитуд спетра от 7-й гармоники до 200-ой, который реализовался за 40 мс. Динамики амплитуды хватает на байт 0-255 за глаза. Можно даже уменьшить. Удивительно следующее, что при обратном проигрывании я вместо амплитуд каждой гармоники подставляю константу. Т.е. динамический диапазон - никакой. Т.е. взять все амплитуды гармоник за кадр и подстричь на одинаковом уровне. И все равно ухо что-то распознает:
Это оригинальный голос.
А это с константой.

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 02 июл 13 12:49

Цитата:

Сенсорный массив - это набор локальных максимумов амплитуд спетра от 7-й гармоники до 200-ой, который реализовался за 40 мс. Динамики амплитуды хватает на байт 0-255 за глаза. Можно даже уменьшить. Удивительно следующее, что при обратном проигрывании я вместо амплитуд каждой гармоники подставляю константу. Т.е. динамический диапазон - никакой. Т.е. взять все амплитуды гармоник за кадр и подстричь на одинаковом уровне. И все равно ухо что-то распознает:
Это оригинальный голос.
А это с константой.

Довольно мутная схема... Начну с файлов - признаюсь если бы слушал не с оригинала а с констант - не догодался бы что это за фраза! СОВСЕМ не догодался бы...
В коды (раньше Вы выкладывали) серьезно лезть не хочется - смотрел "по диагонали" и даже не пытался понять где там начинается распознавание...
Теперь вопросы:
"локальных максимумов амплитуд спектра от 7-й гармоники до 200-ой, который реализовался за 40 мс" - берете запись за 40 мс, из микрофона в виде таблицы амплитуд и... дальше "поплыл"! Гармоники - это что? Раскладываете через FFT таблицу на таблицу из 200 частот? Или это просто название результата прогонки этого начального аудио-буфера через некую математическую функцию "разложения на гармоники"? Или работаете напрямую с первичной таблицей?

"Динамики амплитуды хватает на байт 0-255 за глаза." - опять "поплыл"! Результатом КАКИХ амплитуд пользуетесь? Первичную аудио-таблицу урезаете или результат обработки математикой? почему 255?

Где-то догадваюсь, но прежде чем задавать следующие вопросы, хотелось бы получить ответы на уже заданные...

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 02 июл 13 17:57

Цитата:

Автор: Tester64
Гармоники - это что? Раскладываете через FFT таблицу на таблицу из 200 частот?

Гармоника - это частота от FFT преобразования. Я во второй раз встречаю непонимание этого термина, странно...
Колебания гармонические складываются в определенной фазе и с определенной амплитудой и в результате получается непрерывный исходный сигнал - это обратное Фурье преобразование.
Тут же ответ на второй вопрос об амплитуде. Гармонические колебания определенной амплитуды, фаза не важна, я об этом говорил. А теперь и амплитуда не важна, она не разная у каждой гармоники, а одинаковая. Результат звучания мутный, но это просто для примера, который говорит, что значения этих амплитуд могут быть сужены по динамическому диапазону. Об этом говорят и приверженцы МЕЛ-частотного преобразования, который используют логарифм. Опять же, чтобы сузить динамический диапазон.

[Ответ][Цитата]

vchc
Сообщений: 194

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 03 июл 13 1:18

Цитата:

Автор: Kek
Гармоника - это частота от FFT преобразования. Я во второй раз встречаю непонимание этого термина, странно...

Вы некорректно используете термин "гармоника". По определению это элементарная составляющая гармонического сигнала. Делая прямое FFT, вы производите свёртку с опорными колебаниями. Так вот результат этой свёртки уже нельзя называть "гармоникой". При работе со спектром используют термины спектральная составляющая, спектральная компонента, частотная позиция, элементарный частотный канал и так далее. Сделав обратное FFT вы перейдёте от спектра к гармоническому сигналу и соответственно от спектральных компонент к гармоникам.
Возможно это какая-то особенность вашей школы обучения.

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 03 июл 13 2:47

Цитата:

Теперь немного понятнее...
Не удивляйтесь про Гармонику - я тоже (как и vchc) помню что это составляющая ЯВНО не речи. И самым близким значением в теории речи является "частота".
Про ФАЗЫ вполне согласен, хотя интересно будет их отобразить на графике... может они тоже несут важную инфонмацию... И возможно уменьшат потери качества при обратном преобразовании Фурье (частоты склеиваем назад в звук после усиления/чистки/фильтра/преобразований).

Но в общих чертах понял - Вы пытаетесь использовать чистую математику. Вы нашли формулы разложения в (довольно странный) набор частот, удобный для формул. Полностью игнорируете ВСЕ потери как не важные. И даже если слух после обратного преобразования почти не справляется, считаете что для "распознавалки" ЭТОГО хватит...

А я пытаюсь далеко не уходить от физики - максимум частот(кторые выжму и процессора), полные амплитуды. Не слыал про ограничения частот в ухе человека. А амплитуды частот дают разный УРОВЕНЬ сигнала в передающих (в центр распознания) нейронах. Возможно, если получится, будет еще "слой" фаз (может пригодится). На каждом этапе обратное пребразование и прогон через "свои уши" чтобы не потерять больше 5-10% качества и 0% "понимаемости/распознаваемости". Например чтобы убедится что ушел именно шум или неслышимые (мне, а возможно и кому-нибудь еще) частоты полезные для распознавания. Когда-же получу результат - это будет похоже на горный ланшафт из частот И их преобразования(например логарифмическая амплитуда, линейка частот и даже длина фонемы).
Теперь постараюсь добиться чтобы ланшафт от вашей "мамани"(фонемы) стал ОЧЕНЬ похож на мой(с небольшими РУЧНЫМИ преобразованиями - сжатие/растяжение, чистка шумов и лишних сигналов, возможно прокутка), но АБСОЛЮТНО не похож на другую фонему. А дальше уже применю свои задумки алгоритмов (желательно НЕ нейроные) по поиску этих сходств в базе данных. Причем предварительно постараюсь их ПРОИНДЕКСИРОВАТЬ, чтобы распознаание занимало на порядки меньше времени чем сравнение с каждой фонемой-образцом чрез нейронную матрицу (но ЭТОТ этап будет ох как не скоро).

p.s. Советую посмотреть на аудио-проигрыватель foobar2000 - показ FFT на 16384 (похоже частот) при проигрывании аудио-книги. Поразительное зрелище. Она меня и стимулирует возвращаться к этой программе. Глядя на эти частоты (особенно если растянуть на весь экран в линейных и стационарных режимах) чуствуешь что скоро в этих распечатках похожих на ДНК сможеш читать надиктовываемый текст - чуть-чуть качества не хватает и слишком быстро двигается - не успеваю..

скриншот

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 03 июл 13 3:20

Цитата:

Автор: Tester64
Советую посмотреть на аудио-проигрыватель foobar2000 - показ FFT на 16384 (похоже частот) при проигрывании аудио-книги. Поразительное зрелище. Она меня и стимулирует возвращаться к этой программе. Глядя на эти частоты (особенно если растянуть на весь экран в линейных и стационарных режимах) чуствуешь что скоро в этих распечатках похожих на ДНК сможеш читать надиктовываемый текст - чуть-чуть качества не хватает и слишком быстро двигается - не успеваю..

скриншот

Давно на речь не глядел, но эти картинки очень напоминают то, что мы видим изучая схватки у беременных

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 03 июл 13 3:22

Нашел аудио-книгу в неизвестном мне формате .m4b
Шикарное сжатие - не ожидал! 160 Мб на 6:30 часов!!!!
Так вот в foobar2000 ВИДНО какие частоты срезаны, как их можно просеивать без потери качесва. ШИКАРНЫЙ график... еще бы сделать возможность накладывать СВОИ фильтры по вырезанию частот и раскрасить цветами по формулам...

Скриншот2

[Ответ][Цитата]

Стр.25 (78): 1 ... 21 22 23 24 [25] 26 27 28 29 ... 78

<< < Пред. | След. > >>

Форум: Проблемы искусственного интеллекта