GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.9 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 9:26
Цитата:
Автор: Tester64
А уж когда НАЙДУ ОПТИМАЛЬНЫЕ сходства - наиболее стабильные характеристики одного фонема, то уж тогда наложу ИИ-шные механизмы поиска.

Боюсь, потеряете кучу времени,причем напрасно. А время - это невосполнимый ресурс, вы знаете.
Я тут раньше говорил, да и сейчас повторюсь, что фонемы - вещь очень относительная. И опознается она человеком не изолированно, а только в связке, относительно соседних фонем. Вы хотите постулировать параметры фонемы, найти прекрасный образец, а потом как-то сравнивать с ним входящий поток? Фигушки, не выйдет.
Безусловно, можно найти идеальный образец, который будет с 99,9 вероятностью распознаваться. Я и сам синтезировал такие фонемы. Но только это так, поразвлекаться, ибо несерьезно.
Возьмите простой пример, хотя бы фонема "а", которую произносят последовательно ребенок, юноша, зрелый человек, старик, тот же ряд для женщин, добавьте сюда речь карликов и еще шепотную "а". Вопрос - сможете ли вы найти в этом ряду стабильные островки параметров, которые можно внести в таблицы и сравнивать?
Я сильно сомневаюсь.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 9:29
Цитата:
Автор: Tester64
Математиков тоже бесполезно - говорят о формулах разложения на пол доски не понимая физического смысла и не способны даже примерно это показать.

Этт, точно. Я люблю математику, в МВТУ был классный препод. Он научил её не бояться. А когда не боишься, то можно и любить.
На данный момент я въехал во все эти прелести : FFT, кепстры, цифровые фильтры и т.д.
У меня все - таки создается впечатление, и чем больше я применяю мат. методов, тем оно усиливается... о том, что человек ничего этого не реализует. Но тем не менее распознает. И поверьте, это не от лени. Просто хочется вникнуть в суть. А это происходит тогда и только тогда, если отсечь все лишнеее (не я сказал, а Роден).
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 9:32
Цитата:
Автор: dr2chek
И опознается она человеком не изолированно, а только в связке, относительно соседних фонем.

Именно так. И здесь заключается отличие подходов классических=коммерческих от ИИ-шного. Именно в этом утверждении. Для классика фонема - конечный продукт поисков, для ИИ-шника конечым является смысл. Поэтому вверх по иерархии!
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 9:38
Цитата:
Автор: Kek
Вариант 1 - первые по порядку.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 9:44
Цитата:
Автор: Анатоль


ОК! Будем внедрять...
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 11:28
Цитата:
А время - это невосполнимый ресурс

Смотря как к этому относиться - пока писал научился многому что сейчас использую в комерческих целях на других программах/проектах. Например разработал свой простой микродвижок для OpenGL очень похожий на делфийский TCanvas. И даже баловался - писал свои компоненты (вроде скролингов) для обычных окон но на OpenGL. А циклический буфер стал основой многих списков как более продвинутая и иногда более быстрая замена обычных списков. А видели когда-нибудь чтобы внутри обычного делфийского окна были 3-4 панели графиков (как на моей последней картинке), но в каждой свое OpenGL окно. Такое даже на С++ не используют - тяжело...

Цитата:
Возьмите простой пример, хотя бы фонема "а", которую произносят последовательно ребенок, юноша, зрелый человек, старик, тот же ряд для женщин, добавьте сюда речь карликов и еще шепотную "а". Вопрос - сможете ли вы найти в этом ряду стабильные островки параметров, которые можно внести в таблицы и сравнивать?
Я сильно сомневаюсь.
А вот это можно будет понять только увидя. Возможно фонема "а" после определенных стабильных преобразований получим некую "фотографию" (если смотреть сверху на 3Д поток и раскрасить уровни цветами), которая будет смещаться, растягиваться, прокручиваться, но всеравно быть похожей на чужие "а". Возможно "а" представляет из себя НАБОР фотографий с которыми последовательно прийдется сравнивать по методу ИЛИ (для женщины вариант а1, для ребенка а2, карлик а8). Но не поигравшись с графикой этого не узнаешь...
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 11:35
Цитата:
Автор: Kek
как хидер от даных отличить: по размеру?
Заголовок - это всегда первые 44 байта. Все остальные байты - это звуковые данные. Чтобы эти звуковые данные правильно прочитать, нужно из заголовка взять количество каналов и разрешение - от них зависит количество байтов на один сэмпл.
Если размер данных, частота дискретизации, количество каналов и разрешение фиксированы, то проще сделать как предлагает Анатоль.

И ещё мысли по ходу дела.
В этом топике, и в других подобных начинаниях по распознаванию звука, разработчик сознательно или интуитивно стремится преобразовать звук в графический образ и распознавать далее графический образ. И это в корне правильно, потому что графика - это по сути позиционирование в пространстве, а распознавание без позиционирования - это как борщ без воды. Но зачем ограничивать себя только осциллограммами или спектрами? Почему не использовать, например, фигуры Хладни, о которых на форуме уже упоминали.

На простом примере покажу, почему спектр никуда не годится для распознавания звуков. По роду своих увлечений мне несколько раз приходилось настраивать пианино. Суть настройки сводится к тому чтобы настроить звучание струны и камертона в унисон. На слух этот унисон ощущается как отсутствие биений. Если Вы посмотрите на спектрограмму расстроенной струны и камертона, то увидите всего два пика, соответственно, струны и камертона. Т.е. как ни крути спектр даёт для распознавания только 2 объекта. Человеческое же ухо явно слышит биения как совершенно различимый дополнительный объект, исчезновение которого из поля слуха свидетельствует о правильной настройке струны. Поэтому, имхо, интерференционные картины и стоячие волны где-то в недрах уха являются теми графическими образами, которые опознаёт ухо для различения и позиционирования звуков.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 11:40
Цитата:
Поэтому, имхо, интерференционные картины и стоячие волны где-то в недрах уха являются теми графическими образами, которые опознаёт ухо для различения звуков.
Это значит что просто стоит построить график на котором будет показана РАЗНИЦА образца и текущего звука... Отобразить "интерференции", "сложения" волн, ... Тоесть опять вернулись к графике. Графика намного ПОНЯТНЕЕ нам - слух не у каждого достаточно тонкий чтобы уловить разницу, но на глаз это всегда понятно.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 май 13 12:03
Я, как начальник топика выписываю всем благодарность!
2 Андрей. Я именно так настраивал гитару перед концертом. При этом шум не помеха. Биения всегда ощущаются и даже не ухом...
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 9:09
Цитата:
Я, как начальник топика выписываю всем благодарность!
Как идет разработка? WAV уже подключили?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 10:35
Цитата:
Автор: Tester64
Как идет разработка? WAV уже подключили?

Обороты упали... И это нормально. 2 месяца непрерывных array of array of array...
WAV подключу это не проблемма. Я все таки не могу найти нормальный критерий одинаковости кадров.
Вот уже и количество мел-частот в кадре 64, не надо килограммы с километрами сравнивать. И динамический диапазон частотных пиков уменьшился меньше байта. Шумов нет. А все равно сказанное слово, даже из динамика через проигрыватель не имеет одинаковых кадров. И это еще от одного диктора. А что говорить ежели разные люди будут. Но при этом замечаю, что визуализация очень похожа. Но это на глаз. А как это алгоритмизировать? Кепстральные коэфы имеют много ложных срабатываний.
Сейчас идея сделать не дискретное косинусное преобразование, а честное DFP над спектром спектра кадра. Может быть форманты проявятся.
Должен сказать, что пока лучшим вариантом оценки похожести паттерна и слова является покадровый корреляционный анализ.

Вот одно и тоже слово произнесенное в одинаковом темпе мужчиной и женщиной. Графически они похожи. Если к левой картинке применить графический ресайзинг по высоте, то и результат сравнения будет хорошим. А так коэффициент корреляции 31% (выделен красным)
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 13:26
Цитата:
Вот одно и тоже слово произнесенное в одинаковом темпе мужчиной и женщиной. Графически они похожи. Если к левой картинке применить графический ресайзинг по высоте, то и результат сравнения будет хорошим. А так коэффициент корреляции 31% (выделен красным)
Кошмар... Вообще не похожи "на глаз". А попробуйте отобразить уровни цветом а не яркостью. Попробуйте СЛОЖИТЬ две картинки и покажите разницу... Пока что я не вижу сходства (кроме затемнения в центре, возможно похожее и для других фонем) и думаю программа думает еще хуже...
[Ответ][Цитата]
kondrat
Сообщений: 4026
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 14:18
Цитата:
Автор: Андрей
На простом примере покажу, почему спектр никуда не годится для распознавания звуков. По роду своих увлечений мне несколько раз приходилось настраивать пианино. Суть настройки сводится к тому чтобы настроить звучание струны и камертона в унисон. На слух этот унисон ощущается как отсутствие биений. Если Вы посмотрите на спектрограмму расстроенной струны и камертона, то увидите всего два пика, соответственно, струны и камертона. Т.е. как ни крути спектр даёт для распознавания только 2 объекта. Человеческое же ухо явно слышит биения как совершенно различимый дополнительный объект, исчезновение которого из поля слуха свидетельствует о правильной настройке струны. Поэтому, имхо, интерференционные картины и стоячие волны где-то в недрах уха являются теми графическими образами, которые опознаёт ухо для различения и позиционирования звуков.

2 палки - это амплитудная модуляция. Отсюда и биения.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 14:52
Цитата:
Автор: kondrat
амплитудная модуляция
Я уже говорил, что биения возникают в восприятии даже если запускать "палки" в разные уши. Вот, специально для Вас сделал тест. В левое ухо запускается синусоида 400 Гц, в правое - плавно нарастающая синусоида от 350 до 440 Гц. Биения слышны как самостоятельный объект.
[Ответ][Цитата]
victorst
Сообщений: 821
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 19 май 13 23:14
2Андрей: Биения легко объяснимы с точки зрения физиологии. Сначала, кстати, как и с изображениями и видимо с другими рецепторами, человек ощущает общие очертания, "контуры", глобальные характеристики окружающего мира с целью наибыстрейшего реагирования на опасности. Затем ощущения детализируются и затем еще более детализируются. На слух, видимо, так же как и на другие сенсоры влияют различные факторы состояния человека. Все это в итоге выливается в степени детализации, иначе называемым вниманием. В зрительной системе такое сужение зрительных полей происходит по некольку раз в секунду. Возможно, что аналогичный процесс происходит и со слухом. Биения ощущаются в виде более низкочастотного сигнала большой амплитуды. Поэтому они в первую очередь обрабатываются.
[Ответ][Цитата]
 Стр.9 (78)1  ...  5  6  7  8  [9]  10  11  12  13  ...  78<< < Пред. | След. > >>