GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.59 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Зри в корень!
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 25 сен 13 12:30
Артем, для тебя. Если интересно сделай популризацию метода.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 25 сен 13 14:26
Да. Точно для меня. Я как бы уже напродумывал что делать с практической точки зрения, но жду удобного случая (например начальник в отпуск уйдет :-) )

А что касается ИИ - любой алгоритм интересен.
Особенно первый реализованный :-) А дальше пойдет процесс ...
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 25 сен 13 21:42
Мы использовали нелинейное время для разделения голосов
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 25 сен 13 22:09
Цитата:
Автор: Kek

Артем, для тебя. Если интересно сделай популризацию метода.

Какой-то студент румынский накатал к сессии курсовую, текста сборную солянку, а перевод вообще убийственный Господа, фильтруйте и-нет!
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 25 сен 13 23:59
Цитата:
Автор: dr2chek
Какой-то студент румынский накатал к сессии курсовую, текста сборную солянку, а перевод вообще убийственный Господа, фильтруйте и-нет!


Да нормальная статья.
Вообще-то речь-то идет не столько о звуке, сколько о применении динамического программирования (DWT) к последовательностям.
Еще мне понравилась идея FastDWT. Если применять DWT к целым словам и фразам - то, конечно, не впечатляет.
Ваш броузер недостаточно ИИ :-)

Но идея применять алгоритм к коротким последовательностям, а из коротких последовательностей как из кирпичиков строить последовательности подлинее - мне нравится. (почти FastDWT)

Еще стоит подумать что считать элементом последовательности.
Очевидно - слепок спектра в момент времени.
Можно применить загрубление в соответсвии со шкалами Мела, тогда каждые, скажем 1-5-10 мс, имеем не 64-512 значений, а всегда 8-16, вне зависимости от частоты дискретизации.
Или еще какое-то загрубление ...

Также имея набор коротких последовательностей - их можно переобозначить.
Во всем многообразии выявить схожие, и многообразие уменьшить.
Из переобозначенных элементов строим новую последовательность.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 1:38
Я хотел понять что такое это DWT, но не понял. А вообще задача стоит сравнения конечных последовательностей. Я применяю для этого корреляционный анализ. У меня слово разбивается на кадры по 20 мс, каждый кадр преобразуется в 20 частот. Затем каждый последующий такой набор сравнивается с предыдущим. После этого остаются только те последовательности, которые отличаются друг от друга на заданную величину корреляции. Таким образом количество кадров в слове не изменяется, а их разнообразие уменьшается. Но это все контролируется обратным проигрыванием.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 2:15
Цитата:
Автор: Kek

Но это все контролируется обратным проигрыванием.

Можно немного поподробнее, в чем состоит эта технология?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 2:27
Можно, сейчас подготовлю примеры с прослушиванием и графиками...
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 2:49
Цитата:
Автор: Kek

Можно, сейчас подготовлю примеры с прослушиванием и графиками...

Да можно и словами было бы обойтись. Чтобы силы поберечь, а то эти презентации много времени отнимают...
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 5:01
Если бы я писал статью, назвал бы так:
«Метод адаптивной корреляционной обработки речевого сигнала для выделения фонем»
Но так как этот метод я только нащупал и не проверил на большом материале, то писать не буду и слово «фонем» заменю на «объект».

Частота дискретизации(Hz): 12000
Количество значений в кадре: 240
Количество частот в кадре: 120/(5950Hz)
Время записи(ms): 2000
Длительность кадра(ms): 20
Количество кадров записи: 100

Каждый кадр преобразуется из 120 частот в 20 методом, который тождественен преобразованию в MEL-шкалу, только выбор этих частот иной.

Далее собственно корреляционная обработка.
Сравниваются два соседних кадра. Если их коэффициент корреляции больше 0.7, то они остаются без изменения. Если меньше, то текущий кадр заменяется предыдущим.
В чем адаптивность? На самом деле коэффициент корреляции не 0.7, а либо 0.7, либо 0.99. Переход при сравнении зависит от огибающей сигнала. Если изменения огибающей существенные, как при атаке, то 0.99, если огибающая плавная, то 0.7.

Результаты на слове «молоко».
Ниже приведены временные реализации слова при разных условиях


Оригинальная запись. Play


Воспроизводятся только те частоты с номерами 0-120, которые имеют локальные максимумы.
Play



Воспроизводится набор кадров после корреляционной обработки.
Соседние кадры отличаются друг от друга больше, чем на 500 условных единиц в метрике огибающей.
Play

По Y - время с дискретностью 20 мс
По X - 20 частотных полос

453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
1077,353,31,79,79,15,11,14,13,11,11,11,4,0,0,0,0,0,0,0,
953,457,112,417,300,45,37,39,34,17,15,15,15,15,15,58,49,22,22,22,
953,457,112,417,300,45,37,39,34,17,15,15,15,15,15,58,49,22,22,22,
953,457,112,417,300,45,37,39,34,17,15,15,15,15,15,58,49,22,22,22,
366,798,1088,1112,497,153,21,17,15,7,6,6,5,4,5,22,18,6,6,6,
324,632,947,865,1097,240,26,17,13,6,6,5,4,5,4,20,20,6,6,5,
306,714,1095,733,642,446,70,40,30,10,17,22,16,7,12,64,52,14,8,4,
307,600,924,660,725,481,118,155,104,27,24,41,41,25,13,87,38,10,11,8,
385,684,788,584,592,316,62,65,64,29,25,24,24,21,15,62,39,11,10,10,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
605,925,560,428,332,468,30,6,9,5,5,4,4,5,4,21,21,7,5,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
526,938,885,507,277,298,155,72,17,6,6,6,6,5,5,24,23,8,5,3,
526,938,885,507,277,298,155,72,17,6,6,6,6,5,5,24,23,8,5,3,
438,804,348,265,280,214,186,67,8,4,3,3,3,3,3,13,10,4,4,4,
191,247,139,95,72,148,45,17,3,1,1,1,1,1,1,0,0,0,0,0,
37,43,20,14,12,15,13,3,2,1,1,1,1,1,1,1,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
163,158,99,122,11,3,2,1,1,0,0,0,0,0,0,0,0,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
441,421,227,208,83,4,3,3,2,1,1,1,1,1,1,6,2,0,0,0,
442,461,278,349,200,7,6,6,5,3,3,3,3,2,1,7,9,4,4,4,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
420,545,299,415,314,7,6,5,4,1,1,1,1,1,1,4,0,0,0,0,
185,250,370,293,255,264,9,5,4,2,2,1,1,1,1,7,9,4,4,4,
185,250,370,293,255,264,9,5,4,2,2,1,1,1,1,7,9,4,4,4,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
11,7,8,14,5,3,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
11,7,8,14,5,3,1,0,0,0,0,0,0,0,0,0,0,0,0,0,



Воспроизводится набор кадров после корреляционной обработки.
Соседние кадры отличаются друг от друга больше, чем на 1200 условных единиц в метрике огибающей.
Play

По Y - время с дискретностью 20 мс
По X - 20 частотных полос

453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
453,150,87,87,87,87,87,72,72,43,43,43,43,43,43,94,8,0,0,0,
366,798,1088,1112,497,153,21,17,15,7,6,6,5,4,5,22,18,6,6,6,
324,632,947,865,1097,240,26,17,13,6,6,5,4,5,4,20,20,6,6,5,
324,632,947,865,1097,240,26,17,13,6,6,5,4,5,4,20,20,6,6,5,
307,600,924,660,725,481,118,155,104,27,24,41,41,25,13,87,38,10,11,8,
385,684,788,584,592,316,62,65,64,29,25,24,24,21,15,62,39,11,10,10,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
558,729,321,508,225,115,20,7,6,4,3,3,3,3,3,11,10,4,4,4,
605,925,560,428,332,468,30,6,9,5,5,4,4,5,4,21,21,7,5,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
598,935,707,552,408,711,98,50,10,5,6,7,8,7,6,23,24,5,6,3,
438,804,348,265,280,214,186,67,8,4,3,3,3,3,3,13,10,4,4,4,
191,247,139,95,72,148,45,17,3,1,1,1,1,1,1,0,0,0,0,0,
37,43,20,14,12,15,13,3,2,1,1,1,1,1,1,1,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
5,1,2,2,4,5,4,1,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
1,0,5,8,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,
163,158,99,122,11,3,2,1,1,0,0,0,0,0,0,0,0,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
413,314,193,98,53,4,3,3,3,1,1,1,1,1,1,6,3,0,0,0,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,
47,97,121,60,26,23,8,1,0,0,0,0,0,0,0,0,0,0,0,0,

Здесь приведены наборы числовых данных трех последних вариантов.

Выводы:
Из временных графиков видно как огибающая приобретает упрощенный ступенчатый характер. При всем при этом можно сказать, что слово можно понять.
Если посмотреть на числовые реализации, то видно, что в определенных местах последовательности одинаковые. Т.е. формируется некая область, которую условно можно назвать «объект». Это еще не фонема. Фонема будет тогда, когда к этой области присовокупятся быстро меняющиеся участки.
Можно сказать, что это начальный метод для формирования объектов в речевом потоке. Это метод реализуется без учителя, только статистическим набором. Но. Чтобы сформировавшимся объектам поставить в соответствие определенную фонему нужен учитель.
Пока все.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 6:06
Цитата:
Автор: Kek
Я хотел понять что такое это DWT, но не понял. А вообще задача стоит сравнения конечных последовательностей.


Ну там же в статье и код на Java есть.
Смысл DWT что последовательности 2 3 5 и 2 3 3 5 и 2 2 3 3 5 - будут эквивалентны.
Т.е. пусть шаблон 2 3 5 : - его реализация 2 3 3 5 будет распознана.
Пусть шаблон 2 3 3 5: - его реализация 2 3 5 также будет распознана.
Это инвариант относительности темпа речи.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 6:10
И еще кажется DWT (или нечто похожее что в памяти крутится) - позволяет соспоставить с шаблоном, если небольшое количество элементов последовательности выпадает или есть небольшое количество вставок.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 6:33
Спасибо, Артем, именно это я и хотел услышать.
Этот метод действительно можно использовать для сравнения слов.
До сих пор сущствует 2 инварианта:
1. Амплитуда
2. Тон говорящего.
Теперь и временная реализация может быть инвариантна для сравнения с шаблоном.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 7:24
Кстати очевидно что можно сравнивать
шаблон 2 3 5 с реализацией 2.1 2.9 3.1 5.02
конечно на скорость это плохо влияет, но на результат-то хорошо.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 26 сен 13 7:43
О еще мысль посетила.
Под элементом последовательности подразумевается слепок спектра.
Если сравнивать два элемента то нужна мера похожести.
Конечно можно посчитать среднеквадратичное отклонение и другие стандартные математические приемы.

А можно поступить хитрее.
Набирать статистику и похожими слепками считать те которые постатистике чаще бывают соседними. Чем чаще два элемента следуют друг за другом - тем больше мера похожести.
Эта мысль давно у меня крутится.
Это разница между фотографией и видео.

Еще аналог.
Если я сяду в метро в незнакомом городе и проеду 1 остановку - это может быть всего 1-2 квартала, но выйдя наружу - я увижу АБСОЛЮТНО другую местность.
Если я пройду эти два квартала пешком или на автобусе - то я четко усвою связь между этими местами.
[Ответ][Цитата]
 Стр.59 (78)1  ...  55  56  57  58  [59]  60  61  62  63  ...  78<< < Пред. | След. > >>