GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.46 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Зри в корень!
vchc
Сообщений: 194
На: Проект Sound-Agent. Зри в корень!
Добавлено: 09 авг 13 7:51
Цитата:
Автор: Артем
Это говорит о том что для построения человеческого уха мы все-таки можем себе позволить импользовать небольшое число магических констант. Или хотя-бы жестко заданную структуру вроде задания количества и свойств нескольких слоев.


Более того, любой алгоритм по определению является набором магических констант. )
Мне вот интересен другой вопрос. Вы не пробовали взять уже готовую акустическую модель? Не в смысле кода, а в смысле описания модели. Понятно, что открывать заново что-то, это процесс весёлый, но, по мне, крайне неэффективный. Литературы по распознаванию речи хватает, как и различных конференций. Или это кощунство, пользоваться чужими разработками?
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Зри в корень!
Добавлено: 09 авг 13 8:04
Цитата:
Автор: vchc
...Литературы по распознаванию речи хватает, как и различных конференций. Или это кощунство, пользоваться чужими разработками?

Так,если я не ошибаюсь, то основная суть была в ИИ, а звук, как полигон, но все застряло именно на звуке, да еще "ручками"...:-)
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 09 авг 13 12:38
Цитата:
Автор: vchc
Вы не пробовали взять уже готовую акустическую модель?


Здается вы меня не узнали vchc, пол года назад пробовал вместе с вами и prof1983.
Бросил, не почувствовал поддержки. Все-таки берут готовое чтобы обязательно добиться успеха и денег заработать.
Я изобретают свое - для души.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 09 авг 13 12:52
Цитата:
Автор: Артем

Я изобретают свое - для души.


Это привлекает
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 4:01
Попробовал визуализировать фонетическую функцию Пирогова в каждом кадре:
P(w,t)=Lg(S(w,t)/S(w,tau))
Чета не вдохновляет...
Зато с Mel-шкалой вышло здорово. Опять к ней вернулся и правильно выбрал частоты. Получается здорово: говорю басом - проигрываю голосом робота. Говорю-тенором - проигрываю тем же голосом робота. Это инвариант.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 6:04
Если S(w,t) - это спектр выраженный в амплитудах или квадратах амплитуды,
тогда надо P(w,t) = S(w,t)/S(w,t-tau)
Если S(w,t) - это спектр выраженный в децебеллах,
тогда надо P(w,t) = S(w,t) - S(w,t-tau).
Таким образом P - величина безразмерная.
И визуализировать так: везде где P>2 белый, где P<2 - черный.
Про экспоненциальное затухание - отдельный разговор.
Кроме того S(w,t) это должен быть спектр из небольшого числа полос.
Спектр Фурье - это сотни полос, а надо ~ 10.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 9:53
Артем
[…Наши "тактические" успехи вовсе не тактические - а очень даже стратегические!
Построив "ручками" адекватную модель универсально распознавания звуков/речи мы можем вернуться обратно и понять как бы эта модель могла быть построенна с помощью "универсального" алгоритма. Возможно такой очередной "почти универсальный" алгоритм придется изобретать…]

Ну-ну, может, все же не стратегические, а скажем так – условно концептуальные на уровне пожеланий
«Адекватная модель универсального распознавания звуков/речи» - а что такое адекватная модель, что значит универсальное в данном случае и к чему все это относится – к звукам или речи?
Не пора ли наконец-то все же задуматься о том, чего вы, господа, по-настоящему хотите?
Но все равно – поздравляю!

[…Что мы имеем:
1. АЦП. (интересно как наше ухо смогло придумать АЦП ? какой универсальный алгоритм придумал АЦП? Да еще и сразу 16 разрядный? Может вернемся к вопросу о клиппировании?)
2. Сеточка фильтров. (Лично мне Мел сообщил как лучше организовать сеточку фильтров, а как универсальный алгоритм до этого догадался?)
3. Фонетическая функция Пирогова. (вообще-то это тоже сеточка фильтров, но не таких как в п2. Хорошо бы чтобы мы могли развернуть дело таким образом чтобы фильтры в п2 и п3 имели какое-то однообразие. Опять клиппирование чтоли?)
4. Бинаризированная визуализация с очень небольшим количеством признаков достаточная для понимания. (это я еще так и не сделал, сорри, но я предполагаю. Это гипотеза)…]

1. В сенсорике работают нейроны – они пороговые по сути, ну а управление чувствительностью их – порогами срабатывания регулируют разные там тормозящие связи. Но откуда вы взяли 16 бит?
2. Сеточки – анатомия уха – спишите на эволюцию, она стерпит
3. Контрастная чувствительность – достаточно универсальная вещь. Здесь ее частный случай
4. И это – тоже частность для нейронной системы, в пороговых сетях это – просто норма.
В общем, тут все нормально согласуется с давно известным про мозги и сенсорику.
Кстати, в связи с эффективным моделированием такого очень вам советую еще одну очень старую и практически никому не известную работу Игоря Зенкина и Саши Петрова, с некоторыми отличиями, опубликованную в:
А.П.Петров, Г.М.Зенкин. Анализ изображения, применяемый в модели, обучающейся узнаванию зрительных образов. Труды III Всесоюзной конференции по информационно-поисковым системам и автоматизированной обработке научно-технической информации. Москва, ВИНИТИ, ч.3, стр.187-195, 1967.
Г.М.Зенкин, А.П.Петров. Система анализа изображений и узнавание объектов на сложном фоне. Биофизика, 12, вып.3, 1967.
Не пожалеете

[…Каким принципам отвечает наша схема:
1. Уменьшение количества признаков на выходе, бинаризация.
2. Бинаризированный выход мы можем развернуть и обратно получить звук, таким образом убедившись что мы ничего не потеряли.
п1 и п2 - вместе отвечают принципу МДО (минимально-достаточного описания)…]

1. Вовсе не является ни желательным, ни необходимым
2. Обратимость с неконтролируемыми потерями спокойно может привести вас к выбрасыванию существенного с точки зрения предполагаемой вами задачи
3. Принцип МДО – муть голубая

[…Всякие мысли:

Все эти мысли пришли мне в голову пока я ехал в метро, и мне захотелось вдруг придумать/сформулировать фильтр который бы мог работать и на п1 и на п2 и на п3.
(АЦП + частотный + дифференцирующий)
Тогда получается 3 слоя из одинаковых фильтров.
Как-будто на каждый слой насыпали 1000-и похожих фильтров, и объединили в 3 слоя…]

Растущие сети типа Гладуновских что-то похожее делают на автомате
Ну а если их вовремя подправлять, то вообще, вроде, нет проблем

[…Теперь остается неясным как в слое 1 они организовываются таким образом чтобы слышать диапазон от 50гц до 20000г, как в слое 2 они организовываются в шкалы Мела, а как в слое 3 они организовываются таким образом чтобы выявить магическое tau.
Возможно это результат эволюции и генетическая обусловленность (похлопаем генетическим алгоритмам), но возможно тут есть естественная природная целевая функция, которая определяет эту самоорганизацию…]

С правильным учителем и не такое возможно

[…Предположительно, целевая функция определяется по следующим принципам:
1. Энергоэффективность
2. Свято-место пусто не бывает (см п1.энергоэффективность)

Приведу пример как п1.энергоэффективность и п2. который тоже энергоэффективность работает для самоорганизации в экономике:
Молодой человек хочет зарабатывать деньги…
Второй молодой человек выжил… Он начинает развивать свой бизнес и открывает что-то еще. … главное что он использует свой навык который, как он думает, позволил ему добится успеха.

Есть пример энергоэффективности?…]

Уже предлагал вам попробовать найти с Коваксом общий язык
Очень удивитесь и порадуетесь

[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 10:02
Цитата:
Попробовал визуализировать фонетическую функцию Пирогова в каждом кадре:
P(w,t)=Lg(S(w,t)/S(w,tau))
Чета не вдохновляет...
Зато с Mel-шкалой вышло здорово. Опять к ней вернулся и правильно выбрал частоты. Получается здорово: говорю басом - проигрываю голосом робота. Говорю-тенором - проигрываю тем же голосом робота. Это инвариант.

А что говорят цифры и графики? Попробуйте хотя-бы в мат-кад загнать матрицу для вывода графика. Слух - довольно необычный инструмент. В нем "слепых зон" больше чем в глазу. Чем кстати нагло пользуется MP3. Попробуйте оценить инвариантность в цифрах хотя-бы на глаз(типа 42% совпадения). Инвариант - это класно, но на какие характеристики вы планируете натравить распознавалку и как? У Вас есть 3Д (или даже о-ужас 2Д) график с относительно инвариантными характеристиками (Вы еще не проверяли чужие голоса - попробуйте женский или детский). Причем (зная Ваши прошлые нарабоки) скорее всего это наборы "нарезаных кадров". Это равносильно имея километровые черно-белые аэро-фотонимки ланшафта определить что за город или континент под нами...
[Ответ][Цитата]
vchc
Сообщений: 194
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 10:22
Цитата:
Автор: Артем
Здается вы меня не узнали vchc, пол года назад пробовал вместе с вами и prof1983.
Бросил, не почувствовал поддержки. Все-таки берут готовое чтобы обязательно добиться успеха и денег заработать.
Я изобретают свое - для души.


Наоборот, Артём, за форумом я достаточно хорошо слежу вот и решил узнать в какую сторону ваша душа летит ) Буду дальше наблюдать. Человеческая душа штука тёмная. Лучше с ней не связываться )
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 10:24
Slava спасибо за пост, чувствуется что вы поняли.
Придется сделать выжимку из вашего поста.

А.П.Петров, Г.М.Зенкин. Анализ изображения, применяемый в модели, обучающейся узнаванию зрительных образов. Труды III Всесоюзной конференции по информационно-поисковым системам и автоматизированной обработке научно-технической информации. Москва, ВИНИТИ, ч.3, стр.187-195, 1967.
Г.М.Зенкин, А.П.Петров. Система анализа изображений и узнавание объектов на сложном фоне. Биофизика, 12, вып.3, 1967.

Растущие сети типа Гладуновских

Ковакс - это человек на форуме? сейчас я не готов пока.

Про принцип МДО: - значит стремится к минимальному, но все еще достаточное описание.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 10:36
Писать посты интересно и как-то быстрее чем программу писать.
Приходится на Delphi, чтобы c Kek-ом совпадать.
И нет возможности выложить это все без Kek-а.
Но вот картинка. Рассчет фильтров.
Ссылка живет 3 дня всего ...
https://securisync.intermedia.net/IMWeb/s/nVXOWf9ew5CmK2aEXhfW8A
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 10:53
А собственно чего я...
Вот exe и исходник.
https://securisync.intermedia.net/IMWeb/s/Ww7s4A-IbxKOjjDz06V68g
Хотя программа вобщем ничего не делает.
Статистику она не собирает - а просто копирует файлы в другую папку, попутно открывая их для анализа. Рассчет фильтров - может быть полезен.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 10:54
Цитата:
Автор: Артем

Ковакс - это человек на форуме? сейчас я не готов пока.


Помню ушами
м.б., Covax
Да, здесь появляется изредка
Толковый
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 11:40
Цитата:
Автор: vchc
Наоборот, Артём, за форумом я достаточно хорошо слежу вот и решил узнать в какую сторону ваша душа летит ) Буду дальше наблюдать. Человеческая душа штука тёмная. Лучше с ней не связываться )


ладно не обижайтесь. Форум - он такой, пытаешься в двух словах что-то сказать, а получается обидел человека ...
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 10 авг 13 13:16
В вот еще версия программы.
Тоже рассчет фильтров.
НО КОМПЛЕКСНЫХ !!!!
https://securisync.intermedia.net/IMWeb/s/ckAlhBOsP1GpRYMWwYNnIQ

Итак. Что такое комплексный полосовой фильтр?
Имеем 2*n+1 вещественных коэффициента фильтра и 2*N+1 мнимых коэффициента фильтра.
В произвольный момент времени вычисляем свертку сигнала с вещественными коэффициентами (R) и в тот же момент времени свертку сигнала с мнимыми коэффициентами (I)
И получаем мгновенную мощность в полосе P = R*R+I*I.

Это избавляет нас от усреднений по времени !!!
(кстати интересно как универсальный алгоритм мог бы обучится комплексным фильтрам? но это так заметка себе на будущее)
[Ответ][Цитата]
 Стр.46 (78)1  ...  42  43  44  45  [46]  47  48  49  50  ...  78<< < Пред. | След. > >>