GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.53 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Зри в корень!
antol
Сообщений: 370
На: Проект Sound-Agent. Зри в корень!
Добавлено: 16 сен 13 11:27
В противовес Delphi для демонстраций я выбираю HTML и JavaScript. В этой среде нет exe-шников и нужен только браузер.
Сейчас я строю реализацию игры Х-О в которой ограниченное игровое поле реализуется конечной базовой частотной выборкой
На каждом ходе партии в данные вносятся изменения, и мне интересно видеть что при этом появляется на спектральном плане.

Я копался в вашем тексте, но не обнаружил функций с именами претендующими на БПФ.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 16 сен 13 11:48
Цитата:
Автор: antol
Я копался в вашем тексте, но не обнаружил функций с именами претендующими на БПФ.

Посмотрите эту статью.
Надо окрыть модуль UnitDFT

procedure TDFT.Create_SinCos; - здесь создаем синусы и косинусы
kmax - количество спектральных линий
nmax - число отсчетов функции, котоую мы хотим преобразовать в спектр.

Function TDFT.ReDFTQ (kg:integer):real;
Function TDFT.ImDFTQ (kg:integer):real;
Функции, которые вычисляют действительную и мнимую компоненту.
В них fdata[n] - массив из n отсчетов функции
В модуле UnitMain
procedure TForm1.CreateSpectr; - здесь вызов этих функций и формирование
амплитуд спектральных сосавляющих
for k:=0 to DFT_kmax-1 do
begin
Re:=DFT.ReDFTQ(k);
Im:=DFT.ImDFTQ(k);
Ampl:=Sqrt(Re*Re+Im*Im);
.........

А вот у меня вопрос. Можно ли на JavaScript-е получить данные с микрофона на клиентской части?
Причем желательно кроссбраузерно.
[Ответ][Цитата]
antol
Сообщений: 370
На: Проект Sound-Agent. Зри в корень!
Добавлено: 16 сен 13 12:13
спасибо. посмотрю
.....
должно быть можно - можно погуглить
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 1:15
А вот у меня другой кризис...

Дома перед сном есть минут 20-30, но нормальный ноутбук жена забрала, а ноут с убитым HDD - жутко тормозит. Нет пока денег починить, особенно если учесть что его не чинить надо а выкинуть просто ...
На работе с утра минут 30 есть.
Дома Delphi-пиратка, на работе C# - лицензионка. Т.е. дома мне не охота ставить пиратку VisualStudio, а на работе пиратку Delphi - вообще нельзя.

Вот и думаю, то-ли на Java то-ли на JavaScript переехать с этим проектом.
К Java можно будет в последствии прикрутить вызов библиотеки Intel Perfomance Primitives чтобы делать БПФ, фильтры, матрицы и т.д. со скоростью света. Для исследовательских целей - лицензия бесплатна.

JavaScript - реально тормоз. Я давно слежу за развитием HTML5 и броузера Хром.
Пол-года назад по инструкции я так и не смог получить доступ к сигналу с микрофона даже с Chrome-dev версии.
Может поселедняя версия наконец заработала?

Подскажет кто на какой язык переехать?

А может заказать виртуалку на селектеле и сразу делать все в сетевом-распределенном варианте под линуксом? Боюсь пока все настрою до ИИ дела не дойдет ...
С другой стороны на виртуалке можно держать web-frontend и базу данных, а это позволяет легче организовать коллаборацию.
Т.е. к результатам черновой обработки легче применить любой алгоритм ИИ.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 2:40
Я как обычно сам спросил - сам ищу ответ.
Только Chrome:
http://webaudiodemos.appspot.com/
http://webaudiodemos.appspot.com/input/index.html ! то что доктор прописал!
http://webaudiodemos.appspot.com/AudioRecorder/index.html
У меня в Хроме 29 работает. Хотя я точно не помню, может я вручную разрешал доступ к Media Api. Если не работает можно глянуть сюда chrome://flags
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 3:32
Цитата:
Автор: Артем
Я как обычно сам спросил - сам ищу ответ.

Артем, я думал относительно сетевой версии и считаю, что можно сделать так.
Клиентская часть может содержать резидентный модуль для передачи данных серваку. Она же может делать и некую предобработку. Пока не вышел HTML5, это вполне себе решение. Сервачная часть основная только на PHP. Для реализации этой структуры есть все. Можно мой хостер использовать, можно найти чего-нибудь иное.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 3:37
Скорее клиентом сделать броузер Хром с javascript-ом.
Я же написал что вроде все уже работает как надо.
А на сервере php + БД.
[Ответ][Цитата]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 4:41
Цитата:
Артем, я думал относительно сетевой версии и считаю, что можно сделать так.
Клиентская часть может содержать резидентный модуль для передачи данных серваку. Она же может делать и некую предобработку. Пока не вышел HTML5, это вполне себе решение. Сервачная часть основная только на PHP. Для реализации этой структуры есть все. Можно мой хостер использовать, можно найти чего-нибудь иное.

А зачем? Клиент-серверное решение стоит делать когда хоть что-то локально заработает... Сервер ничем не будет отличатся от гугл-рапознавалки... Туда уходит звук или FFT-лента. Возращается текст, и куча системной инфы...
Язык программирования тоже не советую "на лету" менять. Делфи-Си-PHР-Питон... Напишите, получите результат - тогда переводите. Даже на сервер на стадии отладки можно делфи-программу-сервер поставить. Клиент можно написать и на яваскрипт к хрому. Можно выполнить в виде ява-аплета или утилитки врод скайпа
[Ответ][Цитата]
antol
Сообщений: 370
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 5:34
Цитата:
Автор: Kek

Манипуляция коэффициентом корреляции напоминает мне следующую аналогию. Скажите ребенку 3-х лет:" Скажи слово "кластеризация". Он повторит что-то вроде "а-ци". Я это проделывал с внучкой. Просто ее коэф корреляции 0.7. Малый коэф сглаживает неоднородности. И похоже, что манипуляция этим коэфом должна быть адаптивной. Все это можно наблюдать в программе.
Аналогия, на мой взгляд, совершенно пустая.
Зачем здесь что-то выдумывать? Все же известно.
Для русского языка кластеризация осуществляется базисным набором звуков гласных, согласных. Звуки - суть те же буквы.
Гласные звуки определяются конкретными частотами двух первых формант, производимых речевым аппаратом, представляющего собой трубку с перемычкой.

В случае ребенка имеем всего лишь не развитость речевого аппарата, но с возрастом это исправится.

И все же я нахожусь в полном не понимании предмета ваших поисков.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 6:24
Цитата:
Автор: Tester64
Язык программирования тоже не советую "на лету" менять. Делфи-Си-PHР-Питон... Напишите, получите результат - тогда переводите. Даже на сервер на стадии отладки можно делфи-программу-сервер поставить. Клиент можно написать и на яваскрипт к хрому. Можно выполнить в виде ява-аплета или утилитки врод скайпа


У меня затык с невозможностью продолжать на Delphi.
И коллаборации не получается.

А суть поисков - NIH. Not invented here. :-)

[Ответ][Цитата]
covax
Сообщений: 1609
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 9:06
Цитата:
Автор: Артем
Вот и думаю, то-ли на Java то-ли на JavaScript переехать с этим проектом.


Java, однозначно!
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 10:31
Цитата:
Автор: covax



Java, однозначно!


а у нас - сборная солянка - варианты Си, Паскаль, Дельфи и Питон, наконец
кстати, в последней системе Си с Питоном вполне уживаются
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 10:39
Цитата:
Автор: antol
И все же я нахожусь в полном не понимании предмета ваших поисков.

Пожалуй если я найду предмет своего поиска, только тогда это и будет понятно многим. Если не найду, это останется в притчах и статьях. Хотя есть люди, которым понятно. И если б не они, я бы полагал, что я шизофреник конченный, который двух слов связать не может.
Попробую кратко сказать без философских заморочек.
Речевой поток разбивается системой на элементарные единицы. Такой единицей является кадр с параметрами: длительность 20 мс, содержание - амплитуды 20-ти частот. Априори в этом потоке содержаться классы или кластеры, состоящие из групп кадров. Следующим по иерархии кластером является фонема.
Задача №1: построить систему, которая на основе статистической обработки выделит фонемы из потока. Критерием того, что данное сообщество кадров является фонемой определяется частотой появления данных сообществ. При этом очевидно, что если мы хотим увидеть этот процесс за приемлемый срок, то надо говорить одно и то же слово. Но это необязательное требование. Важным является так же описание множеств или сообществ, которые являются фонемами. Очевидно, что фонемы в некотором своем разнообразии (разные дикторы, разные интонации) будут занимать в памяти много кадров. Одна фонема будет описываться к примеру сотнями вариантов сочетаний кадров. Надо еще придумать как системе дать знать, что эти варианты относятся к одной фонеме. Если это будет учитель, то это один путь. Но можно подумать и о неком ином пути, так же статистическом, который бы основывался на иных характеристиках потока, таких как например огибающая с характерными локальными максимумами.
Задача №2: Построить такую же логику с фонемами. В данной ситуации сообществами фонем будут слова. И хорошо бы ничего не менять в алгоритме, а просто изменить входные данные.

Это и есть предмет «ловли». Если кто-то считает, что это все элементарно и очевидно для статистической обработки, то мне нечего сказать. Добавлю только, что это все задачи, лежащие на поверхности. В дальнейшем необходимо выработать очевидные критерии перехода системы от анализа кадров к анализу фонем, и от анализа фонем к анализу множества фонем (слов) . Таким критерием в моем случае является отсутствие новизны поступающей информации от потока. И это пока работает. В дальнейшем так же хочется ввести в систему не только память, элементами которой являются непосредственные данные от потока, но и память событий. И формализовать эти новые данные, а так же подвергнуть их такой же алгоритмике с накоплением и анализом частоты повторения. И здесь надо заметить, что событиями могут быть как внешние изменения (увеличился период следования слов, молчание), так и внутренние, произведенные системой (изменился коэффициент корреляции, увеличилась частота множества №21212323). Вот тогда это будет агент, а не галимая распознавалка.
Пардон, кратко не получилос...
[Ответ][Цитата]
гость
78.25.120.*
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 10:40
>> Скажите ребенку 3х лет: 'Скажи "кластеризация"'. Он повторит что-то вроде "а-ци".
> Аналогия, на мой взгляд, совершенно пустая.

психофиологически тут речь идет о работе фонологической петли, т.е. о работе автоассоциативной памяти аудиального буфера.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 11:02
Цитата:
Автор: Kek

Пожалуй если я найду предмет своего поиска, только тогда это и будет понятно многим. Если не найду, это останется в притчах и статьях. Хотя есть люди, которым понятно. И если б не они, я бы полагал, что я шизофреник конченный, который двух слов связать не может.


Мне кажется, что вы давно уже подошли к тому, чтобы заняться обучением распознаванию, только не хотите этого осознать и считаете, что все сводится к статистической обработке на уровне корреляций. В частности, вы вот говорили о своей малышке. Вспомните, как она учит язык. Это сильно поможет вам в работе
[Ответ][Цитата]
 Стр.53 (78)1  ...  49  50  51  52  [53]  54  55  56  57  ...  78<< < Пред. | След. > >>