GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.54 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Зри в корень!
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 11:13
Цитата:
Автор: Slava
и считаете, что все сводится к статистической обработке на уровне корреляций.

Нет, Слава, я так не считаю и осознаю, что все гораздо сложнее. Переход от распознавалки к агенту как раз реализует часть этой сложности.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 11:27
Цитата:
Автор: Kek


Нет, Слава, я так не считаю и осознаю, что все гораздо сложнее. Переход от распознавалки к агенту как раз реализует часть этой сложности.


А пару слов про то, что будет делать этот агент, не могли бы сказать
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 12:39
Цитата:
Автор: Slava
А пару слов про то, что будет делать этот агент, не могли бы сказать

Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 12:55
Цитата:
Автор: Kek


Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.


Понятно
Надеюсь, какое-то время я это буду помнить
Удачи
[Ответ][Цитата]
covax
Сообщений: 1609
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 19:45
Цитата:
Автор: Slava
а у нас - сборная солянка - варианты Си, Паскаль, Дельфи и Питон, наконец
кстати, в последней системе Си с Питоном вполне уживаются


Считаю, что Java более пригоден для создания поделок "на коленке" с Web или GUI интерфейсом. На данный момент, Java-машина может работать в большинстве операционных систем, а следовательно и в устройствах любого назначения, масштаба и производительности. Другие языки этим похвастаться не могут.
Против связки Си-Питон ничего не имею, но она не настолько комфортна для стандартного пользователя, чем Java.
[Ответ][Цитата]
Vpolevoj
Сообщений: 1408
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 22:22
Цитата:
Автор: Kek
Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.

Kek, я не вижу "поиска новизны".
Сменилась парадигма?
Или всего лишь сместилась цель (целевая функция)?
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 22:25
Цитата:
Автор: Kek


Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.

Дорогой Кек. В той парадигме, которую вы выстроили в своем программном документе, ваши пожелания нереализуемы.
Во-первых, вы никак не реагируете на возможные побочные помехи в приемном канале (а они будут обязательно).
Во-вторых, пытаясь скопировать человека, вы упускаете то, что ему присуще изначально - это его речевой тракт. В нем уже изначально "настроены" нужные форманты гласных и спектральные плотности шипящих, антиформанты носовых и траектории скольжения формант при коартикуляции, и прочая, и прочая. Человеку остается только этим воспользоваться. Вы изучали инязык? При прослушивании незнакомых слов, мышцы рта "сами" пытаются встать в оптимальное положение для копирования. А у вас что? Лента ФФТ со спектральным хаосом, откуда нужно вычленить некий ансамбль спектральных "палок", который достоверно будет закреплен за некоей фонемой. И впоследствии его же применить для синтеза речи. Но вы не застрахованы от появления фантастических, невозможных формант (что исключено у человека), и их взаимоотношений при говорении.

Так что амбиции ваши похвальны, но свой труд вы смоете в унитаз, если не попытаетесь взглянуть на эту проблему шире.
Извините, если резко вышло.
С уважением, D
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 0:24
Цитата:
Автор: covax



Считаю, что Java более пригоден для создания поделок "на коленке" с Web или GUI интерфейсом. На данный момент, Java-машина может работать в большинстве операционных систем, а следовательно и в устройствах любого назначения, масштаба и производительности. Другие языки этим похвастаться не могут.
Против связки Си-Питон ничего не имею, но она не настолько комфортна для стандартного пользователя, чем Java.


Спасибо, но у нас команда - тоже сборная солянка, так что коллеги пишут на том, что им привычно и удобно. Ну а для лабораторных исследований это не так уж и важно
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 2:00
Все таки рекомендую всем посетить страницу
http://webaudiodemos.appspot.com/
и проверить ВСЕ примеры.

Я в код JavaScript еще не смотрел, но верю что там много интересного.
Я просто балдею от http://webaudiodemos.appspot.com/Vocoder/index.html#

А вот инструкция как это все делать :
http://webaudiodemos.appspot.com/slides/index.html#/

У меня на работе все примеры работают, дома - не работает ввод звука с микрофона,
Они пишут что это с USB микрофонами может быть, у меня дома ноутбук.
Они пишут что в Chrome Canary - эта проблема исправлена.

Отпишитесь у кого что не работает?
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 3:28
Немного разобрался с исходниками javascript
http://webaudiodemos.appspot.com/Vocoder/index.html#

Вобщем они встроили в хром преобразование фурье,
а также сущность Нода. Например микрофон - это нода.
Срабатывают события по мере заполнения буффера и мы можем что-то делать с этим буффером.
например соеденить ноду микрофон с нодой преобразования фурье.
Размер фурье - задается степень двойки (БПФ), и получаем события с результатом БПФ в комплексном виде. Берем комплексный модуль - имеем спектр.

Как работает вокодер? На основе спектра строим 28 (параметр) полос.
Полосы - это ноды полосовых фильтров.
Есть нода шум и нода синус. Соеденяем ноду шум и ноду синус со всеми нодами фильтров,
а все ноду-фильтры соединяем с выводом на динамики.

И по событиям (кадрам) изменяем gain - фильтров.

Вобщем все то что сделал KEK.
Можно добавить только нелинейность полос.

И главное это все работает ОЧЕНЬ быстро, ибо БПФ и микширование в недрах хрома выполняется,

[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 3:42
2 Vpolevoj
Новизна будет работать так. Произносится слово. Через N-повторов память кадров говорит, что ничего нет нового, все кадры уже были. Тогда по этому факту создается память следующего уровня (сочетание 2-х кадров) и теперь она отслеживает факт отсутствия новизны. Есть и другая сторона медали. Если в потоке много шума, то новизна существует долго. Здесь надо задать пока априорное значение размера памяти и сформировать критерий. Его действие будет направлено на оптимизацию параметров. В моем случае необходимо уменьшить коэффициент корреляции. Это загрубление входного потока. Вот вам и регуляторы процесса. И это уже работает.

2 dr2chek
"вы никак не реагируете на возможные побочные помехи в приемном канале". Читайте мой ответ выше для Vpolevoj. "Фантастические форманты" статистически маловероятны. Да они будут, кто-то дверью хлопнул, например. Не вижу пока трудности.
Да, и вообще, реально я не добрался пока до формирования формант, только-только подхожу. И здесь надо крепко подумать, так как алгоритм анализа кадров слишком прост для анализа формант. Здесь надо другое. И Виктор Казаринов, например, в разговоре со мной указал на онтологический метод. Я говорил об этом. Суть в том, что элементом онтологии должны являться абстрактные множества, а не просто слова и предложения, как это сейчас делается в онтологических редакторах.
"Так что амбиции ваши похвальны, но свой труд вы смоете в унитаз, если не попытаетесь взглянуть на эту проблему шире."
Дорогой dr2chek. "Широту" своих взглядов я излагал в статьях и просто в постах. Но это мало кого заводит. Я специально "опустился" в конкретику и отвечаю на конкретные вопросы. При этом не забываю концепт. Ну, и скажите мне куда мне надо смотреть из этой точки? В чем может выражаться "широта" подхода? И как она может влиять на устроительство алгоритмов? Я считаю, что тормоз как раз в излишнем осознании широты. Синдром Козмы Пруткова, который говоит, что нельзя объять необъятное. И вот пока исследователи готовят "раздвижные руки" для широты захвата я намерен сделать основу.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:29
Цитата:
Автор: Kek

Читайте мой ответ выше для Vpolevoj.

Ну это понятно (даже тривиально, если хотите). А как ваша система будет реагировать на, предположим, пение на фоне музыки. Ладно, не пение, пусть даже чтец будет говорить, а фоном музыка?
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:41
Цитата:
Автор: dr2chek
Ну это понятно (даже тривиально, если хотите). А как ваша система будет реагировать на, предположим, пение на фоне музыки. Ладно, не пение, пусть даже чтец будет говорить, а фоном музыка?

Говорю честно - не знаю.
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:46
Цитата:
Автор: Kek
Говорю честно - не знаю.

А вдруг поможет что-то прояснить...
http://www.gotai.net/forum/default.aspx?postid=80372#80372

Сейчас Вы сами "придумываете" алгоритмы "распознавания"/"кластеризации". Но эти алгоритмы "придумывать" должен автомат. Т.к. их может быть очень много и для разных ситуаций. Как я уже не раз писал, трудно рассчитывать на один-два (малое количество) - пригодных для "всех" случаев. А если их придумывать самому, то это еще менее вероятно. А вот "особый" автомат, даже с учетом того, что обезьяна не может написать "Войну и мир", вполне вероятно...
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:48
Цитата:
Автор: Kek


Говорю честно - не знаю.

Это и было примером на мое предложение "смотреть шире на проблему".
[Ответ][Цитата]
 Стр.54 (78)1  ...  50  51  52  53  [54]  55  56  57  58  ...  78<< < Пред. | След. > >>