GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.54 (78)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Проект Sound-Agent. Зри в корень!
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 11:13
Цитата:
Автор: Slava
и считаете, что все сводится к статистической обработке на уровне корреляций.
Нет, Слава, я так не считаю и осознаю, что все гораздо сложнее. Переход от распознавалки к агенту как раз реализует часть этой сложности.
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 11:27
Цитата:
Автор: Kek
Нет, Слава, я так не считаю и осознаю, что все гораздо сложнее. Переход от распознавалки к агенту как раз реализует часть этой сложности.
А пару слов про то, что будет делать этот агент, не могли бы сказать
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 12:39
Цитата:
Автор: Slava
А пару слов про то, что будет делать этот агент, не могли бы сказать
Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 12:55
Цитата:
Автор: Kek
Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.
Понятно
Надеюсь, какое-то время я это буду помнить
Удачи
[
Ответ
][
Цитата
]
covax
Сообщений: 1609
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 19:45
Цитата:
Автор: Slava
а у нас - сборная солянка - варианты Си, Паскаль, Дельфи и Питон, наконец
кстати, в последней системе Си с Питоном вполне уживаются
Считаю, что Java более пригоден для создания поделок "на коленке" с Web или GUI интерфейсом. На данный момент, Java-машина может работать в большинстве операционных систем, а следовательно и в устройствах любого назначения, масштаба и производительности. Другие языки этим похвастаться не могут.
Против связки Си-Питон ничего не имею, но она не настолько комфортна для стандартного пользователя, чем Java.
[
Ответ
][
Цитата
]
Vpolevoj
Сообщений: 1408
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 22:22
Цитата:
Автор: Kek
Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.
Kek
, я не вижу "поиска новизны".
Сменилась парадигма?
Или всего лишь сместилась цель (целевая функция)?
[
Ответ
][
Цитата
]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 17 сен 13 22:25
Цитата:
Автор: Kek
Sound - Агент должен говорить, то что он распознал. А учитель должен его похвалить. А память событий это должна запомнить.
Дорогой Кек. В той парадигме, которую вы выстроили в своем программном документе, ваши пожелания нереализуемы.
Во-первых, вы никак не реагируете на возможные побочные помехи в приемном канале (а они будут обязательно).
Во-вторых, пытаясь скопировать человека, вы упускаете то, что ему присуще изначально - это его речевой тракт. В нем уже изначально "настроены" нужные форманты гласных и спектральные плотности шипящих, антиформанты носовых и траектории скольжения формант при коартикуляции, и прочая, и прочая. Человеку остается только этим воспользоваться. Вы изучали инязык? При прослушивании незнакомых слов, мышцы рта "сами" пытаются встать в оптимальное положение для копирования. А у вас что? Лента ФФТ со спектральным хаосом, откуда нужно вычленить некий ансамбль спектральных "палок", который достоверно будет закреплен за некоей фонемой. И впоследствии его же применить для синтеза речи. Но вы не застрахованы от появления фантастических, невозможных формант (что исключено у человека), и их взаимоотношений при говорении.
Так что амбиции ваши похвальны, но свой труд вы смоете в унитаз, если не попытаетесь взглянуть на эту проблему шире.
Извините, если резко вышло.
С уважением, D
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 0:24
Цитата:
Автор: covax
Считаю, что Java более пригоден для создания поделок "на коленке" с Web или GUI интерфейсом. На данный момент, Java-машина может работать в большинстве операционных систем, а следовательно и в устройствах любого назначения, масштаба и производительности. Другие языки этим похвастаться не могут.
Против связки Си-Питон ничего не имею, но она не настолько комфортна для стандартного пользователя, чем Java.
Спасибо, но у нас команда - тоже сборная солянка, так что коллеги пишут на том, что им привычно и удобно. Ну а для лабораторных исследований это не так уж и важно
[
Ответ
][
Цитата
]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 2:00
Все таки рекомендую всем посетить страницу
http://webaudiodemos.appspot.com/
и проверить ВСЕ примеры.
Я в код JavaScript еще не смотрел, но верю что там много интересного.
Я просто балдею от
http://webaudiodemos.appspot.com/Vocoder/index.html#
А вот инструкция как это все делать :
http://webaudiodemos.appspot.com/slides/index.html#/
У меня на работе все примеры работают, дома - не работает ввод звука с микрофона,
Они пишут что это с USB микрофонами может быть, у меня дома ноутбук.
Они пишут что в Chrome Canary - эта проблема исправлена.
Отпишитесь у кого что не работает?
[
Ответ
][
Цитата
]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 3:28
Немного разобрался с исходниками javascript
http://webaudiodemos.appspot.com/Vocoder/index.html#
Вобщем они встроили в хром преобразование фурье,
а также сущность Нода. Например микрофон - это нода.
Срабатывают события по мере заполнения буффера и мы можем что-то делать с этим буффером.
например соеденить ноду микрофон с нодой преобразования фурье.
Размер фурье - задается степень двойки (БПФ), и получаем события с результатом БПФ в комплексном виде. Берем комплексный модуль - имеем спектр.
Как работает вокодер? На основе спектра строим 28 (параметр) полос.
Полосы - это ноды полосовых фильтров.
Есть нода шум и нода синус. Соеденяем ноду шум и ноду синус со всеми нодами фильтров,
а все ноду-фильтры соединяем с выводом на динамики.
И по событиям (кадрам) изменяем gain - фильтров.
Вобщем все то что сделал KEK.
Можно добавить только нелинейность полос.
И главное это все работает ОЧЕНЬ быстро, ибо БПФ и микширование в недрах хрома выполняется,
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 3:42
2 Vpolevoj
Новизна будет работать так. Произносится слово. Через N-повторов память кадров говорит, что ничего нет нового, все кадры уже были. Тогда по этому факту создается память следующего уровня (сочетание 2-х кадров) и теперь она отслеживает факт отсутствия новизны. Есть и другая сторона медали. Если в потоке много шума, то новизна существует долго. Здесь надо задать пока априорное значение размера памяти и сформировать критерий. Его действие будет направлено на оптимизацию параметров. В моем случае необходимо уменьшить коэффициент корреляции. Это загрубление входного потока. Вот вам и регуляторы процесса. И это уже работает.
2 dr2chek
"вы никак не реагируете на возможные побочные помехи в приемном канале". Читайте мой ответ выше для Vpolevoj. "Фантастические форманты" статистически маловероятны. Да они будут, кто-то дверью хлопнул, например. Не вижу пока трудности.
Да, и вообще, реально я не добрался пока до формирования формант, только-только подхожу. И здесь надо крепко подумать, так как алгоритм анализа кадров слишком прост для анализа формант. Здесь надо другое. И Виктор Казаринов, например, в разговоре со мной указал на онтологический метод. Я говорил об этом. Суть в том, что элементом онтологии должны являться абстрактные множества, а не просто слова и предложения, как это сейчас делается в онтологических редакторах.
"Так что амбиции ваши похвальны, но свой труд вы смоете в унитаз, если не попытаетесь взглянуть на эту проблему шире."
Дорогой dr2chek. "Широту" своих взглядов я излагал в статьях и просто в постах. Но это мало кого заводит. Я специально "опустился" в конкретику и отвечаю на конкретные вопросы. При этом не забываю концепт. Ну, и скажите мне куда мне надо смотреть из этой точки? В чем может выражаться "широта" подхода? И как она может влиять на устроительство алгоритмов? Я считаю, что тормоз как раз в излишнем осознании широты. Синдром Козмы Пруткова, который говоит, что нельзя объять необъятное. И вот пока исследователи готовят "раздвижные руки" для широты захвата я намерен сделать основу.
[
Ответ
][
Цитата
]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:29
Цитата:
Автор: Kek
Читайте мой ответ выше для Vpolevoj.
Ну это понятно (даже тривиально, если хотите). А как ваша система будет реагировать на, предположим, пение на фоне музыки. Ладно, не пение, пусть даже чтец будет говорить, а фоном музыка?
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:41
Цитата:
Автор: dr2chek
Ну это понятно (даже тривиально, если хотите). А как ваша система будет реагировать на, предположим, пение на фоне музыки. Ладно, не пение, пусть даже чтец будет говорить, а фоном музыка?
Говорю честно - не знаю.
[
Ответ
][
Цитата
]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:46
Цитата:
Автор: Kek
Говорю честно - не знаю.
А вдруг поможет что-то прояснить...
http://www.gotai.net/forum/default.aspx?postid=80372#80372
Сейчас Вы сами "придумываете" алгоритмы "распознавания"/"кластеризации". Но эти алгоритмы "придумывать" должен автомат. Т.к. их может быть очень много и для разных ситуаций. Как я уже не раз писал, трудно рассчитывать на один-два (малое количество) - пригодных для "всех" случаев. А если их придумывать самому, то это еще менее вероятно. А вот "особый" автомат, даже с учетом того, что обезьяна не может написать "Войну и мир", вполне вероятно...
[
Ответ
][
Цитата
]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Зри в корень!
Добавлено: 18 сен 13 4:48
Цитата:
Автор: Kek
Говорю честно - не знаю.
Это и было примером на мое предложение "смотреть шире на проблему".
[
Ответ
][
Цитата
]
Стр.54 (78)
:
1
...
50
51
52
53
[54]
55
56
57
58
...
78
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net