GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.73 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Звенящая пустота.
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 3:00
Цитата:
Автор: гость

Тут как раз был бы еще уместен разговор об особеностях коартикуляции
(когда контекст существенно изменяет спектрограмму того или иного фонетического
элемента). Какого рода тут трудности (если они есть) - ведь ассортимент коаритикуляционых эффектов все-таки ограничен, изменения характерны, можно провести
типологию эффектов - естественная коартикуляция, коартикуляция при дефектах голосового
тракта, при дефектах ротовой полости, при артикуляционных патологиях, при разных вариантах намеренного коверкания и интонирования голоса.. можно провести типологические
исследования, выявить типовые особенности, посмотреть влияние уровня зашумленности
сигнала на распознавание его структуры (вариабельной). Расширить соотв. образом базовый ассортимент фонетических элементов, настроить работу распознавателей с расширенным 'алфавитом' (особенно в режиме сочетания анализа снизу с анализом сверху)..

Да уж, формулировать задания вы умеете... Здесь на целый институт работы хватит
Хотелось бы сузить задачу, чтобы коммерциализировать её ещё при жизни исполнителя
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 3:07
Цитата:
Автор: гость

cкажем, можно отметить сам факт ухода плотности энергии сигнала за нижнюю границу
окна анализа.

Проблема в том, что голова инерционна, и "ухватив" начало слова, скажем, она тут-же "дорисовывает" его конец, и ещё пару последующих слов в придачу... пока звучание этого слова ещё и не закончилось. Как-то слабо просматриваются работающие решения для таких типичных условий.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 3:13
Цитата:
Автор: гость

распознавание цепочек - бишь не поточечно обязательно, а по относительным (вторичным)признакам. Инварианты могут быть заданы и на третичных признаках.

Поэтому и ввели термин "локус" для траекторий формант, кстати.
[Ответ][Цитата]
Toxygen
Сообщений: 521
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 3:21
Цитата:
Автор: dr2chek
Проблема в том, что голова инерционна, и "ухватив" начало слова, скажем, она тут-же "дорисовывает" его конец, и ещё пару последующих слов в придачу... пока звучание этого слова ещё и не закончилось. Как-то слабо просматриваются работающие решения для таких типичных условий.

В иерархальной памяти (HTM) такая проблема решается. Нейроны, видя, что активировалась определенная группа нейронов переходят в состояние ожидания/предсказания, что в последующие шаги активируются именно они.
[Ответ][Цитата]
гость
78.25.123.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 3:26
ну, в общем-то, инварианты на третичных признаках будут естественным образом нелокальны
(по отношению к нижелещим 'метрологическим' пространствам). Да, формантная траектория
локализована (в интервале частот).

Интересны подходы, которые явно учитывают нестационарность сигнала и ограниченность линейных техник разложения - тот же вайвлет анализ. Тут уже базовая локализация будет
интервальной в двумерном смысле. И это повышает возможности анализа (и синтеза).
[Ответ][Цитата]
Luarvik.
Сообщений: 17287
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 6:29
Цитата:
Автор: dr2chek
Т.о., г-н Лаврик, отважно защищающий границу 300Гц, сделал большие глаза и сдулся, не желая позориться прилюдно.

Отнюдь - я не хотел прилюдно... позорить Вас
Человеческий аппарат распознавания способен продуктивно действовать и в более узких границах, без всяких... "метрологий".
[Ответ][Цитата]
гость
78.25.122.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 7:28
ой, а тут осторожненько - ведь и метрические пространства индуцируют топологии..
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 8:02
Цитата:
Автор: гость

ну, в общем-то, инварианты на третичных признаках будут естественным образом нелокальны
(по отношению к нижелещим 'метрологическим' пространствам). Да, формантная траектория
локализована (в интервале частот).

Я имел в виду другое - о "локусах формант", которые описывают положение стационарной гласной в условиях его искажения от коартикулиции соседних фонем. Есть статейки на эту тему.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 8:11
Цитата:
Автор: гость

Интересны подходы, которые явно учитывают нестационарность сигнала и ограниченность линейных техник разложения - тот же вайвлет анализ. Тут уже базовая локализация будет
интервальной в двумерном смысле.

Не исключено!
Я бы хотел поработать и с вейвлетами, что-то в них есть такое "природное", но пока мне кажется, что и из старой доброй цифровой фильтрации не всё выжато. По крайней мере мои эксперименты говорят за это.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 9:09
Не забил. Время прошло. Результаты именно по распознаванию никакие. По кластеризации есть. Но это ведь не интересно. Важно пересечь ленточку. Но финиша нет. Бежим...
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 10:01
Цитата:
Автор: Kek

Не забил. Время прошло. Результаты именно по распознаванию никакие. По кластеризации есть. Но это ведь не интересно. Важно пересечь ленточку. Но финиша нет. Бежим...


Может, стоило бы пообсуждать
[Ответ][Цитата]
гость
109.229.26.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 18 июн 14 14:34
Цитата:
Автор: Kek
Не забил. Время прошло. Результаты именно по распознаванию никакие. По кластеризации есть. Но это ведь не интересно. Важно пересечь ленточку. Но финиша нет. Бежим...
А на чем сломались?

Я сломался, когда понял что до разумного результата (возможного) потребуется потратить не меньше 2х-4х месяцев свободного (и не очень) времени и написание с нуля редактора звука и нескольких вьверов... Не говоря о времени на "набивание базы". И разочаровался в известных мне языках (в основном Делфи) и ОС (только винда, которая давно уже не лидер среди ОС). Да и в одиночку тянуть такое хобби тяжело и не так интересно! (хотя изучение методов хранения аудиофайлов уже пригодилось мне в двух проектах на андроид)

А вы на чем остановились? Что значит "время прошло"? Интерес пропал? Азарт? Или по вашему тема перестала быть актуальной? Да на этом пути десятки, если не сотни "ленточек"! (над одной я прямо сейчас работаю) Да и по миру хорошего результата пока не видно. Прорыв вполне возможен и силами одиночки! Рынок уже лет 15 сырым остается! Ни гугл ни сири не планируют делать "коробочный" вариант - у онлайн свои преимущества имеются для развития, контроля, рекламы и спецслужб... Да если устройство в китае заказать - миллион продаж в первый год обеспечен по одной лишь россии!
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 19 июн 14 2:07
Цитата:
Автор: гость
А на чем сломались?

Все это можно назвать волнами вдохновения. Проект жив. Вести одному это дело не просто. Ладно, это лирика. Суть.
На данный момент очевидно следующее. Задача распознавания не есть главная. Изначально меня интересовал процесс развития. Не в широком смысле, а в узком, т.е. наличие условий и критериев для некой программы, которые формируют устойчивый процесс наполнения базы и ее модификации "на лету" . Для этого был выбран речевой поток. Его надо было разбить на кластеры. Собственно на данный момент отработаны процедуры, которые формируют из речевого потока элементы для базы. Эти элементы различны по своей природе. С одной стороны это спектральные данные, с другой стороны это элементы спектральной плотности или огибающей. В совокупности эти элементы описывают речевой поток в более сжатом виде, но при этом не теряют информацию. Это проверяется при обратном проигрывании, критерием правда служит при этом человек.
Теперь надо с этими элементами что-то делать. Запоминать и строить на их основе базу, которая пусть и в зжатом виде но разбухает до неприличия не интересно. Необходимо отработать принципы построения такой базы, которая модифицирует свои данные. Наиболее подходящим из имеющихся процессов для этого является онтологический принцип. Но его следует модифицировать. Как? Понятно. А как это сделать - не понятно. Скорее всего я перейду для отработки этих вещей к другому виду потока. Речевой поток сложный. А вот текстовый поток более простой и строить на его основе критерии формирования базы легче. Пока так.
[Ответ][Цитата]
гость
109.229.26.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 19 июн 14 4:33
Цитата:
Автор: Kek
На данный момент очевидно следующее. Задача распознавания не есть главная. Изначально меня интересовал процесс развития. Не в широком смысле, а в узком, т.е. наличие условий и критериев для некой программы, которые формируют устойчивый процесс наполнения базы и ее модификации "на лету" . Для этого был выбран речевой поток. Его надо было разбить на кластеры. Собственно на данный момент отработаны процедуры, которые формируют из речевого потока элементы для базы. Эти элементы различны по своей природе. С одной стороны это спектральные данные, с другой стороны это элементы спектральной плотности или огибающей. В совокупности эти элементы описывают речевой поток в более сжатом виде, но при этом не теряют информацию. Это проверяется при обратном проигрывании, критерием правда служит при этом человек.
Теперь надо с этими элементами что-то делать. Запоминать и строить на их основе базу, которая пусть и в зжатом виде но разбухает до неприличия не интересно. Необходимо отработать принципы построения такой базы, которая модифицирует свои данные. Наиболее подходящим из имеющихся процессов для этого является онтологический принцип. Но его следует модифицировать. Как? Понятно. А как это сделать - не понятно. Скорее всего я перейду для отработки этих вещей к другому виду потока. Речевой поток сложный. А вот текстовый поток более простой и строить на его основе критерии формирования базы легче. Пока так.
Жаль! Распознавалка не плохая конечная цель... И коммерчески ценная. И лично многим нужная. Мечтал о подобной еще когда набирал первый реферат.

Жаль на чистом энтузиазме подобную тему в группу не закинуть... А платить хорошим кодерам пока нечем(нужно не меньше 3-10 тысяч $ - для хобби дороговато). Тема ИИ среди программистов уже не модная(только полезна в описании программы для привлечения клиентов-лохов)! А успехи гугла и сири отпугивают новичков (типа - "зачем изобретать велосипед?"). Жаль! С удовольствием бы поработал в команде с нуля над подобным проектом - опенсорсы только под линукс и под английский язык (типа "набейте нам только базу на руском - все остальное там уже есть").

А заполнять базу ради базы - ИМХО это скучно! Это как игра "жизнь" - цветные точки размножаются (по известному алгоритму) пока не заполнят всю площадь. Цели никакой. Результат нигде не используешь. Только на скринсейвере... При полном заполнении самоусложнение не предвидится пока не усложниш формулу!

ИМХО, в лучшем случае в базе появятся не отслеживаемые на глаз "движения". Но логику их действий без сложнейших инструментов заметить не получиться! Это равносильно древнему эксперименту получения беков в пробирке ударами молний. Вероятность низкая. И даже если получится... это будет всего-лишь белок в пробирке, который тоннами получают на фабриках! Нужны в миллиарды раз более сложные условия для самостоятельного развития этого белка. Пробирки (вашей базы) явно не хватит...
[Ответ][Цитата]
гость
92.39.139.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 19 июн 14 5:01
Как ни печально, но результат был предсказуем ибо решалась задача в условии которой содержалась принципиальная ошибка.
[Ответ][Цитата]
 Стр.73 (78)1  ...  69  70  71  72  [73]  74  75  76  77  78<< < Пред. | След. > >>