GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.43 (78)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Проект Sound-Agent. Зри в корень!
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 05 авг 13 21:26
Изменено: 28 окт 13 7:02, автор изменений:
Kek
del
[
Ответ
][
Цитата
]
victorst
Сообщений: 821
На: Проект Sound-Agent. Зри в корень!
Добавлено: 05 авг 13 21:52
Вы как хотите, а я пока не сделаю ИИ систему работы с любым звуком (первая сигнальная система), не двинусь ко второй сигнальной - устной речи. Не хочу перескакивать через этапы. Полноценное распознавание устной речи предполагает наличие некоторого интеллектуального слушателя, например СИИ. Но т.к. до этого далеко, то нужно во второй сигнальной системе дойти хотя бы до аналога понимания нашей речи животными - собаками и т.д. А это - тоже не так то просто.
Для этого входной звуковой сигнал я не собираюсь сильно душить разными фильтрами, примочками и отдушками чтобы он красивенько выглядел. "Вам нужны шашечки или вы хотите ехать?"
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 05 авг 13 22:29
Цитата:
Автор: victorst
Вы как хотите, а я пока не сделаю ИИ систему работы с любым звуком (первая сигнальная система), не двинусь ко второй сигнальной - устной речи.
Вот с Виктором у меня есть понимание. Он не спрашивает : " а может дважды два пять?" Вот здесь, чтобы идти этим путем, даже без предобработки, нужен обратный канал - выход звука. Я об этом говорил. Система должна пытаться повторять в звуковом ряде то, что она "хочет распознать". И эта попытка так же попадает к ней на вход. Чтобы в этом ключе действовать нужна модель речевого аппарата. Как я себе это представляю?
Это цифровые фильтры, так любимые Артемом, он на коне в этом вопросе. В итоге должна получится параметрическая система, например 6 параметров, по числу произносимых звуков: шипящие, звонкие и т.д.
ВременнАя комбинация этих параметров подключает фильтры и произносится звук. Меняем параметры - меняется звук. Это грубо, но это по-другому нежели использование заготовленных заранее фонем. Здесь и фонемы можно будет менять. Как-то так.
И кстати, коллеги, это важно. Если система каждый раз при возбуждении входного сигнала формирует адекватную обратную параметрическую модель, то запоминаться в долговременной памяти должны именно эти 6 условных параметров!!!! Подумайте над этим, мне кажется это правильный путь.
[
Ответ
][
Цитата
]
rrr3
Сообщений: 11857
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 0:54
Изменено: 28 окт 13 7:03, автор изменений:
Kek
del
[
Ответ
][
Цитата
]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 5:01
Цитата:
Автор: Slava
А надо всего-то сделать удобные для беременных датчики для накопления большой тестовой выборки, а потом уже и для применения
А в чём конкретно проблема?
Щас есть даже российские разработки компактных носимых холтеровских кардиомониторов, которые пишут ЭКГ-сигнал непрерывно пару-тройку суток (пока хватает ёмкости флэшки и заряда батареи), т.е. позволяют следить как за периодами активности пациента, так и за периодами покоя (сном, например). По Холтеру меряется около десятка сигналов с разных точек тушки (значит, на тушку крепится десяток датчиков). Плюс можно добавлять явный пульсомер (чтобы потом не считать пульс по пикам ЭКГ). Т.е. десяток сигналов снимается на протяжении пары-тройки суток.
Т.е. нет проблемы накопить сигнал (и потом перекинуть его в комп) - нужен только актуальный для задачи датчик. Вам что надо у беременных мерять?
[
Ответ
][
Цитата
]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 6:08
Цитата:
Вот здесь, чтобы идти этим путем, даже без предобработки, нужен обратный канал - выход звука. Я об этом говорил. Система должна пытаться повторять в звуковом ряде то, что она "хочет распознать". И эта попытка так же попадает к ней на вход. Чтобы в этом ключе действовать нужна модель речевого аппарата. Как я себе это представляю?
ЗАЧЕМ? Зачем обратная связь? Зачем произносить усышаное чтобы попытаться понять/распознать сказаное? Немые без этого справляются. Говорить нужно чтобы НАУЧИТЬ ГОВОРИТЬ, а не понимать. Собака понимает команды не пытаясь их произнести.
Цитата:
Это цифровые фильтры, так любимые Артемом, он на коне в этом вопросе. В итоге должна получится параметрическая система, например 6 параметров, по числу произносимых звуков: шипящие, звонкие и т.д.
6 параметров Вам хватит на разложение ЛЮБОГО слова?
Я думал это - "впомогательные" параметры, как ударение или вопросительная интонация...
Цитата:
И кстати, коллеги, это важно. Если система каждый раз при возбуждении входного сигнала формирует адекватную обратную параметрическую модель, то запоминаться в долговременной памяти должны именно эти 6 условных параметров!!!! Подумайте над этим, мне кажется это правильный путь.
Вы все еще верите в САМООБУЧАЮЩИЙСЯ метод распознавания услышаного... Думаю такой появится ой как не скоро после ОБУЧАЕМОГО. Услышал - сказал - понравилось как сказал - запомнил?
Нейронные произвольные масивы пытались обуздать годами. Большинство их с обратной связью. Не особо успешно... Когда-то (лет 5-8 назад) были возгласы на ИИ-шных форумах типа "я успешно распознаю фонем ЗЮ" но либо это был треп, либо не удалось обьединить с другим фонемом... но до нас эти разработки не дошли. Даже потестить не получилось. Вы слишком полагаетесь на то что СЛУЧАЙНО подберете нужные параметры для самобучения. И к тому-же по моему даже подход выбрали слишком случайно... Вероятность удачи такого подхода с учетом проделаного другими подобного опыта 1/100..000 ...очень маленькая!
Может стоит и Вам сначала поймать ЗЮ? Возможно даже натравить на нее длинющий аудио-файл для отладки. Параллельным потоком (если действительно уже получилось) распознавать ударения и "взрывные"...
[
Ответ
][
Цитата
]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 8:28
Про Цеммеля:
Никто не против Цеммеля, просто в интернете недоступны или мною не найдены соответствующие удачные ссылки. Если Цеммель занимался клиппированием, это не умаляет его успехов на теоретической базе.
Просто если есть более совершенные средства, то зачем клиппировать?
Про 6 параметров:
Если мы уменьшаем количество признаков до минимуму - то мы должны проверить, а не выкинули ли мы ребеночка вместе с простыней?
Вот для этого эти 6 параметров надо уметь преобразовать обратно в звук.
И 6 параметров не на слово. 6 параметров на фонему. Не придирайтесь к цифре 6 ...
Цитата:
Вот здесь, чтобы идти этим путем, даже без предобработки, нужен обратный канал - выход звука. Я об этом говорил. Система должна пытаться повторять в звуковом ряде то, что она "хочет распознать". И эта попытка так же попадает к ней на вход. Чтобы в этом ключе действовать нужна модель речевого аппарата. Как я себе это представляю?
Возможно речь идет о том, что человек имеет этот обратный канал. Это позволяет ему осуществлять самообучение. Т.е. как бы для слуха идет обучение с учителем, и учитель - это мышцы. Т.е. в итоге распознавание речи сводится к распознаванию : звук -> движения мышц рта.
В нашем случае такой обратный канал - проблематичен.
В итоге искуственно сформированный канал формирования речи - это просто проверка наших теоретических знаний. Что тоже неплохо.
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 9:19
Конечно не 6 параметров, это я так для примера. Пусть 46.
Сегодня попробовал ручками написать каждый кадр в фонеме "МА" и воспроизвести. Получается робот. Но дело не в этом.
Не готов отстаивать это направление, мне кажется есть тут что-то. Обратная связь всегда улучшает параметры системы - это аксиома теории управления.
[
Ответ
][
Цитата
]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 10:26
Цитата:
Автор: Victor G.
Щас есть даже российские разработки компактных носимых холтеровских кардиомониторов, которые пишут ЭКГ-сигнал непрерывно пару-тройку суток (пока хватает ёмкости флэшки и заряда батареи)
Если не секрет откуда вы про это знаете? Как называется этот холтеровский монитор про который вы говорите?
Я буду долго смеяться если вы говорите про мой монитор.
Я уже лет 7 как ушел и все бросил, но меня радует что моя разработка живет своей жизнью ...
(в смысле таких разработок несколько, и я свою начинал в 1998 году)
и.да. когда я ушел мы уже продали 500 штуков. по цене от 30т.р. до 120т.р
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 11:26
Цитата:
Автор: Victor G. Tsaregorodtsev
А в чём конкретно проблема?
Щас есть даже российские разработки компактных носимых холтеровских кардиомониторов, которые пишут ЭКГ-сигнал непрерывно пару-тройку суток (пока хватает ёмкости флэшки и заряда батареи), т.е. позволяют следить как за периодами активности пациента, так и за периодами покоя (сном, например). По Холтеру меряется около десятка сигналов с разных точек тушки (значит, на тушку крепится десяток датчиков). Плюс можно добавлять явный пульсомер (чтобы потом не считать пульс по пикам ЭКГ). Т.е. десяток сигналов снимается на протяжении пары-тройки суток.
Т.е. нет проблемы накопить сигнал (и потом перекинуть его в комп) - нужен только актуальный для задачи датчик. Вам что надо у беременных мерять?
Да, есть и холтеровские мониторы и разные датчики
И было все это и десять лет назад, когда мы начинали решать эту задачу
Мониторы мы покупали у фирмы МедС, а датчики у Р-Системс
Проблема была в том, что, во-первых, это стоило дорого, и грантовых денег хвтало только на из покупку, во-вторых, все, что из них собиралось, периодически билось в акушерской клинике, когда беременные сбрасывали наши поделки на кафельный пол, в-третьи, с каждым годом в датчики вносились изменения, не позволявшие накапливать данные в воспроизводимых условиях, в-четвертых, все это время приходилось отрабатывать технику съема сигнала вибраций с передней стенки живота беременной, в пятых, записи должны былили делаться на протяжении 20-30 и более минут, так как схватки в родах повторяются примерно раз в три минуты, а в дородовом периоде они редки, и беременная в это время должна была себя по возможности спокойно вести, не совершая движений, не разговаривая, и их надо ловить по сути, в палате тоже должно было бы быть тихо и т.д. и т.п. Тем не менее порядка сотни записей за несколько лет нам удалось сделать. Но когда предварительные результаты показали неожиданное качество, оказалось, что мы должны теперь сделать несколько тысяч записей в разных роддомах и женских консультациях с помощью как-то унифицированной системы регистрации вибраций живота. И тут мы поняли, что грантовых денег, но которые проводилась эта работа принципиально недостаточно для создания нужных мониторов. Наши партнеры по МедС сказали, что новый холтеровский монитор под наши пожелания они могут разработать примерно за 20 тыс зеленых. С вибродатчиками ситуация был немного более простой, но все равно и там тоже нужны были деньги которых у нас принципиально не было. А наш партнер из США, предложивший эту задачу, сказал, что нам надо искать бизнесмена, который взялся бы за организацию этого дела здесь. Мы для этого оказались абсолютно непригодными, так как наша специфика совсем в ином. Такие вот дела. Могу добавить к сказанному, что частотный диапазон вибросигнала на порядок превышает акустический сигнал, воспринимаемый ухом, у него динамический диапазон - на два порядка больше воспринимаемого, а работать почти все время нам приходилось с 16-тибитными АЦП в мониторе и только в самом конце появилась надежда на использование 24-тичетырех битных АЦП, тоже безумно дорогих, но мы уже поняли, что технику нам не поднять, отказались от грантов и стали ждать ангела, шлифуя методы анализа
Хотите что-нибудь добавить?
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 11:32
Цитата:
Автор: Артем
Про Цеммеля:
Никто не против Цеммеля, просто в интернете недоступны или мною не найдены соответствующие удачные ссылки. Если Цеммель занимался клиппированием, это не умаляет его успехов на теоретической базе.
Просто если есть более совершенные средства, то зачем клиппировать?
Приятно это слышать, только я ведь потому советовал читать книгу Цемеля, что там изложено его видение проблемы и подходов к ее решению и описание системы, реализующей все это, и полученные в результате результаты. На мой взгляд, Цемель редчайший случай научно-практической работы по решению сложной задачи. Таких вообще мало, а из появляющихся здесь, как мне кажется, так как особых деталей я не знаю и могу только догадываться, могу назвать только Эгга
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 11:36
Цитата:
Автор: Артем
Если не секрет откуда вы про это знаете? Как называется этот холтеровский монитор про который вы говорите?
Я буду долго смеяться если вы говорите про мой монитор.
Я уже лет 7 как ушел и все бросил, но меня радует что моя разработка живет своей жизнью ...
(в смысле таких разработок несколько, и я свою начинал в 1998 году)
и.да. когда я ушел мы уже продали 500 штуков. по цене от 30т.р. до 120т.р
Возможно, вы к этому имели отношение. Фирму я назвал - можете узнать. Я там общался с Дмитрием Арх - толковый и очень конструктивный человек
[
Ответ
][
Цитата
]
Артем
Сообщений: 174
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 14:12
МедС - конкуренты были. Цены задирали.
А программное обеспечение - полный отстой.
Все-таки фирма сдохла. Сайт сдох. Из самых приличных ссылок в интернете вот эта:
http://www.science-education.ru/12-288
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 14:25
Цитата:
Автор: Артем
МедС - конкуренты были. Цены задирали.
А программное обеспечение - полный отстой.
А нам их программы вообще не нужны были, нужно было только накопление данных
Все остальное мы делали сами
Кардиограмма и сигнал с живота беременной вообще ничего общего не имеют
В том сигнале - сами схватки, шевеления матери, ее дыхание, сердце, перистальтика, разговоры, шевеления плода, его сердце и еще что-то..., в общем - адская смесь и все это в инфразвуке
А вот пьезодатчик по-началу был хороший, но очень хрупкий - падение со стола на стул практически однозначно выводило его из строя, и каждый был особенным
[
Ответ
][
Цитата
]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Зри в корень!
Добавлено: 06 авг 13 18:37
Цитата:
Конечно не 6 параметров, это я так для примера. Пусть 46.
Сегодня попробовал ручками написать каждый кадр в фонеме "МА" и воспроизвести. Получается робот.
Одну короткую фонему ухо почти не распознает. Возможно это нюанс человеческого уха - только в комплексе. Когда-то долго (часов 10) поигрался со своим голосом. МА в долю секунды ничем не отличается от МО и МУ. Попробуйте только фонему А или затянутую МА-А-А-А. Попробуйте написать НАДЕЖНЫЙ метод выявления одной фонемы А в бесконечном потоке. Записыайте время обнаружения. Сделайте простой редактор с ползунком и уже проставлеными точками нахождения фонемы. Пытайтесь ухом определить действительно ли там буква А. Еще можно найти аудиокнигу и выводить одновременно звук и текст. Как в караоке. Букву А или фонему МА в тексте выделить цветом - чтобы проще было искать и сравнивать.
... Жаль у меня времени нет сейчас над этим поработать... Учу андроид и яву с нуля.. Есть проект, альфа версию только запустил, а до качественного релиза еще где-то 1000 часов работы... Нельзя отвлекаться... Итак на 4х языках одновременно работаю.
Цитата:
Но дело не в этом. Не готов отстаивать это направление, мне кажется есть тут что-то. Обратная связь всегда улучшает параметры системы - это аксиома теории управления.
Обратная связь пможет (возможно) для улучшения качества распознавания, но не на начальном этапе. Это как в Матрице - "компьютер не знал какая на вкус овсянка". Нужен чистый и надежный (проверенный оператором) образец. Желательно много РАЗНЫХ образцов.
[
Ответ
][
Цитата
]
Стр.43 (78)
:
1
...
39
40
41
42
[43]
44
45
46
47
...
78
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net