GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.75 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Звенящая пустота.
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 4:41
Цитата:
Автор: Kek
программе, не хватает чего-то
Меня всегда удивлял подход к распознаванию как к некоторой самостоятельной задаче, оторванной от всего. Человек видит мир через образы потому, что создание образа - это вынужденный метод мозга для упрощения мощного потока информации от миллионов единичных рецепторов. Мозг просто не в состоянии запомнить информацию об изменении интенсивности возбуждения каждого единичного рецептора в отдельности (это было бы идеально), поэтому он вынужден комплектовать сигналы с рецепторов в образы и запоминать свой сенсорный жизненный опыт через изменение образов, а не через изменение отдельных рецепторов.

Распознавание для живого существа - это не более чем вынужденная процедура сжатия сенсорного потока для дальнейшего оперативного использования - для запоминания опыта, ориентации в пространстве, для формирования планов. Как вообще можно решать задачу распознавания в отрыве от использования продуктов распознавания?! Ведь качество распознавания определяется только тем, насколько хорошо сформированные сжатые образы позволили интеллекту построить и реализовать свои планы. Никакого другого критерия качества распознавания нет и быть не может. Где тот ИИ, который будет запоминать свой жизненный опыт через образы, созданные этим распознавателем, и который в терминах продуктов распознавания будет строить свои жизненные планы?
Очевидно, если ИИ будет примитивным, то для него достаточным будет отличать, например, шум от тишины. И это будет абсолютно правильным распознаванием. Для ИИ посложнее тот же самый сенсорный поток будет требовать бОльшей дифференциации. Чем сложнее жизнедеятельность ИИ, тем сложнее должны быть образы. И никак иначе. Ведь не думает же здесь кто-то (я надеюсь), что образы объективны, и задача распознавателя только в том, чтобы узнать, какие они "на самом деле".

Поэтому по-моему программе не хватает самого главного - смысла своего существования.
[Ответ][Цитата]
Vpolevoj
Сообщений: 1408
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 4:52
Цитата:
Автор: Андрей

Распознавание для живого существа - это не более чем вынужденная процедура сжатия сенсорного потока для дальнейшего оперативного использования.

+100500
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 5:07
Цитата:
Автор: Андрей
Поэтому по-моему программе не хватает самого главного - смысла своего существования.

Это так! Меня интересуют детали и механизмы реализации смысла.
[Ответ][Цитата]
гость
109.229.10.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 8:39
Цитата:
Автор: Андрей
Меня всегда удивлял подход к распознаванию как к некоторой самостоятельной задаче, оторванной от всего.
...
Поэтому по-моему программе не хватает самого главного - смысла своего существования.

Зачем программе смысл существования? Его и люди для себя найти не могут... За посление 20 лет (которые лично я слежу за темой) могократно безуспешно пытались дать программе его найти... Может это уже грабли?

А распознавание вполне может быть самостоятельной задачей. Любой взрослый человек который умеет писать сможет прослушать шумящую и кашлящую запись речей ленина и сталина записать то что он говорил на бумаге(уровень первокласника?). И для этого не надо прослушивать ее сотню раз что-бы "подстроиться" под говорящего. Видимо есть у нас в мозгу некая формула преобразования звука в текст, подходящая для большинства голосов. Причем достатоно простая, если этим занята такая малая часть мозга. Почему бы программу не научить этому? Один раз. Для большинства голосов. И закрыть для модификаций. Вырезать формулу на кристалле процессора и заняться следующей проблемой. И пусть эта программа будет распознавать хуже человека на 30%. Это нормально для подобных программ. Её задача не распознаать ВМЕСТО человека, а помогать ему в простых "бытовых" условиях, для упрощения интерфейса с техникой...

Вполне возможно прийдется на стадии обучения набить некую базу. И вполне возможно этим будет заниматься отдельная программа - анализатор. Но зачем сюда приплетать душу, смысл существования и жизненный опыт?

Программа разовая! Сделал! Сдал! Забыл! Поддержка и развитие не требуется! А над усовершенствованием алгоритма пусть работают уже отдельные институты... Это как домашний телескоп - прикольная игрушка для балкона, а Хабл не поместится в моей квартире...
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 9:41
Цитата:
Автор: гость

И тут возникает вот какая мысль. Помимо вайвлетов есть же еще преобразования (аналитические) Уолша-Адамара, Виленкина-Крестенсона, наклонное, косинусное - и их быстрые алгоритмы реализуются через факторизацию матриц. Давно возникло представление об обобщенном спектральном анализе

Какие бы не были преобразования, всё равно от неопределенности время-частота никуда не деться. А под этим углом зрения и БПФ сойдет, ну будет 2 набора коэффициентов вместо одного, можно туда-сюда переключаться. Но для речи 10мс интервала фрейма вполне хватает, о чем многажды уже было сказано-пересказано, и в чем Кек собственноручно убедился (было бы странно если б не убедился). Но в конце концов проблема же не в том, КАК снять спектр, а в том ЧТО ДАЛЬШЕ с ним делать Меня вот больше интересуют мат. методы восстановления целостности сигнала ПОСЛЕ получения той же спектрограммы. Достаточно просто взглянуть на спектр, чтобы увидеть хорошую кашу из гармоник, понять что к чему относится нелегко. А вот голова с этим разбирается на раз-два!
[Ответ][Цитата]
гость
78.25.123.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 9:54
как> это по делу

как и многое прочее, часто не распознаваемое, увы.

ну кто с вами не согласится, что избыточная формалистическая математизация, часто просто уже озабоченная собственными проблемами, напрягает многих и многих. Я тут только специально отмечу, что, скажем, нейроподход есть в какой-то мере ответ на эту ситуацию - когда сделан переход от исследования операторов преобразования методами нелинейного функционального анализа к конструктивному заданию самих операторов с помощью специфических эвристик - когда стали, скажем не выписывать закон (алгоритм) управления, а обучать нейроконтроллер управлению. Или тот же 'дисплейный' подход Жданова к автономному адаптивному управлению/распознаванию.

> Для распознавания нужен контекст.

жаль только что вы потеряли много времени на уяснение этой 'академической' истины, хотя вы почувствовали фактуру материала и трудностей - вопрос только стоил ли этот опыт того торможения и той истины-на-шишках. (далее же будут щищки поувесистее)

> Потому что всё можно решить статистическими методами.

это, кажется, некоторое недопонимание. Это не чаша грааля. Все статметоды имеют области адекватности и над чистой статистикой всегда будет некий 'управляющий' уровень, метастатистический метод (методы). У статистики есть свой контекст, удерживайте эту истину, она вам дорого досталась. что-то же должно решать какие статистики применять, параметрические, там, непараметрические, комбинированные etc etc.

видится такой ход - параллельная обработка потока наборов методов, по разным представлениям, в разных масштабах, на разных уровнях (грубо говоря фонетику поддерживать морфологией, синтаксисом, прагмасемантикой (хотя бы минимальной) - возвращаться к классике на новом технологическом уровне, вспомнить про доску объвления (единую глобальную стр. данных), скажем (система HEARSAY). Чтобы методы
были естественным динамическим контекстом друг друга.

> как объединять разноплановые данные

ну, можно организовать обучающий процесс для формирования представляющих фреймов.. cлоты поначалу автономны, потом над ними вырастает интегрирующая их в том или ином отношении гетерархия фреймов (всевдофреймов)..
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 10:45
Цитата:
Автор: гость 109.229.10.*
Видимо есть у нас в мозгу некая формула преобразования звука в текст, подходящая для большинства голосов. Причем достаточно простая, если этим занята такая малая часть мозга. Почему бы программу не научить этому? Один раз. Для большинства голосов. И закрыть для модификаций. Вырезать формулу на кристалле процессора и заняться следующей проблемой.
Да, Вы почти всё верно говорите, только надо определиться - всё-таки формула, или всё-таки научить. Формула точно не подходит. Значит надо научить. И вот здесь корень проблемы. Программист вместо того, чтобы делать программу, которая будет учиться распознавать, делает распознаватель... Видите разницу? А ведь чтобы программа училась у неё должен быть мотив, цель, смысл её деятельности. Потому что от цели зависит детальность созданного (выращенного) классификатора. И только после того как программа, движимая смыслом своего существования, научится слышать и говорить - распознаватель можно от неё "отрезать" и вырезать его на кристалле. А получается всё наоборот - сначала программист отрезает распознаватель, а потом мучается с тем как его учить.

По сути топика хочу сказать следующее.
Мне думается, что источником плодотворных идей для правильного решения задачи распознавания могут послужить рассказы людей, которые родились глухими/слепыми, а потом во взрослом возрасте обрели способность слышать/видеть.

Что касается глухорождённых, то мне пока удалось найти малоценный но эмоциональный ролик с девушкой, которая (якобы) впервые слышит. Поиски продолжаю.

Со зрением ситуация выглядит лучше.
На форуме офтальмологов меня заверили, что восстановить зрение можно у людей с двусторонней врождённой катарактой и что восстановление это будет очень незначительным. Но даже если так, можно попытаться выудить какие-то принципы усложнения перцептивного аппарата, если у таких пациентов будет наблюдаться даже небольшой прогресс в их способности видеть.

На выручку снова приходит нестареющий Сеченов со своим сочинением "Кому и как разработывать психологию?" (1873 год):
"крайне поучительно прислушаться к рассказам слепорождённых, которым было возвращено зрение в зрелые годы, как они видели мир в первые дни после операции. Несмотря на то, что у этих людей были уже ясны в голове все пространственные представления об окружающих их предметах, добытые путём осязания, всё поле зрения казалось им наполненным каким-то одним сплошным образом, который как будто касался их глаз, и они даже боялись двигаться из опасения наткнуться на тот или другой образ".

Этот эпизод, описанный Сеченовым, возможно был взят из наблюдений William Cheselden "Philosophical Transactions of the Royal Society of London" Vol. 35. (1727–1728), pp. 447–450:
"When he first saw, he was so far from making any judgment of distances, that he thought all object whatever touched his eyes (as he expressed it) as what he felt did his skin, and thought no object so agreeable as those which were smooth and regular, though he could form no judgment of their shape, or guess what it was in any object that was pleasing to him: he knew not the shape of anything, nor any one thing from another, however different in shape or magnitude; but upon being told what things were, whose form he knew before from feeling, he would carefully observe, that he might know them again".

В сети есть ещё ряд мест, где можно кое-чего почитать (link1, link2, link3, link4, link5).

Пока у меня складывается впечатление, что зрение и слух - это своеобразное развитие тактильного чувства, и самые примитивные (а значит базовые и основополагающие) принципы соединения активности множества рецепторов в один цельный образ можно понять и потестировать прямо на себе на примере тактильных ощущений.
[Ответ][Цитата]
гость
109.229.10.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 11:24
Цитата:

Да, Вы почти всё верно говорите, только надо определиться - всё-таки формула, или всё-таки научить. Формула точно не подходит. Значит надо научить. И вот здесь корень проблемы. Программист вместо того, чтобы делать программу, которая будет учиться распознавать, делает распознаватель... Видите разницу? А ведь чтобы программа училась у неё должен быть мотив, цель, смысл её деятельности. Потому что от цели зависит детальность созданного (выращенного) классификатора. И только после того как программа, движимая смыслом своего существования, научится слышать и говорить - распознаватель можно от неё "отрезать" и вырезать его на кристалле. А получается всё наоборот - сначала программист отрезает распознаватель, а потом мучается с тем как его учить.
...

Зачем мотив? Зачем цель? Зачем смысл? Ведь уже установлено - не получается! Годами пробовали! На одних лишь терминах уже начинается война... До того дошли что из темы ушли 99% практиков - остались теоретики!

Есть формула и база с которой эта формула работает... База - это слепки звуков понятные формуле и однозначно дающие результат при совпадении с куском звука - "совпадение 93%", "совпадение 1.5%". Обычные весы. И оптимизация по быстрому перебору...
Как она работает - не важно! Это дело практики - подобрать, перебрав сотни методик. И конечно оптимизировать для быстрого поиска по базе... Результатом будут коефициенты совпадения с индексом блока. А уж даже с этой информацией можно будет работать для получения точного смысла фразы...

Конечно эту базу надо заполнить. На 70% дикторами и ручным подбором аудио фильтров. По ходу разработки уверен появятся дополнительные слои информации в потоке - это женский голос, а это мужской, а это детский; это женский 1, а это женский 2; это обычный, а это песня, а это истерика, а это рычание, а этот с немецким акцентом, а это пьяный, а этот шипилявит, а этот заикается...

Но предстоит проделать коллосальную работу по написанию программы и заполнению базы... И если я верю, что (если повезет) алгоритм с первыми образцами (например на 10 слов для голоса "похожего на мой") можно сделать за 3-6 месяцев, то заполнение базы займет годы... Как и словарь можно заполнять еще долго после "сдачи проекта" добавляя акценты и редкие тяжело-понимаемые слова - "казуистика", "мизантропия", "ацетилсолициловая кислота" (те слова, после которых хочется перспросить - "чо за слово ты сказал?", "буквы знакомые, но не уверен что правильно раслышал - странное слово!")

... или можно еще одно десятилетие трепаться о разуме в машине, смысле существования программы и о думающих компьютерах. А потом, когда неожиданно какая-та крупная фирма (вроде гугла) вложив миллиарды в разработчиков выпустит свой ИИ, гордо обьявить что без философов вроде нас у нее ничего бы не получилось!
[Ответ][Цитата]
гость
92.39.139.*
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 11:47
Цитата:
Автор: Андрей
Что касается глухорождённых, то мне пока удалось найти малоценный но эмоциональный ролик с девушкой, которая (якобы) впервые слышит.

Вы правы и малоценный, и якобы впервые слышит. Уж больно ловко для первого раза она распознаёт и воспроизводит речь.

Цитата:
Автор: Андрей
Пока у меня складывается впечатление, что зрение и слух - это своеобразное развитие тактильного чувства,

И опять Вы правы.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 12:06
Цитата:
Автор: гость 109.229.10.*
Как она работает - не важно!
Вот потому так и работает...
Большинство разработчиков интересует не философская чистота, а быстрый результат и бабло. А кто тише едет, тот дальше будет.

Уважаемый Kek совершенно верно поставил задачу так, что программа должна говорить и должна сама слышать что говорит. Это важный ключ к пониманию восприятия звуков. Потому что человек выделяет в речи собеседника только то, что необходимо ему самому для настройки его артикуляционного аппарата. А уж то, что эти звуки могут ещё что-то обозначать - это побочный полезный эффект. Поэтому, в восприятии человека голос раскладывается не на фонемы, гармоники и кепстры, а на ширину раскрытия рта, силу выдоха и положение губ (я утрирую конечно, параметров несколько больше). Поэтому я бы располагал каждый звук в пространстве признаков, где координатными осями будут шкалы положения языка, губ, силы выдоха, напряжения гортани и т.п. И именно это моделировал при создании виртуального синтезатора голоса, а не спектры.

Вот удивительно, все ли из здесь присутствующих при восприятии речи могут представить движения рта говорящего? Уверен, что да. А хоть кто-то из присутствующих может на слух точно определить частоту гармоники? Думаю, что нет. А от компьютера зачем-то это требуют. Странные какие-то...
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 12:27
Цитата:
Автор: Андрей
....в восприятии человека голос раскладывается не на фонемы, гармоники и кепстры, а на ширину раскрытия рта, силу выдоха и положение губ (я утрирую конечно, параметров несколько больше). Поэтому я бы располагал каждый звук в пространстве признаков, где координатными осями будут шкалы положения языка, губ, силы выдоха, напряжения гортани и т.п. И именно это моделировал при создании виртуального синтезатора голоса, а не спектры....


Я уже как-то писал здесь про работу В.Н.Сорокина в этой ровно области. Многое им написано. Но реальные результаты пока мало отличаются от того, что получается в, так сказать, классике. Он, правда, не отчаивается. И молодежь какая-то в это верит тоже
[Ответ][Цитата]
Luarvik.
Сообщений: 17287
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 12:48
Изменено: 21 июн 14 12:50
Просто представьте себе, а точнее - почувствуйте, до каких [абстрактных] глубин и высот разносится эхо от каждого услышанного слова.

(одна беда - много слушающих, но мало слышащих, в основном - говорящие)
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 13:04
Цитата:
Автор: Luarvik

Просто представьте себе, а точнее - почувствуйте, до каких [абстрактных] глубин и высот разносится эхо от каждого услышанного слова...


Я б сказал - воспринятного
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 16:16
Цитата:
Автор: Slava
Я уже как-то писал здесь про работу В.Н.Сорокина
Да, благодарю за напоминание. Я тогда сразу посмотрел его работу в сети, основной упор в ней сделан на опознание говорящего для целей идентификации личности, насколько я помню, а не на моделирование физиологии говорения.

Цитата:
Автор: гость 92.39.139.*
Уж больно ловко для первого раза она распознаёт и воспроизводит речь.
Возможно она просто читает по губам. Хотя всё-равно подозрительно. Есть вторая часть с этой барышней, где ей включают кохлеарный имплантат на другое ухо для стерео-звучания, тут она подробнее описывает свои ощущения.
Вообще таких роликов в сети оказалось довольно много, например:
http://youtu.be/s9H_StoVsPU (с деталями)
http://youtu.be/06z_hjqXHBg
http://youtu.be/xpi1xKD20dw
http://youtu.be/RXYFZm8w4b4
http://youtu.be/NF-OYnDsuow
http://youtu.be/oyY2JfM1RlM
http://youtu.be/0B8Zj62LoUg
Обращает на себя внимание, что первый слуховой опыт вызывает сильные эмоции (и тут Сеченов снова оказался прав, что ребёнка к развитию влечёт удовольствие от получения нового опыта), и что они как-то очень быстро начинают что-то распознавать.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Звенящая пустота.
Добавлено: 21 июн 14 22:01
Цитата:
Автор: Андрей
Да, благодарю за напоминание. Я тогда сразу посмотрел его работу в сети, основной упор в ней сделан на опознание говорящего для целей идентификации личности, насколько я помню, а не на моделирование физиологии говорения.


Нет, он всю жизнь занимается изучением и моделированием речевого тракта и управления им.
А последние работы уже связаны с использованием тех наработок для распознавания речи и чего-то по ней на основе тех наработок.
[Ответ][Цитата]
 Стр.75 (78)1  ...  71  72  73  74  [75]  76  77  78<< < Пред. | След. > >>