GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.64 (112)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Об одном подходе к решению задачи создания СИИ
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 1:40
Изменено: 07 июн 18 1:56
Т.> вот совсем уж конкретно. ВЫ апеллировали к технике RL.
============
Аппелировал. Дабы показать, что максуд даже в его примитивнейшей реализации (на таблицах Q-learning иди алгоритмах SARSA) УЖЕ дает неплохие результаты (см. проект AlphaZero).
Это - медицинский факт.
Т.е. даже если ИС агента строит модели мира на уровне планарий с их одношаговыми условными рефлексами, это оказывается достаточно для реализации примитивных форм адаптивного поведения.

В СИИ, есссно, качество, сложность и совершенство используемых моделей действительности в миллиарды (?) раз превосходят модели задаваемыми таблицами RL/
Вообще-то, это качественно разные вещи, совершенно несопоставимые между собой..

>Если среда становится отличной от той, в которой происходило обучение, то агент, продолжая обучаться, обязан совершать действия не по максимому ценностей, чтобы Успевать
адаптировать систему ценностей к изменяющейся среде.
===========
Даже на Q-learning агент способен переучиваться (как и планарии, морские зайцы и прочие)
при изменении среды. Есссно, с некоторым запозданием.
Юзающая более совершенные модели СИИ будет способна заранее предвидеть возникновение или изменение закономерностей мира.

>Это все об одном и том же - принцип максимума удовольсвий ограничен принципом реальности. ОДно дело формальный агент и другое - естественный.
============
Плоские черви и брюхоногие моллюски реальны?

>еще раз - сам принцип максуд это только технический прием и/или нормативная идея, - критикуется мысль что организм (его система управления - тут ваш маневр с их разведением неуместен)
=================
Это не мой маневр, это природа почему-то выбрала для конструкций живых существ именно такое базовое решение . Далеко не идеальное. Для отдельных особей зачастую приводящее к фатальным ошибкам.
Но реально работающее при его массовом использовании.

>Идея что максуд 'на самом деле все-таки работает' неверифицируема и нефальсифицируема,
================
Эксперимент с крысой железно доказывает, что стремление к получению пол. подкреплений является главенствующим. Перебивающим все.

>тогда она просто догматика-схоластика, - всегда можно сказать, что каждый выбор максимизирует некую величину (назвать ее удовольствием)
============
Верно.

> - вопрос только в том, что эти 'удовольствия' будут фиктивны и не соответствовать реальным удовольствиям (которые не максимизируются, а цикличны, не скалярны, а качественно различаются, не суммируются, а имеет место коррекция оценок важностей (сила и специфика удовольствия регулируются динамически и ситуационно)
=============
Если бы эти удовольствия не были скалярны, т.е. не обладали свойствами аддитивности и транзитивности, то невозможно было бы многошаговое планирование включающее в себя разнородные этапы деятельности. Типа выбора плана действий на неделю. Сегодня вечером пойти в клуб, пьянка и секс, завтра сесть за диссер, в среду посидеть с детьми, в четверг залезть на Эверест, в пятницу начать изучать Саттона/Барто). Или наоборот: в понедельник с детьми, а в пятницу в клуб.

>, проявляются ситуационно, локально
=============
Верно.

> - это не значит что этот эпизод встраивается в глобальную жизненную цепочку доставляющую максимум суммы удовольствий в виде постоянного горолазания)).
==================
Верно. Об этом уже раза три упоминалось. Между воздейстием среды и получаемым R нет однозначного соответствия (поскольку R генерится опосредованно, в ЭС). Это только в нынешнем RL при прогнозировании R напрямую связывается с состоянием среды S.

>Введение 'удовольствия' как такого
потенциала это ошибочная идея (в самом принципе найти такой потенциал, максимизации которого достаточно для описания поведения сложной системы).
============
Никто не говорит что максуд - это идеальное решение. Но в отличие от сферических коней в вакууме - это реально существующее и работающее решение.

>модель приятностей должна адекватно апроксимировать объективные полезности - а именно это никак не гарантированно
================
Именно так. Никаких гарантий нет (и быть не может).
Вот так и живем.
А что, Вам кто-то гарантировал, скажем, правильность той модели мира, что Вы используете?
Нет ведь?
Но все мы живем и действуем так, как если бы мы были уверены в абсолютной правильности и незыблемости своих представлений о действительности (в том числе, самого этого представления о его негарантированности).

(продолжение следует)
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 2:31
Изменено: 07 июн 18 3:09
(продолжение)

>еще раз - ищется приемлемый компромисс
между вознаграждаемостью и риском, матожиданием и дисперсией, прогнозом и уровнем притязаний, между суммами несравнимых компонентов векторного вознаграждения
============
Ну и что? ЭС и дает этот компромисс, анализируя и интегрируя сразу многие тысячи самых разнородных параметров.

> пищевое вознаграждение полностью не заменить сексуальным - кто-то предпочтет перебрать пищевое за счет сексуального, кто-то наоборот - нет универсальной шкалы не только для разных индивидов, но и внутри одного индивида для разных потребностей в разных функционльных состояниях
==============
Верно. Конвертация различных состояний организма во внутреннее оценки-ощущения на шкале "боль-удовольствие" всегда происходит по разному - т.е. плавающему - курсу. Вычисление текущего значения происходит в ЭС, при этом используются сложнейшие нелинейные
много-критериальные вычисления. На выходе дающие одну-единственную результирующую скалярную величину.

>(между приятным-и-бесполезным ('объективно') и полезным-но-неприятным в конечном итоге выбираться будет последнее - апелляция к самостимуляции и аддиктивному поведению демонстриует как раз недостаточность максуда). Принцип удовольствия действует как раз более локально-ситуационно (сиюминутные удовольствия), а глобальные расчеты (если организм
================
Способность выбирать полезное-но-неприятное может быть обеспечена за счет двух разных механизмов. Во первых, в самой ЭС, когда при вычислении результирующей
ощущение неприятного (горькой лечебной травки) суммируются с приятным ощущением "правильности" совершаемого действия. Так бывает, наверное, у кошек.
У людей способность сознательно пить горькие, но полезные микстуры может обеспечиваться предусмотрительностью ИС, за счет подсчета будущих сумм.

>вообще даже косвенно ориентирован на подобные расчеты) ведется в ориентации не на субъективные удовольствия. Реальность-объективность внедряется в индивида в ходе генетической ассимиляции истории-опыта, система подкрепления и система переживания удовольствий отражают реальность, но реальность представлена в системе порождения поведения ШИРЕ чем только эффекты от удовольствия и боли.
===============
Ессссно, шире.

>> Увидь такое - и я , и любой другой нормальный человек! - тут же бросится выполнять соответствующий план действий.
>да, но нормальный человек не ищет 'абсолютного' (реально возможного) максимума - сидит на попе ровно в своей области приемлемости
===============
Он сидит ровно только до момента обнаружения возможности - реальной, без дураков, без нежелательных последствий - причем, именно в его системе координат и представлений о счастье - стать счастливым.
Обнаружив такое любой человек тут же подрывается с места как оглашенный.

> Опять же - чтобы решить более общую оптимизационную задачу нужно затратить дополнительные силы, т.е. оптимум должен положить себя неоптимумом.. тогда вообще вся идеология оптимизации (как чего-то существенно важного) ставится под сомнение.
==============
Дополнительные усилия, затраты - все это входит в общую сумму.

> ВЫ неудачно называете эту величину выгоды/пользы удовольствием.
=============
Я виноват, что природа придала этой величине именно такую модальность?

>ИНтеллект максимизирует В МЕРУ СВОЕГО ПОНИМАНИЯ
===============
Верно.

> но интеллект и понимает ограниченность формального решения, варьирует понимания и ищет компромисс между решениями полученными на разных критериях.
===================
Неа. В интеллекте все всегда сводится к одному критерию - максуду.

>Грубо говоря группа экспертов может быть виртуальной - быть в одном, достаточно развитом интеллекте. Как бы пока интеллект-собственно не развит его решения существенно корректируются подсистемой и надсистемой, по мере развития интеллект 'вбирает в себя' критерии подсистемы и надсистемы, cтановясь более гибким, cпособным к многаспектным рассмотрениям. Игра с природой многуровнева и многосмысленна.
==================
Верно то, что интеллект при его развитии, начинает рассматривать сами возможости получения максуда на все более глубоком, общем и потому высоком уровне.
Если для 2-3 летних детей счастье (наиболее желательный вариант будущего) - это полученная вдруг шоколадная конфетка, то для человека 40-50 лет, понятие удовольствия может быть связано со сложнейшими мировоззренческими аспектами его бытия.

>> Убив одним выстрелом сразу трех зайцев.
> первым же выстрелом (приближение по п.4) из своего максуда вы убили зайца, жизнь которого собрались изучать-воспроизводить.
===========
Я не жизнь зайца собираюсь воспроизводить, а лишь его интеллектуальную составляющую (ИС). СИИ с двух-этапной эмоциональной составляющей сходу снимает часть проблем. Оставшихся хватает выше крыши.
Создание СИИ и без них является труднейшей, на грани осуществимости задачей.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 2:35
Цитата:
Автор: NO.
Максуд ибн Траян


Вместо корявого "максуда" я поначалу хотел использовать известный термин "марковский процесс принятия решений" (MDP), поскольку там тоже речь о выборе стратегии дающей максимальную сумму подкреплений, но MDP содержит в себе некоторые изначально вводимые ограничения. Максуд же говорит о стремлении к максимизации суммы вообще, как общем принципе.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 2:36
>Никто не говорит что максуд - это идеальное решение.

А идеальное искать пробовали?
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 2:47
Цитата:
Автор: NO.

>Никто не говорит что максуд - это идеальное решение.

А идеальное искать пробовали?

Природа, возможно, пробовала. И почему то остановилась именно на этом варианте. Отчего-почему - может быть куча всяких предположений.

Я же всего-навсего пытаюсь сплагиатить найденное ею решение. Т.к. оно показало принципиальную возможность создания на его основе ЕИ.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 2:50
у индусов про удовольствие встречается вот тут
https://ru.wikipedia.org/wiki/Сатчитананда
Удовольствие правильно понимается после того, как осилили вечность и сознание. У ученых крыса сдохла, ещё и вечности нет и даже не ищется. Значит дальше будет много бестолковой путаницы про то, как псевдо-субъект получает псевдо-удовольствия.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 3:12
Эволюция адаптировала крысу к земным условиям. Ученые создали условия, к которым она не приспособлена. Крыса сдохла. Найдите в этом ум. Я только вижу, что у нее нет предохранителя, в технике обычно вставляют какую-то защиту например от скачков напряжения или других разрушительных факторов, которые известны, но когда слишком дорого или не требуется чтобы система их пережила. Иногда такое наоборот основная задача, например граната-лимонка напилена на дольки, иначе её прорвет в одном месте и весь кусок железа дезертирует с поля боя в неизвестном направлении.
Не понимаю я чего такого перспективного в удовольствиях. Ну да, есть такая фича. Ученые нашли хак каким образом за её счет все разрушить. Так система же сложная, там такого сколько угодно.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 3:27
Изменено: 07 июн 18 3:28
Цитата:
Автор: NO.
Не понимаю я чего такого перспективного в удовольствиях.


И это хорошо. Хотелось бы надеяться на то, что этого не понимает и большинство современных СИИ-исследователей.

Хотя вряд ли. Эти гады все чаще и чаще начинают говорить именно о тех вещах, и рыть именно в тех направлениях, о которых было бы желательно, чтоб они пока не говорили и не рыли.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 3:45
Тут говорят много хорошего, даже самые тупые иногда выдают удивительно проницательные догадки, но без всяких последствий. Да даже на Западе много умного говорят, только сами же не понимают. Может им нужно пряники выдавать, я видел на какой-то лекции мужик кидал в зал конфетки.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 07 июн 18 11:15
Цитата:
Автор: Траян
Природа, возможно, пробовала. И почему то остановилась именно на этом варианте.

Так он не идеальный.
В истории же много случаев, когда люди чего-то долго не понимали и большинство даже не пытались, а потом кто-то понял. Думаете с интеллектом так не получится?
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 08 июн 18 1:11
Изменено: 08 июн 18 1:56
Цитата:
Автор: NO.
Не понимаю я чего такого перспективного в удовольствиях. Ну да, есть такая фича.


Вопрос мотивации - это не просто фича. Это - тот кончик нити, взявшись за который можно последовательно, шаг за шагом, распутать всю проблематику СИИ.

СИИ - не может быть инертной, замкнутой в коконе "вещью в себе". Такой СИИ и невозможен и неинтересен.

У нормального СИИ должно быть активное начало, то что заставляет его непрерывно действовать, шевелиться, совершать внутренние и внешние действия. Следовательно, нам в первую очередь следует разобраться с тем, что является той пружиной, что приводит агента с СИИ в действие. Как и почему она работает.

Вопросы обучения, прогнозирования, оптимизации, самосовершенстования - это все, конечно необходимо и важно, но что заставляет потенциально разумного агента обучаться, прогнозировать, оптимизировать? Он же не может действовать как заводная игрушка, как автомат, запрограммированный на совершение одних и тех же действий в одних и тех же ситуациях?

Хотя бы потому, что мы не можем заранее предусмотреть все те ситуации, в которых он может оказаться. Реальный мир слишком сложен и разнообразен для этого.

Но какая мотивация может заставить агента непрерывно действовать - адаптируясь и приспосабливаясь - даже в ранее незнакомых ему условиях? Какая цель?

Ясно, что эта цель не может быть задана в виде некой формальной семантической конструкции, содержащей в себе в явном виде вторичные, трудноформализуемые понятия (например, такие как "выживание"). По целому ряду причин.
Мы и сами вложить их не сможем ни в виде декларативных, ни в виде процедуральных знаний.
(Как бы вы не старались, вы не найдете и двух когнитологов-герменевтиков совершенно одинаково понимающих слова "жизнь", "смерть", "существование" и т.п.)
И сам агент - непрерывно развиваясь и самосовершенствуясь - со временем неизбежно начнет вкладывать в эти понятия совершенно новое содержание (о которое мы пока можем даже не догадываться). А к чему это может привести - Бог весть.

Единственное приемлемое решение - которое и нашла природа для живых существ - это задание мотивации в виде стремления к максимизации некой скалярной величины. Какой бы степени совершенства не достиг сверх-СИИ, максимизация останется максимизацией. Какой бы не была предметная область и специфика той текущей задачи, которую предстоит решить СИИ, максимизация останется максимизацией.

Именно предельный примитивизм (иначе говоря, предельная фундаментальность) такой мотивации и обеспечивает ее предельную универсальность и надежность.

Есссно. У этого принципа есть и недостатки, как же без них? При его применении неизбежны издержки в виде принципиальной возможности реализации саморазрушительного поведения.
По трем причинам.
1. Когда ЭС (штука очень инертная и консервативная) приспособленная к одним условиям среды, пр их резком изменении начинает глючить и выдавать неадекватные подкрепления.
(переедание, гиподинамия и т.д.)
2. Когда особо хитрожопые агенты находят пути получения подкреплений напрямую, в обход ЭС (наркомания, электростимуляция etc).
3. Неизбежные при работе ИС ошибки в деле строительства моделей мира.
Когда строится мировоззрение нерелевантное реальному миру.
(Философские интоксикации, религиозные девиации и т.п.).
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 08 июн 18 2:14
Цитата:
Автор: Траян
Вопрос мотивации - это не просто фича. Это - тот кончик нити, взявшись за который можно последовательно, шаг за шагом, распутать всю проблематику СИИ.

Ну если это единственная соломинка, не позволяющая Вам утонуть в естественных науках, тогда пользуйтесь. Но вообще-то их много.
И на будущее замечу, что есть небольшая разница между приобретенными знаниями, через мотивацию или ещё как, и по-настоящему своими, не усвоенными. Поэтому лучшая мотивация это как бы отсутствие мотивации. В этом проблема больших компаний, в маленьких люди делают что хотят, а в больших что не умеют.
[Ответ][Цитата]
гость
188.170.80.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 08 июн 18 2:34

воспроизведу для порядка мистическим образом исчезнувший пост, его можно переместить на надлежащее место, и будем надеяться что возможный глюк серверного скрипта не эксплуатируется вашим аффективно-когнитивным подсознательным..
-------------------

Т.> Вы же понять мою аргументацию не хотите.

так ее почти не было, а та что была благополучно отведена.

вот совсем уж конкретно. ВЫ апеллировали к технике RL. Тут крайне любопытна ситуация аналогичная той, когда формальными средствами доказывают ограниченность формализмов (любых). Агента обучают максимизировать сумму наград (отождествим cкалярные награды и удовольствия). Обученый агент совершает выборы по ценности действий-в-ситуации, максимизируя целевую функцию, имея модель среды в виде накопленных ценностей. Если среда становится отличной от той, в которой происходило обучение, то агент, продолжая обучаться, обязан совершать действия не по максимому ценностей, чтобы Успевать
адаптировать систему ценностей к изменяющейся среде. Это все об одном и том же - принцип максимума удовольсвий ограничен принципом реальности. ОДно дело формальный агент и другое - естественный.

еще раз - сам принцип максуд это только технический прием и/или нормативная идея, - критикуется мысль что организм (его система управления - тут ваш маневр с их разведением неуместен) подчиняется полностьтю максуду. Идея что максуд 'на самом деле все-таки работает' неверифицируема и нефальсифицируема, тогда она просто догматика-схоластика, - всегда можно сказать, что каждый выбор максимизирует некую величину (назвать ее удовольствием) - вопрос только в том, что эти 'удовольствия' будут фиктивны и не соответствовать реальным удовольствиям (которые не максимизируются, а цикличны, не скалярны, а качественно различаются, не суммируются, а имеет место коррекция оценок важностей (сила и специфика удовольствия регулируются динамически и ситуационно), проявляются ситуационно, локально (альпинист преодалел трудности ради адреналивого опъянения и чувств от сознания свершения - это не значит что этот эпизод встравивается в глобальную жизненную цепочку доставляющую максимум суммы удовольствий в виде постоянного горолазания)).

есть совсем уж общее основание для критики - вариационные (экстремальные) принципы даже в области физики не вполне универсальны - для открытых существенно неравновесных систем их эволюцию не подчинить только энерго-энтропийным балансам, нужно рассматривать перепетии истории игры кинетик (кинетических соревнований) (в частности эффективность функционирования информации в подсистемах самоуправления), не удается ввести универсальный кинетический потенциал, который бы детерминировал то, какая метастабильная структура выиграет соревнование. Введение 'удовольствия' как такого
потенциала это ошибочная идея (в самом принципе найти такой потенциал, максимизации которого достаточно для описания поведения сложной системы).

еще так. - Приятное должно быть объективно (для выживательности и целедостижения) полезным (чтобы максуд был эволюционно устойчивым) - модель приятностей должна адекватно апроксимировать объективные полезности - а именно это никак не гарантированно (и агент обучается несовершенно, и среда переменна, и ценности векторны, и собственно компарация несовершенна).

> суммируются мат. ожидания будущих вознаграждений.

еще раз - ищется приемлемый компромисс между вознаграждаемостью и риском, матожиданием и дисперсией, прогнозом и уровнем притязаний, между суммами несравнимых компонентов векторного вознаграждения - пищевое вознаграждение полностью не заменить сексуальным - кто-то предпочтет перебрать пищивое за счет сексуального, кто-то наоборот - нет универсальной шкалы не только для разных индивидов, но и внутри одного индивида для разных потребностей (между приятным-и-бесполезным ('объективно') и полезным-но-неприятным в конечном итоге выбираться будет последнее - апелляция к самостимуляции и аддиктивному поведению демонстриует как раз недостаточность максуда). Принцип удовольствия действует как раз более локально-ситуационно (сиюминутные удовольствия), а глобальные расчеты (если организм вообще даже косвенно ориентирован на подобные расчеты) ведется в ориентации не на субъективные удовольствия. Реальность-объективность внедряется в индивида в ходе генетической ассимиляции истории-опыта, cистема подкрепления и система переживания удовольстий отражают реальность, но
реальность представлена в системе порождения поведения ШИРЕ чем только эффекты от удовольствия и боли. Cтимул, вообще говоря, имеет не только значение в смысле ощущения подкрепления.

> Увидь такое - и я , и любой другой нормальный человек! - тут же бросится выполнять соответствующий план действий.

да, но нормальный человек не ищет 'абсолютного' (реально возможного) максимума - сидит на попе ровно в своей области приемлемости - которая может рассматриваться даже не как локальный максимум на некоей объективной поверхности объективного потенциала, а как метастабильное (самоподдерживающиеся) состояние на склоне - субъективно принятый стандарт 'предела возможностей' (типо самодельная вмятина на упругой поверхности). Опять же - чтобы решить более общую оптимизационную задачу нужно затратить дополнительные силы, т.е. оптимум должен положить себя неоптимумом.. тогда вообще вся идеология оптимизации (как чего-то существенно важного) ставится под сомнение.

> (не той его вульгарно-примитивной трактовке, кою воспринял Хмур и иже с ним

ради красного словца не пожалеете и юпитера..

неа - это вы дали вульгарную формулировку максуда - что и вызвало возражения.

вы верно пишите про (под)системы оценок, (пере)оценивания и оперирования оценками - только смешиваете интеллект с удовольствиями. В игре с природой при массе неопределенностей интеллект/организм ориентируется на набор критериев (оптимистичные, острожные, cмешанные, несожаления и др.) - на более-менее абстрагированные от удовольствия выгоды/пользу. Нет универсальной 'оптимальности'. ВЫ неудачно называете эту величину выгоды/пользы удовольствием. Это не эмпирические (субъективные)
удовольствия. Cама эта величина (идея этой величины) при ее формализации оказывается не универсальной. ИНтеллект максимизирует В МЕРУ СВОЕГО ПОНИМАНИЯ - но интеллект и понимает ограниченность формального решения, варьирует понимания и ищет компромисс между решениями полученными на разных критериях. Грубо говоря группа экспертов может быть виртуальной - быть в одном, достаточно развитом интеллекте. Как бы пока интеллект-собственно не развит его решения существенно корректируются подсистемой и надсистемой, по мере развития интеллект 'вбирает в себя' критерии подсистемы и надсистемы, cтановясь более гибким, cпособным к многаспектным рассмотрениям. Игра с
природой многуровнева и многосмысленна.

> Убив одним выстрелом сразу трех зайцев.

первым же выстрелом (приближение по п.4) из своего максуда вы убили зайца, жизнь которого собрались изучать-воспроизводить. Остается переквалифицироваться в управдомы-таксодермисты. cобственно вы и предлагаете не AGI-агента, а аватара.. нет, так обломить своих интересантов..
[Ответ][Цитата]
гость
188.170.80.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 08 июн 18 2:36

Т.> RL

речь идет не о том, что эта техника в ее скалярном варианте работоспособна, а о том, что ее обобщение
на проблематику agi/cии (напр. по хаттеру) это сверхобобщение. Недаром появилось различение сильный общий интеллект в узком смысле. В самом cкалярном rl рассматривают многозадачное обучение и проблему переноса обобщенного навыка, что приводит, в частности, к рассщеплению сетей (напр. в вврианте актор-мимик), - не за горами осознание, что недостаточность подобных решений (для сии в широком смысле) следует преодалевать на путях комбинирования расщепленных сетей с расщепленным (векторным) подкреплением-вознаграждением.

> моллюски реальны?

итак, cитуция такова: приведен некоторый набор аргументов и соображений почему максуд это неадекватный принцип - вы часть не восприняли, c частью согласились, ничего не отвели и не привели соображений в поддержку максуда - однако продолжаете его утверждать. Такова сила навязчивости априорной идеи. Природа минимизирует действие - идея о максимизации сумм приведенной разницы удовольствий и неудовольствий это сверхобобщение сверхупрощения. Удовольствия нормализуются, неудовольствия минимизируются и терпятся.

два коана для просветления. Удовольствие-подкрепление не скаляр, а специфицированная величина - если вы сложите 2 яблока, три груши и отнимите один банан, то вы получите не 4 фрукта, а 5 фруктов и долг отдать банан, когда он у вас появится. Если вы систему управления больницей оптимизируете минимизацией средней температурой по больнице (не посчитав что температура больных и температура тел в морге это разные по специфике величины), то вы рискуете получить перевод всех больных в морг (вместо нормализации их температуры).

> природа почему-то выбрала для конструкций живых существ именно такое базовое решение

природа выбрала не максуд, а обеспечение компромисса между эволюционной устойчивостью вида и его общей адаптабельностью (эволюционной пластичностью) через нормировку систем потребностей и инстинктов индивидов данного вида, охранные рефлексы и рефлекс превентивного освоения среды со специфическими и неспецифическими подкреплениями.

напрямую принцип максуд не верифицировался, но есть веские соображения что он не может быть верным - примерно как доказывается принципиальная ограниченность стандартно заданных формальных систем. Cитуация с навязчивостью идеи скалярной паноптимизации в ии при его обобщении на сии сродни с идеей рационального агента в экономической теории. Классическую теорию строили исходя из очевидного постулата максимизации полезности. Прямое же исследование поведения показало, что агенты не подчиняются и ослабленному принципу максимизации ожидаемой субъективной полезности. Альтернативы сравниваются не как скаляры, а как структуры (моделируемые векторами).

> Эксперимент с крысой железно доказывает, что стремление к получению пол. подкреплений является главенствующим.

еще и еще раз. В реальном поведении мы не видим максимума удовольствий - ВОЗМОЖНОГО при введении цепи самостимуляции - природа не создала канал прямой самостимуляции оттого, что эволюционное конструировние организма никогда не подчинялось принципу максуд, в природе вообще НЕТ такого принципа (он есть в упрощенных теориях или спекуляциях), как объяснялось (есть локально регулирующая поведение эвристика предпочитания более приятного менее приятному если они однокачественны и есть охранная эвристика не доводить боль до сверхмерной). Нет регистров, в которых накапливаются пожизненные суммы удовольствий и неудовольствий - эти величины фиктивны. Реальное поведение отличается от аддиктивного, что доказывает, что максуд никак не главенствующ. ГЕНЕРАЛЬНЫЙ фитнесс никак не замкнут на пожизненные суммы разниц уд. и неуд. > Если бы эти удовольствия не были скалярны, т.е. не обладали свойствами аддитивности и транзитивности, то невозможно было бы многошаговое планирование включающее в себя разнородные этапы деятельности.

вы рассуждаете крайне поверхностно. Удовольствия РЕАЛЬНО разнокачественны - на уровне и нейрохимии, и нейрофизиологии. Даже на уровне сознания удовольстивия не унифицируются - приятное чувстсво расслабленности это совсем не то, что оргазм, а удовольствие от сладкого это совсем не то, что приятное чувство 'контролируемого' страха (при разрядке опасной ситуации). Именно разнокачественность подкреплений и позволяет осуществлять комплексное планирование - удовлетворять неким сбалансировнным (компромиссным) образом все потребности, а не стремиться к гиперкомпенсации одной за счет других - такая скаляризация (и патологическая 'транзитивность') отражает как раз дефектное поведение. Просто 'удовольствие' это только слово - и ошибочное обобщение скалярного представления.

> работающее решение.

псевдорешение - как калькулятор это псевдорешение если речь идет о 'думающей машинке'. Важно то, что подчинение максуду дает слишком регидное поведение. БОлее того - чтобы выполнялся коллективный максуд, на уровне индивида не должно быть жадности, не должно быть максуда - как при глобальном индивидуальном максуде (гипотетическом, но эта гипотеза неудовлетворительна) должны быть допустимы нежадные эпизоды. Решение работает - но работает недостаточным образом. РАботать должны более развитые принципы (они обозначались).

> На выходе дающие одну-единственную результирующую скалярную величину.

еще раз. В каждый момент выбора полимотивированного действия образуется некий подкрепляющий интеграл - разные мотивы удовлетворяются в разной мере. Это не скалярное, а векторное состояние. Даже в отношении одной потребности можно выбрать что поприятнее, а можно что БЫСТРЕЕ снимет потребностное напряжение (эти параметры не сливаются в один). В цепочке выборов нормализуется потребностное состояние, а не максимизируется сумма некоих сверток вектора подкреплений от удовлетворения потребностей. В общем случае нет необходимости максимизировать (нет и возможности раз имеется вектор а не скаляр), достаточно чтобы решение было приемлемым, удовлетворительным, cостоятельным - природе нужны динамические адаптации и парето-оптимумы, а не экстремумы, когда речь идет о сложных системах, а не о ситуациях когда в чистом виде проявляются сильные вариационные принципы, природа отбирает в области сложных систем более-менее приемлемое, а не скалярный оптимум - а когда конструкция скалярного фитнесса переменна, то вообще нет ориентации на скалярный фитнесс.

> Обнаружив такое любой человек тут же подрывается с места как оглашенный.

это же не значит что чел максимизирует - он просто переходит на другой уровень ожидания (ожидает большего), начинает регулироваться по ошибке уточненного прогноза. Вообще, во всей этой кухне нужно еще правильно оценить роль привычки. Ходите вы в любимый ресторан, дежурно едите, в меру экспериментируете (хотя знаете что можно обнаружить и какие-то несусветные явства) - вы не максимизируете удовольствия от еды, вы следуете некоей норме приемлемости - а переключение на максуд в отношении гастрономии это аномалия. ПО всем базовым потребноcтям вы нормализуете, а не максимизируете. Для ненасыщаемых потребностей также их удовлетворение не становится главенствующим принципом - он сочетается с нормализацией по базовым потребностям - а реальное главенствование скалярного максуда сопряжено с дефектным поведением.

> сходу снимает часть проблем.

проблема порождается скалярным максудом. Это мешающая (заужающая) презумпция. Даешь немаксудову логику!
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 08 июн 18 5:44
На этом я приостанавливаю свое участие в дискуссии на тему мотивации СИИ. Поскольку при продолжении оной все сведется к повторению - по второму и третьему кругу - одних и тех же аргументов и деклараций, а такое повторение чревато скатыванием в пустое препирательство.
(Занятие малопочтенное и не способное принести ни удовольствия, ни пользы.)

Пора, пора идти дальше и заняться моделированием сознания, т.е. проектом ПИС (простейшее искусственное сознание).
[Ответ][Цитата]
 Стр.64 (112)1  ...  60  61  62  63  [64]  65  66  67  68  ...  112<< < Пред. | След. > >>