GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.63 (97)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Об одном подходе к решению задачи создания СИИ
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 02 июн 18 1:33
Изменено: 02 июн 18 1:43
To 188

> в конце концов странно же думать, что отобразив точку многомерного пространства на одномерную шкалу суммы ее координат вы ничего не потеряли в представлении..
=============
Одно другому не мешает. Скажем, строя обобщенную оценку прошедшего дня - "это был хороший день", "это был плохой день", "это был день на троечку", мы вовсе не обязательно должны терять видение дня как сложного явления, состоящего из множества событий, деталей, нюансов, встреч, новостей, локальных подкреплений и прочего

> Выработка рефлекса это адаптивная стратегия для более эффективного получения безусловных подкреплений - в их НОРМАЛЬНОМ (cогласно расписанию потребности), а не максимальном количестве.
==============
Возьмем стороннего наблюдателя изучающего поведение агента - способного вырабатывать простейшие одно-шаговые условные рефлексы.
Наблюдатель видит, что агент старается не поворачивать туда, где получил удар током и вообще делать то, за что его наказывали отр. подкреплениями.
А старается делать то, что давало положительные. подкр.
Причем, при выборе из двух действий он выбирает то, что давало большее.

Имеет ли право этот Наблюдатель сказать, что данный агент - по факту! - реализует поведение максимизирующее - в меру его разумения и имеющихся интеллектуальных способностей по постройке моделей и прогнозированию - сумму dR? Да или нет?

> это ваша мантра - нет в реальности такого принципа (это идеализация и частное понимание общих принципов) - вы не максимизируете гастрономические, cексуальные, глорические и мн. проч. удовольствия - а получаете их по возможности и потребностному императиву, легко довольствуясь приемлемым, а не 'cамым лучшим'.
===================
Я, кажется, начинаю догадываться, что именно Вы не понимаете в принципе максуда - и что является источником наших разногласий. Вы считаете, что в максуде величина подкрепления (ощущения боли-удовольствия") от некоего стандартного физического воздействия на штатные сенсоры ("гастрономические, сексуальные, глорические и мн. проч. удовольствия") - является некой неизменной константой.

А это далеко не так. И я об этом говорил в самом начале этой бессмысленной дискуссии.
Сигналы от штатных сенсоров всегда проходят предобработку и рассматриваются в контексте общей ситуации и лишь потом лимбическая система порождает а затем и решает, как и какое ощущение боли-удовольствие будет выдано в высшие управленческие отделы.

> пример с крысой показывает что этот принцип (в его ГОЛОМ виде) действует разрушающе - что само по себе поведение на основе только этого принципа будет слишком регидным и эволюционно неприемлемым (невыживающим).
=================
Есссно. Прямое (не опосредованное) воздействие на центры боли-удовольствия является абсолютно недопустимым. Ломающим всю систему. Позволю себе привести самоцитату:
"Нормальное существо привести свою эмоцию в желательное состояние (то, какое состояние эмоции желательно, определяется его метацелью), только воздействуя на внешнюю среду, потому что состояние самой значимой составляющей эмоции, т.е. первичной эмоции (по Вайнцвайгу) зависит только от состояния внешней среды. Именно это обстоятельство принуждает устройство к активным внешним действиям. В тех абсолютно недопустимых случаях, когда у устройства появляется возможность изменять величину эмоции не опосредованно, а напрямую (например, у некоторых живых существ это может происходить при химической или электрической самостимуляции центра удовольствия расположенного между гипоталамусом и лимбической системой), его интеллект будет разрушаться, вследствие того, что искусственно создаваемые этим устройством приращения к величине метацели, будут неадекватны условиям внешней среды (такие приращения противоречат той концепции метацели, которая приводит к возникновению и существованию интеллекта)."

Но пример с крысой хорош тем, что он дает нам возможность рассматривать воздействие приблизительно одинаковых по своей величине подкреплений (т.е. полностью выключив внутреннюю систему генерации подкреплений, заменив ее электродом). И это эксперимент ясно и четко показывает, что поведение жив. существ и на самом деле определяется принципом максуд.


> Настоящее чувство голода - это штука пренеприятнейшая,
этот пример показывал, что организм стремиться уменьшить негативное ощущение голода, а не делать это каждый раз так, чтобы максимизировать пожизненную сумму гастрономических ощущений, - когда все подчиняется обжорству или погоне за все более тонкими гастроудовольствиями, это такая же ненормальность как электрод у крысы (с соотв. поведением).
============================
Есссно. Но ведь сами по себе гастрономические яства не содержат в себе никаких ощущений, не содержат ни боли, ни удовольствия.
Точно так же как квалиа-ощущение красного не содержится в красном яблоке,
как пряный вкус мясного бульона не содержится в супе-фрикассе, так и ощущения боли-удовольствия не содержатся в физических кнуте и прянике с помощью которого мы пытаемся влиять на агента.

Удовольствие от поглощения пищи порождается внутренней "эмоциональной" системой агента. А система эта чрезвычайно гибка, мобильна и адаптивна.
Тут уж эволюция расстаралась и постаралась сделать так, чтобы приятное и неприятное порождаемое в ответ на состояние организма в наибольшей степени соответствовало задаче выживания.

Черствая корочка хлеба съеденная человеком голодным доставит ему куда больше удовольствия, чем съеденный при переполненном желудке трюфель.
А если того же голодного человека засунуть под воду, то он - отчаянно пытаясь выбраться на поверхность - на время забудет и о неприятном чувсте голода.

Т.е. максимизировать сумму dR за счет поедания корочек ну никак не получится. Можете даже не стараться. Придется переключиться на что-то другое.

Это - самый простой пример. А в реальности эта древняя система мгновенно учитывает и интегрирует тысячи, если не миллионы изменчивых параметров, наличествующих в данный момент обстоятельств и условий. Чтобы итоговая оценка отражала весь текущий контекст. Есссно, на пути создания такой оценки возможны и потери и неточности (про это я писал раньше), но это те издержки, на которые приходится идти.


> но в реальности ожидания часто обманываются - значит УЖЕ максимизируются не подкрепления, а оценки возможных подкреплений - построение поведения с ориентацией на будующие подкрепления это ДОБАВОЧНЫЙ механизм который может позволить себе нормализующий базис.
===============
Ессссно, в аппарате управления поведением агента при выборе действия (прогнозировании будущих последствий) максимизируются не суммы самих подкреплений, а суммы мат. ожиданий. (А Вы думаете для чего я городил свою БМП? ) , но это означает лишь то, что агент функционирующий в реальном а не идеальном мире может стремиться к максуду лишь в меру имеющихся у него возможностей.
[Ответ][Цитата]
гость
188.170.72.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 02 июн 18 3:59

Т.> Одно другому не мешает.

вы должны осознать что 'cамо собою разумеющаяся необходимость скаляризации' является умственным наваждением. ПОложение о том, что аддитивная свертка многих критериев при решении задач векторного выбора не является универсальным решением, давно является общим местом.

> Да или нет?

так c чего вы взяли, что наблюдаемый выбор это выбор наибольшего (а не просто большего) положительного подкрепления? ВЫ реальную механику выбора подводите под нормативную упрощающую (якобы рациональную) теорию выбора.

Ассоциативная память организмов не совершенна и из ассоциативной памяти не сразу извлекается энграмма выбора с наибольшим количеством подкрепления, извлеченные энграммы еще оперативно сравниваются и их веса дополнительно модулируются ситуацией - за исключением простейших случаев вовсе не очевидно какой выбор доставит наибольшее подкрепление - при лимите времени выбирается приемлемая поведенческая программа, а не доставляющая обязательно максимум подкрепления. Это на локальном уровне. Хотя
локальные субоптимальные выборы (если вообще можно говорить об объективно оптимальных) вызывают корректировки весов программ по результатам, но и глобально выстраивается жизненная линия 'субоптимальная' - оринтированная на нормализацию, а не на максимизацию. (Исходно ваш тезис был относительно глобальной максимизации суммы полученных подкреплений.)

> что именно Вы не понимаете в принципе максуда

- а потом вы дали некоторую иллюстрацию того, что механизм выбора сложноустроен (контекстуализация оценок возможного вознаграждения, борьба мотивов, переоценки) - что максуд это только частный (простой) случай.

боюсь, это вы недопонимаете корня разногласий. Выбор (поведенческий) осуществляется как производное от комплекса механизмов - рациональная модель выбора не подводится под один принцип - поведение может быть поведением подчинения правилу (инстинкту), целеориентированным, ценностным - чем сложнее организована система организации поведения тем проблематичнее подчинение ее единственному критерию.
вцелом все выросло из необходимости обеспечить выживание (и индивида и рода) - и механизм вознаграждения это подчиненный механизм для эвристического огбеспечения императива выживания. Когда вы говорите о главенстве принципа максуд вы выстраиваете концептуально неверную схему (для 'общего интеллекта'), производное делаете порождающим (первообразным).

в конце концов даже в области обучения с подкреплением можно выстраивать схему управления не только по выбору наибольшей награды, но и по ошибке прогноза награды - равно как иметь в виду и комплексный характер интегрального механизма (нормализатор + максимизатор). ОБманувшись с большими обещаниями в дальнейшем механизм выбора-сравнения альтернатив будет принимать во внимание и другие факторы, а не только величину обещанного вознаграждения. КАк пример - если предстоит вкуснейшая трапеза, но
происходит что-то неожиданное, то имеет смысл отвлечься от максуд и поинтересоваться происходящим (что само по себе вовсе не обещает каких-то конкретных вознаграждений). Доминировать станет ориентировочное поведение, а не пищевое. Оправданность этого зашита в приоритетах etc, а не в непосредственном взвешивании прогнозов-ожиданий вознаграждений. Есть критерий величины вознаграждения, есть критерий неожиданности (важности по неожиданности, рассогласованию, ошибке прогноза), есть относительные важности критериев - вцелом есть динамическая систуация многокритериального выбора.

> пример с крысой хорош тем

вы верно констатируете что прямая самостимуляция разрушает интеллект и тут же предлагаете сделать принцип макcуд корневым принципом интеллекта.. Изменение системы актуализирует принцип максуд (cистема вырождается) - что означает что интактная система построена на противоречивых критерях (принцип максуд не доминирует) и постоянно ищет компромисс (векторный), а не скалярный оптимум.

> Черствая корочка хлеба съеденная человеком голодным доставит ему куда больше удовольствия,

однако вы предпочтете регулярный дежурный обед столь же регулярным пропускам ради большего удовольствия от корочки. ВЫ подчиняетесь физиологической (и психологической, и культурной) норме, а не максимизации возможных удовольствий от еды (когда любовь вкусно поесть перерастает в патологию как трансформируется поведение крысы при заголении принципа максуд). Что мешает вам вслед за французскими королями откушать, cблевануть и снова откушать? ВЫ подчинены норме, cтереотипу etc - а не универсальному (якобы) правилу максимизировать (и локально, и глобально).

вцелом ЕСТЕСТВЕННЫЙ агент стремится получить ДОСТАТОЧНЫЕ подкрепления (быть парето-оптимальным), а не 'максимум суммы'. Если скаляризация происходит по-разному (переменность относительной важности критериев), то вообще говоря Sum(maх)<>Max (глобальный Mах требует в общем случае нежадных локальных принципов, и вообще говоря нежадные локальные принципы выбора (будучи самодостаточными) должны гарантировать выживаемость, а не глобальный максимум - для открытой ситуации продолжающейся жизни объективный максимум это какая-то метафизическая химера).

еще и еще раз - стремление выбирать локально 'что по-лучше' (по-больше доставит радости, удовольствия, субъективной пользы) это НЕ принцип максуд в вашей трактовке (что организм подчинен закону максимизировать сумму РОз-Neg на горизонте жизни (при прогнозе) и на траектории жизни). На этом принципе можно строить искусственного агента - но не нужно выдавать его за решающего проблему интеллектуального-рационального поведения исчерпывающе. В конце концов вопрос об универсальной ценностной шкале не решен.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 02 июн 18 14:21
Хмур:
У меня знакомый собирается найти путь из Испании в Индию не вокруг Африки, а двигаясь просто на запад, что Вы об этом думаете?
[Ответ][Цитата]
гость
188.170.83.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 02 июн 18 22:47

что имея даже неадекватные представления можно куда-то приплыть - все зависит от исторических обстоятельств, - колумбу позволительно до конца жизни считать америку индией, но современному путешественнику можно и по-лучше ориентироваться в географии. хотя, конечно, ваш знакомый может и пересечь америку и продолжить движение на запад. Поэтому важно донести до траяна идею что америка это еще не индия и что принцип максуд следует сочетать с принципом реальности (в содержание котрого можно включить все моменты, осложняющие наивное проведение принципа максуд).
[Ответ][Цитата]
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 03 июн 18 1:25
Изменено: 03 июн 18 1:55
>вы должны осознать что 'cамо собою разумеющаяся необходимость скаляризации' является умственным наваждением. ПОложение о том, что аддитивная свертка многих критериев при решении задач векторного выбора не является универсальным решением, давно является общим местом.
======================
В общем случае это действительно так. Математика говорит нам, что не существует идеального метода свертки многокритериальной задачи в случае разной модальности (разной природы) этих самых критериев. И это совершенно естественно.

Но почему Вы решили, что нам нужно общее решение? Вы же сами говорите (и совершенно правильно) о том, что в конечном счете задача систем управления живых существ одна - это повышение выживаемости вида.
Это означает, что принципиальная возможность сведения к одному параметру задается изначально.

Критерии выбора используемые управленческими системами реальных жив. существ берутся не с потолка, не произвольно, они создаются и используются для решения задачи управления нацеленной на выживание вида. Т.е. они изначально предполагают их сводимость и скаляризацию. Нафига эволюции создавать такие системы управления, в которых бы рассматривались представления о действительности содержащие параметры никак не сводимые к задаче выживания. Никак - это значит никак. Никаким самым хитрым, опосредованным и запутанным образом. Типа тех, что позволяют свести к ней даже желание гиков заняться рассмотрением самых отвлеченных математических абстракций.

> так c чего вы взяли, что наблюдаемый выбор это выбор наибольшего (а не просто большего) положительного подкрепления?
=================
Потому что я точно знаю, что ни одно живое существо не откажется совершить некое действие "А" абсолютно точно зная, что после его совершения оно получит огромадное, запредельное удовольствие (типа того, что получают при достижении цели всей жизни) и минимальное неудовольствие (как душевное так и физическое), а при его не совершении все будет наоборот - жуткая боль, мучения и раскаянье и никакого удовлетворения. НИ ОДНО живое существо при такой альтернативе не сделает иной выбор.

Может быть Вы знаете такое существо?

>однако вы предпочтете регулярный дежурный обед столь же регулярным пропускам ради большего удовольствия от корочки... Что мешает вам вслед за французскими королями откушать, cблевануть и снова откушать? ВЫ подчинены норме, cтереотипу etc - а не универсальному (якобы) правилу максимизировать (и локально, и глобально).
================
Вот почему бы Вам вместо того что бы в десятый раз повторять заклинание про то, что: "вцелом ЕСТЕСТВЕННЫЙ агент стремится получить ДОСТАТОЧНЫЕ подкрепления (быть парето-оптимальным), а не 'максимум суммы'" - (это кто нам тут говорил про мантры? ) - взять да и не разложить по полочкам один из этих примеров. Не спеша. С чувством, с толком с расстановкой.

Как, что и почему там делается. Вот после того анализа, думаю, многое могло бы проясниться. Стало бы понятно, как именно принцип максуд регулирует все аспекты (пищевой, ориентировочной, социальной и др.) деятельности живых агентов.

Что люди стремятся избежать участи лоха, лузера, гамма-самца или бомжа вовсе не потому, что они рационально полагают, что это как-то скажется на выживаемости вида, а потому что ЛИЧНО им очень неприятно чувствовать себя лохом, лузером, гамма-самцом или бомжом (они априорно точно знают, что это очень неприятно).

Что если человеку каким-то образом удастся заглушить-купировать возможность получения этого неприятного ощущения собственной ущербности, например, с помощью алкогольной, религиозной или философской ментальной интоксикации, то перестав испытывать от этого страдание они с легкостью соглашаются быть терпилами (бог терпел и нам велел) или бомжами (Диоген).

Вот подробным разбором какого-то одного конкретного жизненного примера поведения реальных существ я и предлагаю заняться. Вместо очередной декларации своей позиции. Выбор этого примера я предоставляю Вам. Можно взять тех же римских патрициев (хотя его разбирать будет эстетически неприятно), можно какой-нибудь другой - который по Вашему мнению однозначно опровергает максуд.
[Ответ][Цитата]
гость
188.170.74.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 03 июн 18 3:54

Т.> Т.е. принципиальная возможность сведения к одному параметру задается изначально.

думаю что этот корневой 'один' параметр (выживаемость) как бы неформален, многосторонен, это идея, при его формализации и вылазит это многокритериальное представление. Уже говорилось про неоднозначность этого (мета)критерия - выживаемость индивида против выживаемости рода (вида). Индивид может не выживать, а своим
поведением способствовать выживанию рода. Но и вид может не выживать, а своим 'cистемным' 'поведением' способствовать продолжению существования живого вещества. КАк бы конкретизированная выживаемость (приуроченная к виду) не полностью характеризует суть дела. Вид должен характеризоваться с одной стороны устойчивостью, а с другой - способностью к эволюционной трансформации. Критерий махТ недостаточен - есть виды реликты (типо тупики), а есть и короткоживущие переходные квазивиды.

> я точно знаю

вы рассмативаете крайний случай - как пример с крысой. Было объяснено, что крайние (идеализированные) случаи не исчерпывают реальности.

> в десятый раз повторять

чтобы наконец дошло что именно вам говорят и почему идея максуд является обманкой. Помимо сказанного можно еще заметить, что вообще говоря живые организмы являются несовершенными компараторами альтернатив и не могут быть 'максимизаторами' при выборах между не крайними (выраженными) случаями, а в потоке реальных выборов.

еще раз. Полагать 'удовольствие' 2ухаспектным (знак и величина) это упрощение - есть третье измерение - специфичность (кстати, можете вспомнить про базовый семантический дифференциал), организм реагирует не только на 'плоский' образ стимула (в виде вызываемого им удовольствия-неудовольствия), но и на содержание-смысл стимула - в случае дочеловеческой семантики организм реагирует на степень специфичности ощущения-подкрепления доминирующей потребности. Базовой логикой является не максуд, а снижение потребностного напряжения (повышение степени удовлетворения потребности). Cами по себе
удовольствия могут быть неадекватны биологии и смыслу (напр. цели) и поэтому ОПАСНО выстраивать систему на основе максуд - система должна быть выстраиваема на основе
потребностной базы, механизмов формирования подкреплений, адаптации системы подкреплений к системе потребностей, cистеме целеопределения и уровню 'cознания' системы. ПО мере развития информационного сектора (знаний) в системе в ЯВНОМ виде начинает действовать помимо принципа удовольствия и принцип полезности - что-то может
признаваться полезным, но система подкреплений еще не адаптировалась к этому и не подкрепляет соотв. выбор, хотя система должна быть способной его совершить. ПОлезно обследовать территорию даже если очень страшно - и система должна терпеть страх, хотя подкрепление от исследовательского поведения пока не представлено на индивидуальном уровне. Примером-прототипом должна быть не крыса с электродом, а крыса, которая наперекор ударам тока и страху лезет обследовать темный угол (подкрепляя исследовательское поведение неспецифично).

> после того анализа

это задание дается вам - более внимательно вникнуть в проблематику, еще раз перечитать критику прямого проведения принципа максуд.

> им очень неприятно чувствовать себя лохом, лузером, гамма-самцом или бомжом

даже наивные обиходные примеры не должны быть столь поверхностными. Как говорилось, люди стремятся избежать крайних случаев негатива, - довольствуясь большим разнообразием ПРИЕМЛЕМЫХ состояний - как раз это вы не докажите что в каждой ситуации выбора (и в жизненной цепочке выборов) происходит максимизация, а не выбор более-менее приемлемого. Cредние случаи в массе трудносравнимы и поэтому организм не тратится на строгое решение задачи оптимизации (максимизации в ограничениях) (тем более в
общем случае многокритериальной и являющейся паретовой).

еще раз - идея максуд фиктивна - это под наблюдаемые компромиссные выборы ('cубрациональные') мы в целях объяснения ЗАДНИМ ЧИСЛОМ подверстываем простую идею скалярного экстремума (ультрарационализм) - типо нефальсифицируемо выбранному полагаем максуд, вместо того чтобы рассматривать реальную ситуацию-процесс выбора приемлемой (удовлетворяющей ограничениям) альтернативы.

нужно рассматривать не частные случаи, а случай общего положения - когда вариант выбора характеризуется (а) доставляемым вознаграждением, (б) ценностью (в понятиях RL) (оба пункта в отношении данной потребности или задачи накопления данных вознаграждений) и (в) включенностью ситуации выбора в общий мотивационный и жизненный контекст организма (вознаграждения характеризуются специфичностью и в общем случае не унифицируемы в единой шкале - фундаментальна ситуация многокритериальности, векторного вознаграждения). Идея максуд проводится в RL при отвлечении от (в), отчего она никак не может быть принята как решающая.
[Ответ][Цитата]
Victor G. Tsaregorodtsev
Сообщений: 3160
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 03 июн 18 10:02
Цитата:
Автор: Траян
А сложность, сложность возникает - причем, неимоверная, совершенно головоломная - при попытках практической реализации этого простенького принципа в реальных условиях. Там и многокритериальность местами вылазит и много еще чего. Весь СИИ, по сути дела, заточенный на максимизацию этой суммы.

Не, это Вы вынуждены брать многокритериальность (вернее, сводить в одну сумму несколько разных слагаемых) для того, чтобы получить одноэкстремальный рельеф суммарной целевой функции.

А в реальном случае многоэкстремального рельефа - фишкой СИИ должна быть совсем не максимизация суммы, а некоторая исследовательская стратегия, допускающая целенаправленное ухудшение состояния ради возможных плюшек в будущем (ради возможности попасть в окрестность более глубокого экстремума, где и можно будет затем радостно запустить простенькую стратегию по скатыванию из этой окрестности в самый-самый экстремум). После чего поход за приключениями на СИИшную задницу может повторяться - желательно, конечно, с памятью о прошлых ситуациях, чтобы, например, не лезть в ранее исследованные экстремумы, худшие по сравнению с лучшим найденным.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 04 июн 18 1:09


[Ответ][Цитата]
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 04 июн 18 2:39
Изменено: 04 июн 18 4:15
>Cами по себе удовольствия могут быть неадекватны биологии и смыслу (напр. цели) и поэтому ОПАСНО выстраивать систему на основе максуд
===================
Что мы и наблюдаем на каждом шагу. На опыте! В реальной жизни. Сама возможность реализации людьми саморазрушительного поведения - наркотики, переедание, нездоровый образ жизни и т.д. - есть прямое и объективное доказательство того, что их система управления подчиняется принципу максуд, а не принципам полезности (кстати, что это такое?)

За счет правильного воспитания, когда психика ребенка особенно восприимчива к кнутам и пряникам, т.к. это период построения базовых моделей мира, с помощью максуда можно заложить основы правильного поведения. И получить здоровую, гармонически развитую личность, с нормальной, крепкой и адекватной психикой. Стремящуюся совершать полезные для себя и общества поступки.
А можно - с помощью того же максуда! - так все исковеркать, что получится неврастенник, гедонист, монстр или извращенец.

>ПО мере развития информационного сектора (знаний) в системе в ЯВНОМ виде начинает действовать помимо принципа удовольствия и принцип полезности
====================
А откуда он берется и на что опирается? Почему система управления вдруг решает придерживаться именно этого принципа? Что ее к этому принуждает?

>ПОлезно обследовать территорию даже если очень страшно - и система должна терпеть страх, хотя подкрепление от исследовательского поведения пока не представлено на индивидуальном уровне. Примером-прототипом должна быть не крыса с электродом, а крыса, которая наперекор ударам тока и страху лезет обследовать темный угол (подкрепляя исследовательское поведение неспецифично).
=========================
Поисковая активность как и куча других априорно задаваемых форм поведения (пищевых, социальных, половых и т.д.) задается не как механические инструкции (это только безусловные рефлексы так задаются), типа машинных программ: делай то-то и то-то, а потом то-то и то-то, а с помощью корпуса априорных, т.е. изначально имеющихся у агента знаний, знаний отражающих опыт предков, содержащих в себе сообщения о том, что сделаешь это и это - и получишь вкусняшку (положит. ощущение). По отношению к поисковой активности доказательством служит тот кайф, который люди получают узнавая что-то новое и интересное. Чувство первооткрывателя.
Именно в погоне за этим кайфом и идут на начальные жертвы.

> нужно рассматривать не частные случаи, а случай общего положения
=========================
На общем уровне мы ничего друг другу не докажем. При имеющейся у нас доказательной базе, опирающейся на гипотезы и интуиции, ни Вы меня, ни я Вас ни в чем не убедим. И все сведется к бессмысленному сотрясению воздуха. Который уже начинает меня исподволь тяготить.

Единственный выход - перевод дискуссии в конкретику. Начав обсуждать какой-то конкретный и реальный пример поведения людей (безусловно имеющий место в действительности), который по Вашему мнению опровергает максуд, (а такой пример Вы должны придумать легко и просто, если считаете, что на общем уровне все ОК) мы можем выжать из нашего обсуждения хоть что-то для себя полезное.

>Идея максуд проводится в RL при отвлечении от (в), отчего она никак не может быть принята как решающая.
======================
Неверно. Нет никакого отвлечения. R генерируется с учетом контекста, всех сопутствующих обстоятельств. Я же говорил, что этот момент Вы не до конца понимаете.
[Ответ][Цитата]
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 04 июн 18 2:48
Цитата:
Автор: Victor G. Tsaregorodtsev
А в реальном случае многоэкстремального рельефа - фишкой СИИ должна быть совсем не максимизация суммы, а некоторая исследовательская стратегия, допускающая целенаправленное ухудшение состояния ради возможных плюшек в будущем...


Так ведь принцип максуд как раз и заточен именно на это. Руководствуясь этим принципом как раз и выбирается то действие, которое дает макс суммы подкреплений на всем протяжении выбираемого варианта будущего.

Но тут дело упирается в интеллектуальные возможности. Скажем, слабо развитые существа, способные прогнозировать лишь на один-два шага вперед, будет воленс-неволенс реализовывать "жадный" алгоритм.

Разумные (предусмотрительные) существа способны прогнозировать на годы и десятилетия вперед. Вот они и будут способны идти на серьезные первоначальные жертвы, дабы выиграть потом.
[Ответ][Цитата]
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 04 июн 18 2:53
To NO (Махадев поясняет, что такое рай и ад)

Как раз про это я и написал выше - в самих по себе кнуте и прянике не содержится ни боли, ни удовольствия.
[Ответ][Цитата]
kondrat
Сообщений: 3306
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 04 июн 18 2:56
Цитата:
Автор: Victor G. Tsaregorodtsev
А в реальном случае многоэкстремального рельефа - фишкой СИИ должна быть совсем не максимизация суммы, а некоторая исследовательская стратегия, допускающая целенаправленное ухудшение состояния ради возможных плюшек в будущем (ради возможности попасть в окрестность более глубокого экстремума, где и можно будет затем радостно запустить простенькую стратегию по скатыванию из этой окрестности в самый-самый экстремум). После чего поход за приключениями на СИИшную задницу может повторяться - желательно, конечно, с памятью о прошлых ситуациях, чтобы, например, не лезть в ранее исследованные экстремумы, худшие по сравнению с лучшим найденным.

Возможно, эта особенность элемента "тренируется снаружи" и даже имеет "общественное значение".
[Ответ][Цитата]
гость
188.170.81.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 04 июн 18 8:12

Т.> что их система управления подчиняется принципу максуд,

вы напрочь отказываетесь вникнуть в возражения - еще раз на досуге внимательно перечитайте возражения (последние 6 страниц). Когда принцип максуд голый, то имеем дефектное поведение. В норме нет чистого максуда.

основной аргумент прост - сранение альтернатив производится приблизительно (что-то типа в лучшем случае софтмакс), альтернативы характеризуются разнокачественными 'удовольствиями' (в области парето альтернативы не доминируют однозначно друг над другом) и - главное - НЕТ НЕОБХОДИМОСТИ максимизировать удовольствия - выбор НЕМАКСИМАЛЬНОГО ТОЖЕ совместимо с жизнеспособностью.

принцип максуд как бы слишком обязывающий, cлишком сильный - концептуально он неадекватен: его утверждение это значит максимизация удовольствий это самоцель организма. НО более реалистично считать, что самоцель организма не максимизировать удовольствия, а выполнить свою 'программу', - отработать циклограмму базовых потребностей, достигнуть поставленные цели. Эта программа подчинена 2м главным исходным функциям - выживательности и развития знания о среде. Ощущение подкрепления (чувство приятного и неприятного, эмоции) это промежуточный слой (между потребностью и принятием решения), удовольствие-неудовольствие только отражают в общих чертах что 'все идет правильно или что-то не так' - тенденция предпочтения приятного и избегания неприятного и предпочтения более приятного менее приятному (более-менее однокачественного) это никак не принцип максуд. ОРганизм может действовать
наперекор 'очевидным' удовольствиям - как любопытствующая крыса или жующая (по инстинкту) горькую травинку животина (тут опять этот общий случай - о пользе горечи знает не организм, знает как бы видовой опыт, воплощенный в организме, на уровне аппарата индивидуальных ощущений данная объективно полезная горечь еще не стала приятной - а может и не стать).

после длительной эволюции и адаптации аппарата подкрепляющий ощущений к системе родовых и индивидуальных потребностей при наблюдении за ним возникает иллюзия что принцип максуд базов - однако это не так - этот принцип не исходен, и не достаточен.

может имеет смысл поразмышлять над диалектикой то ли делаем что приятно, то ли приятно то, что делать полезно.. объективная полезность выживанию, когнитивному освоению среды порождает индивидуальные ощущения подкрепления, общая система порождения поведения вцелом как бы 'мудрее' чем индивидуальная система удовольствий-неудовольствий. Cначала система удовольствий-неудовольствий корректируется 'снизу' инстинктивными регуляциями (жувать горькую травинку или воздействие (объективно полезных) 'иррациональных' негативных эмоций) (что-то не смогло закрепиться в аппарате удовольствия), - потом механизмом целедостижения 'cверху' (когда цель сопряжена с абстрактной выгодой, не порождающей выраженного чувственного удовольствия - золотарь компенсируется
вознаграждением, но вряд ли это занятие способ максимизации приведенных удовольствий).

организм живет и выживает, есть консервативная тенденция и есть тенденция развивающая - принцип максуд не может не быть уравновешен принципом нежадности (cистематического ослабления озабоченности удовольствиями) - в совокупности это выражается в том, что организм вцелом не максимизирует удовольствия, а нормализует их поток, способен терпеть изрядные неудовольствия (лишь бы они были прогнозируемыми), поддерживает новизну и остроту на некотором нормальном уровне (удовольствия приедаются). Только поломка этого уравновешенного механизма приводит к формированию патологического
доминирования стремления к максимизации удовольствий.

> По отношению к поисковой активности доказательством служит тот кайф, который люди получают узнавая что-то новое и интересное

в отличие от любопытной крысы информационная потребность людей подкрепляется более специфично и возникает специфическое удовольствие (cм. физиологию кортико-лимбических отношений). Но общий принцип остается прежним - на новорм уровне возникают (воспроизводятся) 'вынуждаемые' формы поведения, которые не подкрепляются специфично. Как творческая личность может терпеть муки творчества так и не получив решающего вознаграждения-удовлетворения. КАк идеологическая личность может терпеть
муки/неудовольствия самоограничения ради призрачного воздаяния (когда трудно говорить что приятные ощущения предвкушения реальных удовольствий это удачная стратегия максимизации их превышения над реальными неудовольствиями). Однако это более-менее нормально - как нормально не 'максимизировать', а достигать более-менее компенсированного, уравновешенного, приемлемого (нормализованного) состояния.

> начинает меня исподволь тяготить

не отвечайте, просто примите к сведению сказанное против банальности принципа максуд (банальность при его неудовлетворительности вцелом).

если хотите 'теоретического' выхлопа, то задумайтесь над обобщенеием RL, когда ri не скаляры - само собою возникнет понимание, что максимизация сумм по компонентам работает только до области парето - а потом увеличение по одному критерию-измерению будет возможно только за счет снижения по другому..

> такой пример Вы должны придумать легко и просто

боюсь это вы настолько угорели от сколь элементарного, столь и неудовлетворительного максуда, что не видите очевидного - вы посмотрите на свою жизнь (бог с ними, c римскими патрициями ) - дежурные поступки, дежурные реакции, стереотипные выборы, рутинное поведение - ну где вы находите максуд?? cплошь норма реакций легкое шевеление чтобы чуть-чуть какие-то удовольствия увеличить и существование в нише приемлемого потока cпецифических вашему образу жизни удовольствий-неудовольствий.. не гамма - дык и не альфа.. и это нормально..
-------------

такое наблюдение. ВЫ прочувствовали что стандартной вероятностной аксиоматике ситуации
неопределенности предшествует ('онтологически') неконсистентность оценок неопределенности в квазивероятностной мере (ваш бмп). НО что-то мешает вам отвязаться от нормативности наваждения 'самоочевидного' принципа максуд - хотя должно быть даже более очевидно, что онтологическим предшественником является 'нечистый' максуд, стремление к увеличению суммы удовольствий не доводимое до конца (когда есть вещи (выживательность и инф. освоение среды) более важные чем удовольствия)..
ей-бо, вникните в сказанное, не соглашайтесь, но примите к сведению..
[Ответ][Цитата]
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 05 июн 18 2:39
Изменено: 05 июн 18 6:20
>вы напрочь отказываетесь вникнуть в возражения - еще раз на досуге внимательно перечитайте возражения (последние 6 страниц).
================
Я суть приводимых Вами возражений понял. Вы же понять мою аргументацию не хотите.

> принцип максуд как бы слишком обязывающий, cлишком сильный - концептуально он неадекватен: его утверждение это значит максимизация удовольствий это самоцель организма.
=================
Не организма в целом, а системы управления поведением.

>НО более реалистично считать, что самоцель организма не максимизировать удовольствия, а выполнить свою 'программу', - отработать циклограмму базовых потребностей, достигнуть поставленные цели.
==================
Снова скажу - максуд это не про организм в целом, а про его систему управления.

>после длительной эволюции и адаптации аппарата подкрепляющий ощущений к системе родовых и индивидуальных потребностей при наблюдении за ним возникает иллюзия что принцип максуд базов - однако это не так - этот принцип не исходен, и не достаточен.
===================
Для системы управления максуд базов, для организма в целом - нет.

>организм живет и выживает, есть консервативная тенденция и есть тенденция развивающая - принцип максуд не может не быть уравновешен принципом нежадности (cистематического ослабления озабоченности удовольствиями) - в совокупности это выражается в том, что ОРГАНИЗМ ВЦЕЛОМ (выделено мной -т.) не максимизирует удовольствия, а нормализует их поток, способен терпеть изрядные неудовольствия (лишь бы они были прогнозируемыми), поддерживает новизну и остроту на некотором нормальном уровне (удовольствия приедаются). Только поломка этого уравновешенного механизма приводит к формированию патологического
доминирования стремления к максимизации удовольствий.
===========
Все верно.


> КАк идеологическая личность может терпеть
муки/неудовольствия самоограничения ради призрачного воздаяния (когда трудно говорить что приятные ощущения предвкушения реальных удовольствий это удачная стратегия максимизации их превышения над реальными неудовольствиями).
=============
Потому как суммируются мат. ожидания будущих вознаграждений.

> боюсь это вы настолько угорели от сколь элементарного, столь и неудовлетворительного максуда, что не видите очевидного - вы посмотрите на свою жизнь (бог с ними, c римскими патрициями ) - дежурные поступки, дежурные реакции, стереотипные выборы, рутинное поведение - ну где вы находите максуд??
============
А разве я вижу варианты действий наверняка приводящие к достаточно большой сумме (к безграничному счастью)? Без последующих сожалений и угрызений совеcти?
Увидь такое - и я , и любой другой нормальный человек! - тут же бросится выполнять соответствующий план действий.

>ей-бо, вникните в сказанное, не соглашайтесь, но примите к сведению..
=============
Вник, принял. Вывод: все-таки зря я поленился и не объяснил с самого начала принцип максуд более подробно - многих бессмысленных препирательств удалось бы избежать. Поскольку в пояснения даваемые по ходу дела потом уже никто не хочет ни читать, ни вникать в них.

(продолжение следует)
[Ответ][Цитата]
Траян
Сообщений: 782
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 05 июн 18 3:25
Изменено: 05 июн 18 4:04
(продолжение)

Давным-давно, много-много лет назад, только-только приступая к разработке темы СИИ я решил начать это дело с изучения вопроса целеполагания. И пришел к максуду (не той его вульгарно-примитивной трактовке, кою воспринял Хмур и иже с ним, а вполне работоспособной, обоснованной и перспективной схеме его реализации).

Даже написал статью по этому поводу, которую потом где-то благополучно похерил, поскольку все показалось уж очень очевидным и никому не нужным. Среди многих положений этой статьи в свете нынешней дискуссии упоминания стоят следующие:

1. В функциональном отношении разум человека (рассматриваемый как прототип СИИ) состоит из двух частей - из эмоциональной составляющей (ЭС) и интеллектуальной составляющей (ИС).
(В последнее время, появилась мода называть ЭС "эмоциональным интеллектом" - но это глупость и перебор. ЭС и ИС - это не равноправные и равнозначные структуры, а это взаимодополняющие части одного целого. Бессмысленные друг без друга.)

2. Роль ЭС - в генерации оценок (с модальностью "приятно-неприятно") текущих состояний организма. Но не только. Он может оценивать и состояния внешней среды - но опираясь на данные из ИС. (именно поэтому оказываются возможными такие психологические феномены как аутотренинг и самовнушение). И еще он может оценивать (в некоторых, четко заданных рамках) и работу ИС.

3. Роль ИС - в формировании поведения, рациональном вычислении того, какое действия следует совершить.
Подлежащее выполнению действие находится путем выбора какого-то одного - наилучшего - из всего множества доступных. Наилучшее определяется после оценки тех будущих последствий, что могут наступить после его совершения.
Таким образом, ИС (т.е. система управления поведением) базируется в своей работе на чистом максуде. Только ИС (для разума, организма в целом, принцип максуда всего лишь инструмент, а не цель/доминанта).


4. Несмотря на наличие в реальных жив. существах некоторых связей между ЭС и ИС, по большому счету - в первом приближении - в функциональном отношении эти две системы могут рассматриваться как совершенно независимые друг от друга. Прямо и непосредственно повлиять на работу друг друга они не могут.

5. В ЭС генерация оценок лабильна и подвижна. И производится по очень хитрым НЕЛИНЕЙНЫМ схемам (отражающим в себе опыт предыдущих поколений) в контексте и с учетом множества сопутствующих факторов.
Одним из наиболее распространенных, очевидных и древних алгоритом реализации нелинейности - в уменьшении величины положит. ощущения при многократном повторении одного и того же стимула.

6. Помимо всего прочего в ЭС генерация оценок опирается на громадный массив априорных (врожденных) знаний, говорящая о тех формах поведения (социального, пищевого, полового и др.) которые следует реализовывать при тех или иных условиях (циркадных и сезонных в том числе).
Это древняя когнитивная часть ЭС весьма и весьма значительна и очень сложна.

7. ИС при прогнозировании тех или иных вариантов будущего помимо всего прочего учитывает и эти будущие смещения пол. и отр. оценок. Строя предположения о том, как в будущем ЭС изменит свое отношение к происходящему. Поскольку модели мира, которые строит ИС включают в себя и самого агента (предположения о его внутреннем устройстве в том числе) как часть этого мира.

8. К счастью, при создании СИИ нам вовсе не обязательно воспроизводить весь корпус знаний ЭС в искусственном агенте. Мы можем поступить гораздо проще и элегантнее.
Убив одним выстрелом сразу трех зайцев.
А именно, мы можем напрямую связать ЭС агента с ЭС человека-наблюдателя, создателя или юзера данного агента. Т.е. пусть не ЭС агента, а человек-наблюдатель генерирует для агента базовые ощущения (приятно-неприятно).- в зависимости от того, нравится ему как агент работатет или нет.
Это похоже на то, как если бы мы в эксперименте с крысой полностью отлучили бы саму крысу от педальки, а предоставили бы это делать наблюдателю за ее поведением.
[Ответ][Цитата]
 Стр.63 (97)1  ...  59  60  61  62  [63]  64  65  66  67  ...  97<< < Пред. | След. > >>