GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.6 (8)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Модель внешней среды для интеллекта
Львович
Сообщений: 303
На: Модель внешней среды для интеллекта
Добавлено: 25 окт 07 19:19
Цитата:
daner:
1) что вы называете тактом?

Так как моя модель - это почти PO-MDP, то под тактом понимается переход к следующему состоянию среды, элементу последовательности, значению оценки и т.п.

Мой алгоритм как бы "живет" в среде. Естественно в среде должены существовать замкнутые циклы состояний, среди которых алгоритм находит тот, на котором получает наибольшее вознаграждение.

Цитата:
2) А что если меняются сами награды? ...что если изменяется среда?

Тогда дело - дрянь! Но это уже не MDP, когда новое состояние зависит только от текущего состояния и выбранного действия.
Получается portionaly observed не только по состояниям, но и по времени! Т.е. пока наш робот "ловил мух" состояние среды изменилось несколько раз и он наблюдает не O(n+1), а O(n+1+delay), где delay может быть как фиксированная, так и плавающая.
С такой средой, я еще не работал.

Однако на измерение эффективности алгоритма это никак не влияет! Я уже где-то писал, что за 0 обучаемости можно принять сумму наград, "заработанную" генератором случайной активности. Самообучающийся алгоритм должен обеспечить не просто рост, а рост по сравнению с генератором шума.

Возвращаясь к изменяющейся среде. Мой алгоритм (предположительно) должен эффективно себя проявлять и в менящейся среде, при условии, что эти изменения происходят достаточно редко! Для него это будет означать, что среда состоит из некоторого количества слабо связанных похожих групп состояний. И он вполне сможет использовать опыт, приобретенный в одной из групп, в других.

Изменяющаяся среде также эквивалентна бесконечной среде (с бесконечным числом состояний если изменения не циклические). Обучение в такой среде возможно только если изменения происходят не быстро, что для бесконечной среды равносильно близкому расположению похожих групп состояний.
[Ответ][Цитата]
daner
Сообщений: 4602
На: Модель внешней среды для интеллекта
Добавлено: 25 окт 07 22:13
Ну ДОПУСТИМ, это теоретически верно (т.е. я то согласен, но все равно доказывать надо).
Что это дает нам? Ну кроме сравнения алгоритмов обучения (в прочем, тоже не до конца ясно как их сравнивать, точечной, или за какой то большой период времени.... Короче, как использовать, этот вывод? Есть идеи?
[Ответ][Цитата]
Львович
Сообщений: 303
На: Модель внешней среды для интеллекта
Добавлено: 26 окт 07 18:15
Собственно, это не вывод, а методика. Которая исходит из цели создания самообучающегося алгоритма. Я поставил перед собой цель, создать маскимально универсальный алгоритм, способный максимально эффективно достигать произвольную цель. Вот такая тавтология, вернее рефлексия.
Естественно, мне (и алгоритму тоже) требуется универсальный критерий степени достижения цели. Так как я работаю в дискретном времени и предполагаю в (общем случае) бесконечную (возможно циклическую) работу алгоритма в среде, удовлетворяющей условиям, указанным в предыдущем посте, то меня интересует степень достижения цели на всем временном промежутке, а не в конкретной точке. Поэтому я и использую интегральный показатель.
Конечно же для практических задач (типа хождения по лабиринту), я сначала формулирую цель словестно, но потом обязательно математически, как скалярную функцию от состояния среды (например расстояние до флажка и т.п.).
Вот тут-то и возникает проблема правильного обучения. Т.е. обучения от простого к сложному. Сначала цели должны быть простые, потом сложнее и сложнее. Попытка поставить сразу сложную цель (со ступенчатым критерием в самом конце) приводит к тому, что алгоритму "не за что зацепиться" и он не не в состоянии обучаться. Честно говоря эксперименты с усложнением целей я пока не ставил, надо попробовать.
[Ответ][Цитата]
daner
Сообщений: 4602
На: Модель внешней среды для интеллекта
Добавлено: 26 окт 07 18:52
>>>>>>>Львович.
Лучше, нам с вами на эту тему не общаться, какое-то время. Боюсь, что мы идем очень близкими путями (хотя и не совсем), но во избежании недоразумений авторства, стоит на этом приостановиться, до опубликования в издательствах достойных надёжности в сфере защиты авторских прав.
Пока, мы еще важного ничего не сказали, да и возможно я вообще ошибаюсь, на счет похожести подходов, но... думаю это самый разумный выход.
Планируемая публикация моей статьи в АААI08 (даты у них на сайте).
Поэтому, с моей стороны, тема "замораживается" до выхода моей статьи в свет.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Модель внешней среды для интеллекта
Добавлено: 27 окт 07 18:07
Вот так всегда! На самом интересном месте
Придется пока обсуждать на образце смывные бачки
А если серьезно, то надо тоже озаботиться публикацией. Ну и поизучать те идеи, которые тут возникли.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 9:14
Сегодня "поместил" свой самообучающийся алгоритм в лабиринт:
*************
*.S.*.#...F.*
*.#.*.#.*****
*.#...#...#.*
*************
Это прямоугольник 3x2. # - клетки, по которым можно ходить, * - стены. Точки поставлены вместо пробелов для "удержания" рисунка.
Подал на вход два двоичных рецептора:
1. Стена впереди
2. Стена справа
Эффекторы настроил на выполнение трех команд:
1. Сделать шаг вперед.
2. Повернуться направо и сделать шаг вперед.
3. Повернуться налево и сделать шаг вперед.
При попытке сделать шаг на стену, шаг не делается (но поворот выполняется) и алгоритм получает наказание.

Цель - проити от S до F, не получив наказания. При этом при попадании в F, он сразу же переносится в S и задача повторяется.

Так так все "коридоры" имеют ширину 1 и алгоритм не может разворачиваться назад за один ход, то при попадании в тупик, он вынужден "лезть на стену" и получать наказание.
------------
Результат: Алгоритм сделал чуть менее 300 ходов, пока не научился безошибочно находить верный путь.
Замечу, что эта "среда" имеет 5x4=20 состояний, из каждого из которых есть 3 перехода. При этом существует единственный путь "правильного" обхода, который должен быть найден.
Как я и предполагал, он сначала "проскакивал" поворот налево на нижней средней клетке, более того он его проскакивал и при выходе из тупика из правой нижней клетке.
[Ответ][Цитата]
Алхимик
Сообщений: 315
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 11:44
Вопрос: а если сделать набор действий более естественным, т. е. 2 и 3 пусть будут простыми поворотами вправо и влево (такой набор действий тоже позволяет достигнуть целевой точки)? Будет ли проходить обучение? Не будет ли перс застревать в циклах?
Еще: у вас рассматривается только наказания, как на счет положительных подкреплений?
Это из-за того, что вы выбрали такую систему эффекторов, у вас получается, что правильный путь к цели - единственный без наказаний, но в более сложных задачах без поощрений не обойтись(имхо).
[Ответ][Цитата]
daner
Сообщений: 4602
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 14:06
Хорошо было бы , если бы вы сделали тоже самое на RL (Q-learning,sarsa). Тогда можно было бы и правда сравнивать. А то так... ну 300, ну 5000...
[Ответ][Цитата]
Львович
Сообщений: 303
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 20:30
Цитата:
Алхимик:
а если сделать набор действий более естественным, т. е. 2 и 3 пусть будут простыми поворотами вправо и влево (такой набор действий тоже позволяет достигнуть целевой точки)? Будет ли проходить обучение? Не будет ли перс застревать в циклах?
Еще: у вас рассматривается только наказания, как на счет положительных подкреплений?
Это из-за того, что вы выбрали такую систему эффекторов, у вас получается, что правильный путь к цели - единственный без наказаний, но в более сложных задачах без поощрений не обойтись(имхо).

Все будет зависеть от формулирования цели. Ведь вообще-то говоря алгоритм стремиться не к точке F, а к максимизации поощрения. А в данном случае отсутвие наказания и есть поощрение
Если же мы будем поощрять только в самом конце (в момент достижения точки F), то мы обрекаем алгорит на случайный поиск в системе имеющей порядка 3^20 вариантов.
Если разделять повороты и движение, то необходимо наказывать за два (и более) поворота подряд, иначе алгоритм действительно зациклится на поворотах.
[Ответ][Цитата]
daner
Сообщений: 4602
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 21:38
кстати, а что у вас есть состояние? Х:Y агента на карте?
[Ответ][Цитата]
Virtual_Graph
Сообщений: 594
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 23:12
Цитата:
Автор: Львович
Если же мы будем поощрять только в самом конце (в момент достижения точки F), то мы обрекаем алгорит на случайный поиск в системе имеющей порядка 3^20 вариантов.

В этом - вся проблема, т.к. именно это характерно для задач Real World. Награда обычно ожидается в самом конце цепочки шагов (если конечно эта цепочка правильная). Если же до получения награды достаточно одного шага, то задача становится тривиальной и никакого интеллекта здесь не требуется.

Весь фокус в том, что организм преодолевает "холмы" в пространстве признаков, какими бы высокими они ни были. При этом математический антиградиентный алгоритм неминуемо застрянет в к.-л. яме. Моментум (инерция) так же не всегда может помочь, т.к. он проскакивает мелкие ямы, но может не преодолеть большой холм. Если моментум увеличить, возникает опасность потери важных минимумов, т.к. шаги получаются слишком большими.

Возникает задача динамической подстройки моментума для конретной задачи, а если среда еще имеет свойство меняться, т.е. горы - расти, ямы - превращаться в овраги и т.д., то эта задача как раз для ИИ. Поэтому алгоритм поиска таких экстремумов неизбежно не может быть математическим, а значит не может быть формальным.
[Ответ][Цитата]
Virtual_Graph
Сообщений: 594
На: Модель внешней среды для интеллекта
Добавлено: 03 ноя 07 23:14
Какие-то глюки... Но точно не у меня
[Ответ][Цитата]
Алхимик
Сообщений: 315
На: Модель внешней среды для интеллекта
Добавлено: 04 ноя 07 10:07
Цитата:
Автор: Львович
Все будет зависеть от формулирования цели. Ведь вообще-то говоря алгоритм стремиться не к точке F, а к максимизации поощрения. А в данном случае отсутвие наказания и есть поощрение
Если же мы будем поощрять только в самом конце (в момент достижения точки F), то мы обрекаем алгорит на случайный поиск в системе имеющей порядка 3^20 вариантов.
Если разделять повороты и движение, то необходимо наказывать за два (и более) поворота подряд, иначе алгоритм действительно зациклится на поворотах.

Это задача очень простая. В более реальных задачах должно быть конечное большое поощрение. Поиск должен быть, но почему случайный? У системы есть память. В процесе поиска выявляются ситуации, попадание в которые корелируется с попаданием в конечную целевую точку. Если система выявит эту кореляцию, то подобная ситуация становится подцелью и ей назначается меньшая награда (или переносится часть конечной). Типа как в шахматах, цель мат. Но чтобы ее достичь, нужно выиграть материал, получить лучшую позицию, развить фигуры и пр.
Еще можно учесть время, назначая очень малый штраф за ход. Системе будет невыгодно топтаться на месте.
А вообще хорошо, что вы написали о решаемой вами задаче. Надеюсь, что и следующие озвучите. Будет возможность пойти за вами вслед и сравнить.
to Virtual_Graph: а что значит нематематический алгоритм? Может озвучите, а мы попробуем сделать приближенный к нему математический, может погрешность будет достаточно малой, для того чтобы решать те же задачи?
[Ответ][Цитата]
Virtual_Graph
Сообщений: 594
На: Модель внешней среды для интеллекта
Добавлено: 04 ноя 07 11:16
Цитата:
Автор: Алхимик
Если система выявит эту кореляцию, то подобная ситуация становится подцелью и ей назначается меньшая награда (или переносится часть конечной).

Еще раз хочу обратить внимание - в реальном мире на промежуточных этапах, ведущих к цели, нет никаких "меньших наград" - там вообще нет никаких наград! Награда будет после самого последнего этапа, а если нет - начинай сначала или с к.-л. промежуточного этапа. Поэтому разница между методом решения задачи живым организмом и математическими методами очевидна - это вовсе не RL, не Q-Learning, не MDP и т.д.

Под нематематическим алгоритмом я понимаю неформальный, т.е. такой алгоритм, который не может быть жестко определен до решения задачи. И вот здесь заменителем этих "наград" могут выступать эмоции, которые показывают, что вероятность достижения цели повысилась, т.е. правильной дорогой идешь товарисч! или понизилась, т.е. движемся совсем не туда

Будет ли такая модель математической? Возможно будет. Но она точно будет неформальной и я имел ввиду именно это
[Ответ][Цитата]
Алхимик
Сообщений: 315
На: Модель внешней среды для интеллекта
Добавлено: 04 ноя 07 19:46
Цитата:
Автор: Virtual_Graph
Еще раз хочу обратить внимание - в реальном мире на промежуточных этапах, ведущих к цели, нет никаких "меньших наград" - там вообще нет никаких наград! Награда будет после самого последнего этапа, а если нет - начинай сначала или с к.-л. промежуточного этапа.

Что есть награда? Это внешний стимул, который вызывает положительные эмоции, или удовлетворяет какие-либо потребности или мотивации, которые в свою очередь вызывают положительные эмоции. Юный шахматист свой первый мат ставит чуть ли не случайно. Правило пижонов и новичков: если видишь шах, сделай его - он может оказаться матом. Но этот мат вызывает эмоции. Вместе с конечной позицией запоминаются и предшествующие, признаки ведущие к мату. И память об положительной эмоции распространяется и на них. В дальнейшем эта память будет играть роль награды: внешнего стимула нет , но память о положительной прошлой эмоции возбуждает такую же эмоцию.
А ведь есть еще учитель, который явно выдает награды на промежуточных подцелях. "Петя сделал хороший ход!" И Пете в дальнейшем уже проще будет находить чем-то похожие ходы - есть эмоциональная зацепка, пусть даже его уже не будут хвалить за них.

Цитата:
Автор: Virtual_Graph
Поэтому разница между методом решения задачи живым организмом и математическими методами очевидна - это вовсе не RL, не Q-Learning, не MDP и т.д.

Под нематематическим алгоритмом я понимаю неформальный, т.е. такой алгоритм, который не может быть жестко определен до решения задачи. И вот здесь заменителем этих "наград" могут выступать эмоции, которые показывают, что вероятность достижения цели повысилась, т.е. правильной дорогой идешь товарисч! или понизилась, т.е. движемся совсем не туда

Будет ли такая модель математической? Возможно будет. Но она точно будет неформальной и я имел ввиду именно это

Не так уж и различно мы на эмоции смотрим. Путаница из-за значений слов "формальный", "математический".
Приведите примерчик неформального алгоритма, а то я не врублюсь. Создается впечатление, что все известные алгоритмы - формальные и математические, а не формальные - это неизвестные. Но в таком случае их просто в природе нет. Как только они станут известными...
[Ответ][Цитата]
 Стр.6 (8)1  2  3  4  5  [6]  7  8<< < Пред. | След. > >>