GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.18 (26)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Управление агентами
гость
62.205.211.*
На: Управление агентами
Добавлено: 18 окт 09 5:48
Цитата:
Автор: daner

Либо даем ему функцию априори (ну например сложение), либо заставляем его изучать эту функцию самостоятельно, но тогда, для этого необходимо каким-то образом сообщить агенту, что такое "рациональное"/"эффективное" поведение в данной среде. Как мне кажется, вопрос это открытый, и пожалуй работ я по этой тебе не видел. ХОТЯ, возможно, что когда все это будет проделано, окажется, что это тот-же самый RL, только обучение перенесли со стратегии действий, на стратегию вознаграждений (вот и все).


QLearning, в таком случае, будет ЧАСТЬЮ алгоритма. Той частью которая будет изучать.
Вы же сами твердили о необходимости умения делать декомпозицию задач и все такое. Вот это как раз тот случай.


заставляем его изучать эту функцию самостоятельно !

вопрос это открытый - согласен, но это не мешает попробывать его начатьь закрывать ... это вам не интересно ?

"QLearning, в таком случае, будет ЧАСТЬЮ алгоритма." - неуверен, в лучшем случае это лишь одно из возможных решений, и кажется не самым лучшим ... Т.к. тут требуется прогноз - а это делают хорошо только ИНС ... QLearning, и даже ГА прогнозировать не умеют ...

[Ответ][Цитата]
Oldfella Walk
Сообщений: 316
На: Управление агентами
Добавлено: 18 окт 09 8:11
Надо снабдить агентов возможностями вылавливать функции как таковые, в среде - помимо каких-либо форм активности агента - органами чувств... Ну и далее - организовать между агентами коммуникации, чтобы спровоцировать возможность сопоставления функций разных агентов и возникновения формальных, символических систем..
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:27
QUOTE's Автор: гость

Цитата:
Слишком самоуверенно Правильнее говорить, "я думаю, что я все понял" ...

Согласен. Тоже касается и вас.

Цитата:
"Q-таблица не собирает информацию о наградах, она собирает информацию о выгодности положения (это не одно и тоже)"

Нет, она собирает информацию о наградах, и на основе этого строить гиперплоскость выгодности положения (и это не одно и тоже)

Т.е. вы утверждаете, что в Q-таблице находиться информация о наградах? НЕТ, не верно. в Q-таблице находиться информация о выгодности положения. Т.е. агент собирает информацию о наградах, и дальше строит ту самую гипперплоскость, которой Q-таблица и является. В то время как Tac говорил о ИНС, которая (в его примере) являлась гипперплоскостью НАГРАД а не выгодностей. И это не одно и тоже.

Цитата:
"если рассматривать одно состояние, то ответом агента будет пара (состояние-действие)"

Нет, входом будет состояние. возможное действие - выходом оценка выгодности данного действия (ну вспомни какие индексы нужны для того, чтобы обратится к Кю-таблице)

Но ответ агента -- эта стратегия действий, которая описывается Q-таблицей. Т.е. по существу вся Q-таблица - есть решение задачи (это с натяжкой, так как реальное решение это именно функция "состояние-действие" (т.е. множество пар).

Цитата:
Ты отвечаешь (000100011), а тебе говорят:"Правильный ответ (001010011)" - повторяю еще раз -
один вариант: Ты отвечаешь (000100011), а тебе говорят правильно/неправильно (ВСЕ) - за это платим более долгим схождением

Сомневаюсь что это именно так (приведите конкретно источник откуда такой пример). Допускаю, что вы правы и тогда это просто классический RL.
Цитата:
второй вариант: Ты отвечаешь (000100011), а тебе говорят согласен/несогласен, и в случае несогласен добавляют, а я думаю (001010011)

Это демагогия. Если сообщается правильный ответ, то нет смысла сообщать "согласен/несогласен".

Цитата:
Если 001010011 интерпретировать как оценку пары состояния-действия - то это будет тоже самое ....

Не понял, что "тоже самое"? Оценка у нас -- это награда. Награда дается (как вы верно заметили) за пару (состояние-действе). НО это не тоже самое, что храниться в Q-таблице. В Q-таблице сохраняется значение ВЫГОДНОСТИ состояний. Скажем вы находитесь в состоянии С1 и у вас два действия Д1,Д2. Награда за Н(С1,Д1) = 5 а за Н(С1,Д2) = 10. Ваша ИНС выучит именно это, НО стратегия построенная только на такой информации будет НЕ ВЕРНОЙ. Как ни странно покажется, но Q не обязательно равна Н.
Т.е. вполне может оказаться, что после обучения мы получим Q(С1,Д1)>Q(С1,Д2) и именно это приведет к правильной/рациональной стратегии.

Цитата:
Ну хочешь называй это РЛ на ИНС ... НО от этого алгоритм ИНС вообще ни как не поменялся - изменилась только интерпретация его выхода - вот и все

первый вариант -- именно так и будет, а вот второй -- нет.
Давай проще. Я точно могу сказать, что BP -- НЕ RL, но в месте с тем, это классический пример алгоритма с учителем.
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:36
QUOTE's Автор: гость

Цитата:
А чем по вашему отличается награда от состояния ? По мне награда - это частный случай состояния среды!

Вот от сюда и ошибка в понимании. Если бы это было так -- тогда не надо было бы их разделять. Награда -- не часть состояния среды. Вот если бы она зависела только от того состояния где вы находитесь (как в твоем примере детерминированной среды), тогда -- ДА, но как только, она начинает зависеть еще и от действий агента, это перестает быть состоянием среды.

Цитата:
"она НЕ является частью состояний НИ агента, НИ среды" ОНА из космаса дана свыше ? Ничего кроме среды, и агента не существует, а среда это просто пространство стимулов и ничего больше .... поэтому НИ агента, НИ среды - тогда встает закономерный вопрос а частью чего она является ?

Она является частью среды -- но не частью СОСТОЯНИЯ среды. Точно так же, как действия агента, не являются его состоянием и не являются состоянием среды, но при этом, они входят в описание как среды, так и агента.
Обратите внимание на данное же вами определение среды (хотя мне оно очень не нравиться не определенностью термина "стимул"). Среда определенна не как пространство состояний, а именно как пространство стимулов. в MDP стимулы это все вместе -- состояния, и награды за действия в каждом из состояний.
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:41
QUOTE's Автор: гость
Цитата:

заставляем его изучать эту функцию самостоятельно !

вопрос это открытый - согласен, но это не мешает попробывать его начатьь закрывать ... это вам не интересно ?

Интересно, но РАНО. Я не люблю громких заявлений и не люблю строить здание с крыши.
Для меня есть еще много открытых вопросов (возможно они открыты только для меня) до того, как я перейду к алгоритмам поискa такой функции.

Цитата:
"QLearning, в таком случае, будет ЧАСТЬЮ алгоритма." - неуверен, в лучшем случае это лишь одно из возможных решений, и кажется не самым лучшим ... Т.к. тут требуется прогноз - а это делают хорошо только ИНС ... QLearning, и даже ГА прогнозировать не умеют ...

"Кажется" -- не хочу обсуждать. А заявление типа "прогноз - делают хорошо только ИНС", вообще для меня нелепо.
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:45
Цитата:
Автор: Oldfella Walk
Надо снабдить агентов возможностями вылавливать функции как таковые, в среде - помимо каких-либо форм активности агента - органами чувств... Ну и далее - организовать между агентами коммуникации, чтобы спровоцировать возможность сопоставления функций разных агентов и возникновения формальных, символических систем..

"Взять, да и поделить всё." (c).
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 20:49
Цитата:
Автор: daner

Если бы это было так -- тогда не надо было бы их разделять. Награда -- не часть состояния среды. Вот если бы она зависела только от того состояния где вы находитесь (как в твоем примере детерминированной среды), тогда -- ДА, но как только, она начинает зависеть еще и от действий агента, это перестает быть состоянием среды.



"тогда -- ДА" - этого достаточно !

"как только, она начинает зависеть еще и от действий агента, это перестает быть состоянием среды" - такое возможно в задаче МДП ? Как миниму4м в обсуждаемой задаче такого нет ! Поэтому не стоит обсуждать те вариантыы, которые мы не обсуждали, а затем обобщать на все случаи !
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 20:52
Цитата:
Автор: daner
А заявление типа "прогноз - делают хорошо только ИНС", вообще для меня нелепо.


Это сказано естественно в контексте QL, ГА либо ИНС ... если же есть другие подходы к прознозированию, которые имеет смысл обсуждать в рамках нашей задачи - то предлагайте, а не разводите димагогию что нелепо/ а что нет
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 20:56
Цитата:
Автор: daner

Интересно, но РАНО. Я не люблю громких заявлений и не люблю строить здание с крыши.
Для меня есть еще много открытых вопросов (возможно они открыты только для меня) до того, как я перейду к алгоритмам поискa такой функции.


Ок. Подождем ... Но должен быть чертеж здания - весь!, а лишь потом реализация фундамента, стен, крыши ...
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 21:11
Цитата:
Автор: daner

(хотя мне оно очень не нравиться не определенностью термина "стимул").


Стимул - представляет собой любое непустое множество входных сигналов, поступающих к агенту в момент времени t.

Достаточно определенно ? Или дать еще определение сигнала и генератора сигнала ?
[Ответ][Цитата]
Oldfella Walk
Сообщений: 316
На: Управление агентами
Добавлено: 18 окт 09 22:04
Цитата:
Автор: daner
"Взять, да и поделить всё." (c).


Я понимаю Вашу иронию, профессор... но, может быть, Вы купите журналы, в пользу детей Германии, по полтиннику штука?
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 22:04
Цитата:
Автор: daner

Обратите внимание на данное же вами определение среды (хотя мне оно очень не нравиться не определенностью термина "стимул"). Среда определенна не как пространство состояний, а именно как пространство стимулов. в MDP стимулы это все вместе -- состояния, и награды за действия в каждом из состояний.


Это так ... но я по прежнему не вижу необходимости отличать состояние от награды, и именно поэтому для меня и то и другое стимулы, которые уже потом можно итерпретировать как угодно ... т.е. как я и говорил - это вопрос сугобо интерпретации ... а все прочие зависит лишь от того какую терминалогию использовать ... НО принципиальной разницы НЕТ
[Ответ][Цитата]
Oldfella Walk
Сообщений: 316
На: Управление агентами
Добавлено: 18 окт 09 22:15
Цитата:
Автор: tac

Стимул - представляет собой любое непустое множество входных сигналов, поступающих к агенту в момент времени t.

Достаточно определенно ? Или дать еще определение сигнала и генератора сигнала ?


Обязательно непременно дайте! И не забудьте осветить и стимул, и сигнал на предмет содержания информации - всегда содержит, может содержать и т.п.
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 22:45
Цитата:
Автор: Oldfella Walk

Обязательно непременно дайте! И не забудьте осветить и стимул, и сигнал на предмет содержания информации - всегда содержит, может содержать и т.п.


В качестве сигнала - может быть использована любая измеримая переменная величина, например напряжение, сила тока, интенсивность света, химическая концентрация. сигнал обычно характеризуется амплитудой, временем и местоположением.

Генератором сигнала является любой физический элемент или устройство, способные производить сигнал.

Наличие сигнала является необходимым условием наличия информации, но далеко не достаточным.

Сигнал - это вид события, в котором передача происходит асинхронно. Событие - это описание некоторого факта, которое занимает некоторое положение во времени и пространстве. Различают как миниму два вида сигналов: 1. сигнал который вызывает переход из одного состояния в другое (взимоидействие среда-агент), 2. отправка сообщения при взаимодействии агентов
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 23:21
Цитата:
Автор: daner

Оценка у нас -- это награда. Награда дается (как вы верно заметили) за пару (состояние-действе). НО это не тоже самое, что храниться в Q-таблице. В Q-таблице сохраняется значение ВЫГОДНОСТИ состояний. Скажем вы находитесь в состоянии С1 и у вас два действия Д1,Д2. Награда за Н(С1,Д1) = 5 а за Н(С1,Д2) = 10. Ваша ИНС выучит именно это, НО стратегия построенная только на такой информации будет НЕ ВЕРНОЙ. Как ни странно покажется, но Q не обязательно равна Н.
Т.е. вполне может оказаться, что после обучения мы получим Q(С1,Д1)>Q(С1,Д2) и именно это приведет к правильной/рациональной стратегии.



1. В весовых коэффициентах тоже хранится не награда ! (а ничего другого в ИНС не хранится) Что там хранится ? Там хранится прогноз к ВЫГОДНОСТИ состояний.

2. Да, ИНС выучит эти опорные точки. Но ни кто не мешает их переучить, а видь именно это происходит в QL. Т.е. Q(С1,Д1)>Q(С1,Д2) может получится лишь при условии, что агент снова получит награду за Н(С1,Д1) и она будет не 5, а 9 ... Переучите ИНС применяя сложение, так же как в QL. Подходите с одной линейкой - и получите тоже самое ! (повторяю еще раз алгоритм обучения ИНС тут не причем )

Единственно, что получается - это в QL априорно засунута функция трансформации из наград в выгодность состояний. Такую функцию как правило ИНС не дают ... вот получатеся только этим и отличается обучение с учителем от обучения с подкреплением.

Хотя по хорошему именно эта функция трансформации и должна быть искомой ! Но тут мы упираемся в то, что для Вас РАНО ...
[Ответ][Цитата]
 Стр.18 (26)1  ...  14  15  16  17  [18]  19  20  21  22  ...  26<< < Пред. | След. > >>