GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.18 (26)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Управление агентами
гость
62.205.211.*
На: Управление агентами
Добавлено: 18 окт 09 5:48
Цитата:
Автор: daner
Либо даем ему функцию априори (ну например сложение), либо заставляем его изучать эту функцию самостоятельно, но тогда, для этого необходимо каким-то образом сообщить агенту, что такое "рациональное"/"эффективное" поведение в данной среде. Как мне кажется, вопрос это открытый, и пожалуй работ я по этой тебе не видел. ХОТЯ, возможно, что когда все это будет проделано, окажется, что это тот-же самый RL, только обучение перенесли со стратегии действий, на стратегию вознаграждений (вот и все).
QLearning, в таком случае, будет ЧАСТЬЮ алгоритма. Той частью которая будет изучать.
Вы же сами твердили о необходимости умения делать декомпозицию задач и все такое. Вот это как раз тот случай.
заставляем его изучать эту функцию самостоятельно !
вопрос это открытый - согласен, но это не мешает попробывать его начатьь закрывать ... это вам не интересно ?
"QLearning, в таком случае, будет ЧАСТЬЮ алгоритма." - неуверен, в лучшем случае это лишь одно из возможных решений, и кажется не самым лучшим ... Т.к. тут требуется прогноз - а это делают хорошо только ИНС ... QLearning, и даже ГА прогнозировать не умеют ...
[
Ответ
][
Цитата
]
Oldfella Walk
Сообщений: 316
На: Управление агентами
Добавлено: 18 окт 09 8:11
Надо снабдить агентов возможностями вылавливать функции как таковые, в среде - помимо каких-либо форм активности агента - органами чувств... Ну и далее - организовать между агентами коммуникации, чтобы спровоцировать возможность сопоставления функций разных агентов и возникновения формальных, символических систем..
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:27
QUOTE's Автор: гость
Цитата:
Слишком самоуверенно
Правильнее говорить, "я думаю, что я все понял" ...
Согласен. Тоже касается и вас.
Цитата:
"Q-таблица не собирает информацию о наградах, она собирает информацию о выгодности положения (это не одно и тоже)"
Нет, она собирает информацию о наградах, и на основе этого строить гиперплоскость выгодности положения (и это не одно и тоже)
Т.е. вы утверждаете, что в Q-таблице находиться информация о наградах? НЕТ, не верно. в Q-таблице находиться информация о выгодности положения. Т.е. агент собирает информацию о наградах, и дальше строит ту самую гипперплоскость, которой Q-таблица и является. В то время как Tac говорил о ИНС, которая (в его примере) являлась гипперплоскостью НАГРАД а не выгодностей. И это не одно и тоже.
Цитата:
"если рассматривать одно состояние, то ответом агента будет пара (состояние-действие)"
Нет, входом будет состояние. возможное действие - выходом оценка выгодности данного действия (ну вспомни какие индексы нужны для того, чтобы обратится к Кю-таблице)
Но ответ агента -- эта стратегия действий, которая описывается Q-таблицей. Т.е. по существу вся Q-таблица - есть решение задачи (это с натяжкой, так как реальное решение это именно функция "состояние-действие" (т.е. множество пар).
Цитата:
Ты отвечаешь (000100011), а тебе говорят:"Правильный ответ (001010011)" - повторяю еще раз -
один вариант: Ты отвечаешь (000100011), а тебе говорят правильно/неправильно (ВСЕ) - за это платим более долгим схождением
Сомневаюсь что это именно так (приведите конкретно источник откуда такой пример). Допускаю, что вы правы и тогда это просто классический RL.
Цитата:
второй вариант: Ты отвечаешь (000100011), а тебе говорят согласен/несогласен, и в случае несогласен добавляют, а я думаю (001010011)
Это демагогия. Если сообщается правильный ответ, то нет смысла сообщать "согласен/несогласен".
Цитата:
Если 001010011 интерпретировать как оценку пары состояния-действия - то это будет тоже самое ....
Не понял, что "тоже самое"? Оценка у нас -- это награда. Награда дается (как вы верно заметили) за пару (состояние-действе). НО это не тоже самое, что храниться в Q-таблице. В Q-таблице сохраняется значение ВЫГОДНОСТИ состояний. Скажем вы находитесь в состоянии С1 и у вас два действия Д1,Д2. Награда за Н(С1,Д1) = 5 а за Н(С1,Д2) = 10. Ваша ИНС выучит именно это, НО стратегия построенная только на такой информации будет НЕ ВЕРНОЙ. Как ни странно покажется, но Q не обязательно равна Н.
Т.е. вполне может оказаться, что после обучения мы получим Q(С1,Д1)>Q(С1,Д2) и именно это приведет к правильной/рациональной стратегии.
Цитата:
Ну хочешь называй это РЛ на ИНС ... НО от этого алгоритм ИНС вообще ни как не поменялся - изменилась только интерпретация его выхода - вот и все
первый вариант -- именно так и будет, а вот второй -- нет.
Давай проще. Я точно могу сказать, что BP -- НЕ RL, но в месте с тем, это классический пример алгоритма с учителем.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:36
QUOTE's Автор: гость
Цитата:
А чем по вашему отличается награда от состояния ? По мне награда - это частный случай состояния среды!
Вот от сюда и ошибка в понимании. Если бы это было так -- тогда не надо было бы их разделять. Награда -- не часть состояния среды. Вот если бы она зависела только от того состояния где вы находитесь (как в твоем примере детерминированной среды), тогда -- ДА, но как только, она начинает зависеть еще и от действий агента, это перестает быть состоянием среды.
Цитата:
"она НЕ является частью состояний НИ агента, НИ среды" ОНА из космаса дана свыше ? Ничего кроме среды, и агента не существует, а среда это просто пространство стимулов и ничего больше .... поэтому НИ агента, НИ среды - тогда встает закономерный вопрос а частью чего она является ?
Она является частью среды -- но не частью СОСТОЯНИЯ среды. Точно так же, как действия агента, не являются его состоянием и не являются состоянием среды, но при этом, они входят в описание как среды, так и агента.
Обратите внимание на данное же вами определение среды (хотя мне оно очень не нравиться не определенностью термина "стимул"). Среда определенна не как пространство состояний, а именно как пространство стимулов. в MDP стимулы это все вместе -- состояния, и награды за действия в каждом из состояний.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:41
QUOTE's Автор: гость
Цитата:
заставляем его изучать эту функцию самостоятельно !
вопрос это открытый - согласен, но это не мешает попробывать его начатьь закрывать ... это вам не интересно ?
Интересно, но РАНО. Я не люблю громких заявлений и не люблю строить здание с крыши.
Для меня есть еще много открытых вопросов (возможно они открыты только для меня) до того, как я перейду к алгоритмам поискa такой функции.
Цитата:
"QLearning, в таком случае, будет ЧАСТЬЮ алгоритма." - неуверен, в лучшем случае это лишь одно из возможных решений, и кажется не самым лучшим ... Т.к. тут требуется прогноз - а это делают хорошо только ИНС ... QLearning, и даже ГА прогнозировать не умеют ...
"Кажется" -- не хочу обсуждать. А заявление типа "прогноз - делают хорошо только ИНС", вообще для меня нелепо.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 18 окт 09 15:45
Цитата:
Автор: Oldfella Walk
Надо снабдить агентов возможностями вылавливать функции как таковые, в среде - помимо каких-либо форм активности агента - органами чувств... Ну и далее - организовать между агентами коммуникации, чтобы спровоцировать возможность сопоставления функций разных агентов и возникновения формальных, символических систем..
"Взять, да и поделить всё." (c).
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 20:49
Цитата:
Автор: daner
Если бы это было так -- тогда не надо было бы их разделять. Награда -- не часть состояния среды. Вот если бы она зависела только от того состояния где вы находитесь (как в твоем примере детерминированной среды), тогда -- ДА, но как только, она начинает зависеть еще и от действий агента, это перестает быть состоянием среды.
"тогда -- ДА" - этого достаточно !
"как только, она начинает зависеть еще и от действий агента, это перестает быть состоянием среды" - такое возможно в задаче МДП ? Как миниму4м в обсуждаемой задаче такого нет ! Поэтому не стоит обсуждать те вариантыы, которые мы не обсуждали, а затем обобщать на все случаи !
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 20:52
Цитата:
Автор: daner
А заявление типа "прогноз - делают хорошо только ИНС", вообще для меня нелепо.
Это сказано естественно в контексте QL, ГА либо ИНС ... если же есть другие подходы к прознозированию, которые имеет смысл обсуждать в рамках нашей задачи - то предлагайте, а не разводите димагогию что нелепо/ а что нет
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 20:56
Цитата:
Автор: daner
Интересно, но РАНО. Я не люблю громких заявлений и не люблю строить здание с крыши.
Для меня есть еще много открытых вопросов (возможно они открыты только для меня) до того, как я перейду к алгоритмам поискa такой функции.
Ок. Подождем ... Но должен быть чертеж здания - весь!, а лишь потом реализация фундамента, стен, крыши ...
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 21:11
Цитата:
Автор: daner
(хотя мне оно очень не нравиться не определенностью термина "стимул").
Стимул - представляет собой любое непустое множество входных сигналов, поступающих к агенту в момент времени t.
Достаточно определенно ? Или дать еще определение сигнала и генератора сигнала ?
[
Ответ
][
Цитата
]
Oldfella Walk
Сообщений: 316
На: Управление агентами
Добавлено: 18 окт 09 22:04
Цитата:
Автор: daner
"Взять, да и поделить всё." (c).
Я понимаю Вашу иронию, профессор... но, может быть, Вы купите журналы, в пользу детей Германии, по полтиннику штука?
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 22:04
Цитата:
Автор: daner
Обратите внимание на данное же вами определение среды (хотя мне оно очень не нравиться не определенностью термина "стимул"). Среда определенна не как пространство состояний, а именно как пространство стимулов. в MDP стимулы это все вместе -- состояния, и награды за действия в каждом из состояний.
Это так ... но я по прежнему не вижу необходимости отличать состояние от награды, и именно поэтому для меня и то и другое стимулы, которые уже потом можно итерпретировать как угодно ... т.е. как я и говорил - это вопрос сугобо интерпретации ... а все прочие зависит лишь от того какую терминалогию использовать ... НО принципиальной разницы НЕТ
[
Ответ
][
Цитата
]
Oldfella Walk
Сообщений: 316
На: Управление агентами
Добавлено: 18 окт 09 22:15
Цитата:
Автор: tac
Стимул - представляет собой любое непустое множество входных сигналов, поступающих к агенту в момент времени t.
Достаточно определенно ? Или дать еще определение сигнала и генератора сигнала ?
Обязательно непременно дайте! И не забудьте осветить и стимул, и сигнал на предмет содержания информации - всегда содержит, может содержать и т.п.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 22:45
Цитата:
Автор: Oldfella Walk
Обязательно непременно дайте! И не забудьте осветить и стимул, и сигнал на предмет содержания информации - всегда содержит, может содержать и т.п.
В качестве сигнала - может быть использована любая измеримая переменная величина, например напряжение, сила тока, интенсивность света, химическая концентрация. сигнал обычно характеризуется амплитудой, временем и местоположением.
Генератором сигнала является любой физический элемент или устройство, способные производить сигнал.
Наличие сигнала является необходимым условием наличия информации, но далеко не достаточным.
Сигнал - это вид события, в котором передача происходит асинхронно. Событие - это описание некоторого факта, которое занимает некоторое положение во времени и пространстве. Различают как миниму два вида сигналов: 1. сигнал который вызывает переход из одного состояния в другое (взимоидействие среда-агент), 2. отправка сообщения при взаимодействии агентов
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 18 окт 09 23:21
Цитата:
Автор: daner
Оценка у нас -- это награда. Награда дается (как вы верно заметили) за пару (состояние-действе). НО это не тоже самое, что храниться в Q-таблице. В Q-таблице сохраняется значение ВЫГОДНОСТИ состояний. Скажем вы находитесь в состоянии С1 и у вас два действия Д1,Д2. Награда за Н(С1,Д1) = 5 а за Н(С1,Д2) = 10. Ваша ИНС выучит именно это, НО стратегия построенная только на такой информации будет НЕ ВЕРНОЙ. Как ни странно покажется, но Q не обязательно равна Н.
Т.е. вполне может оказаться, что после обучения мы получим Q(С1,Д1)>Q(С1,Д2) и именно это приведет к правильной/рациональной стратегии.
1. В весовых коэффициентах тоже хранится не награда ! (а ничего другого в ИНС не хранится) Что там хранится ? Там хранится прогноз к ВЫГОДНОСТИ состояний.
2. Да, ИНС выучит эти опорные точки. Но ни кто не мешает их переучить, а видь именно это происходит в QL. Т.е. Q(С1,Д1)>Q(С1,Д2) может получится лишь при условии, что агент снова получит награду за Н(С1,Д1) и она будет не 5, а 9 ... Переучите ИНС применяя сложение, так же как в QL. Подходите с одной линейкой - и получите тоже самое ! (повторяю еще раз алгоритм обучения ИНС тут не причем )
Единственно, что получается - это в QL априорно засунута функция трансформации из наград в выгодность состояний. Такую функцию как правило ИНС не дают ... вот получатеся только этим и отличается обучение с учителем от обучения с подкреплением.
Хотя по хорошему именно эта функция трансформации и должна быть искомой ! Но тут мы упираемся в то, что для Вас РАНО ...
[
Ответ
][
Цитата
]
Стр.18 (26)
:
1
...
14
15
16
17
[18]
19
20
21
22
...
26
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net