GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.22 (26)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Управление агентами
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 6:27
по двух последним постам.
я уже окончательно запутался в том, где начинается у вас один алгоритм и заканчивается другой
откуда появились несколько агентов? вроде говорилось об одном. и пример был расчитан на одного, т.е. без каких либо мах (которых в описании алгоритма в вашей вики НЕТ, или я его не нахожу.) Не вижу так же, где происходят все эти >30 , >10 и т.д.
Не понимаю смысла в матрице Qфикс... в МДП, да в ПоМДП это безсмысленно (награды идут после каждого хода). Можно конечно придумать задачу где это не так, но сейчас то оно зачем?
Во-вторых, перечитал ваш алгоритм. Впечателение: Куча наваротов... просто художественное вязание крестиком (это не наезд). Типа все логично, но исследовать такой алгоритм
туши свет. Я просто уверен, что внем очень много лишнего, правда что бы понять, какие части можно объеденить, нужно подумать. Куча констант. Константы приращения, константы ограничений, и всего этого по многу...
Вообще, так обычно пишут агентов для соревнований или проектов где надо что бы работало, а теория по барабану.
Короче, я не говорю что алгоритм получился плохой, я говорю, что этот алгоритм сам по себе требует исследования (и возможно резильтаты будут весьма интересными). Но брать его за основу чего-то, мне не представляется возможным. Это снежный ком.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 11:05
Да, все там просто
проще не куда, каждый т.н. наварот обоснован ... давайте разбираться ...
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 11:11
"откуда появились несколько агентов?"
Они были ВСЕГДА:
"1. Пока в. агенты используются очень слабо. Точнее они между собой практически не переключаются ... это потребуется в более сложных средах, но пока внимание занимает только тот агент, который был выделен р. агентом при получении наибольшей награды. Т.е. вначале тут агент бежит по кругу - получает 10, 100 и 1000 ... на каждую награду как и говорилось выше создается новый в. агент ... последний занимает далее все время, и после 10 хода о других в. агентах можно забыть."
"награды идут после каждого хода"
Во-первых, это не значит, что обновление Q таблицы идет также !
И вообще, награды не идут после каждого хода - 0 это не награда, и для каждого в. агента есть отрезок величин которые он считает наградой - для первого >0 <=10, для второго >10 <=20 ... и т.д.
"Не понимаю смысла в матрице Qфикс"
У нее два назначения:
1. она определяет через какие состояния/действия проходил р. агент, и когда р. агент получает награду ТОЛЬКО тогда происходит обновление матрицы Q. QFix скидывается и все поновой до следующей награды ... (помним, что для в. агентов - это разные матрицы и разные времена, хоть и пересекаются)
2. по QFix можно увидеть, что агент попадает в одно и тоже состояние не получая награды, то интерес к действиям начинаем падать и при появлении аппатии (I[i, j] == 0) агент снимает с матрицы Q все приращения сделанные в порыве энтузиазма
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 11:33
Цитата:
....проверит второй круг, но откажется....проверит круг 10+30 он ему понравится больше....
????
-----
Вот второе место, как обновляется Q-матрица для неизвестных состояний
for (int j = 0; j < ActionCount; j++)
{
if (j != locAction) //locAction - выбранное действие
{
int locR = Convert.ToInt32(NewThresholdR *I[s,j]); //NewThresholdR - максимальная награда в. агента (1000)
Q[s, j] = Convert.ToInt32(Q[s, j] + locR);
QT[s, j] = Convert.ToInt32(QT[s, j] + locR);
}
}
1. Это заставит проверить второй круг ...
2. Там он наткнется на награду 30 - появится агент №3, р. агент переключится на него
3. агент №3 не видет наград меньше 30. Он проверит все состояния не найдет ничего и возратится к стратегии получения 30.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 11:42
Цитата:
Автор: daner
1. Я просто уверен, что внем очень много лишнего
2. Куча констант. Константы приращения, константы ограничений, и всего этого по многу...
3. Вообще, так обычно пишут агентов для соревнований или проектов где надо что бы работало, а теория по барабану.
1. Да, каждая строчка там нужна - что-то выбросишь - все развалится
2. Вы не справедливы
У QL и то 3 коэффициента. Всего две, причем взаимосвязанные ... поэтому можно свести к ОДНОМУ коэффициенту, его физический смысл - преобладание Консерватизм vs. Инновации ... и как показывают эксперименты - важно лишь некоторое соотношение, т.е. есть 2-3 значения - которые имеет смысл пробывать в зависимости от задачи ... например, для детерминированной задачи будет выгоднее меньшие Инновации, а для вероятностной большие ...
3. Теория не по барабану. Но я не вижу почему для теории нужно делать вырожденные алгоритмы в которых все смешано в кучу в качестве формулы - это ошибочное построение теорий в таком случае ...
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 11:47
Ну и наконец:
"этот алгоритм сам по себе требует исследования"
да нет же ! Он требует ПОНИМАНИЯ, я прошу вас уделить этому время и ПОНЯТЬ, т.к. следующим шагом это позволит нам написать правильный алгоритм взаимодействия в. агентов ...
P.S. Может вам код посмотреть ? Мне тогда на порядок яснее становится ...
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами (трансформация)
Добавлено: 22 окт 09 12:20
Далее читать, только когда есть четкое понимание QFix ....
В результате обсуждения выявилось три вариации необходимых трансформаций:
1. Трансформация сложной награды (награда определяется разными величинами) в скалярную награду (или сразу (!) в выгодность состояния - стратегию) - QL к такому не способен
2. Трансформация из наград в выгодность состояния (стратегию) при изменении награды в том-же состоянии/действии (MDP такое не предполагает, это PoMDP так как меняются условия со временем)
3. Трансформация из наград в выгодность состояния (стратегию) при нахождении той-же награды в другом состоянии/действии на одном пути - QL априорно применяет сложение, что в таком случае оправданно, но не оправдано при переходе к PoMDP или сложным наградам (наградам разной природы/модальности)
Все это звенья одной цепи и их нужно решать единым алгоритмом ...
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 14:21
QUOTE's Автор: tac
Цитата:
"откуда появились несколько агентов?"
Они были ВСЕГДА:
Ну.. это не несколько агентов, а просто обнуление всех матриц с повышением одной из ограничивающих констант. Или нет? Или они все же параллельно друг другу ощущают? Не совсем уловил этот момент.
Ну ладно, допустим несколько.
Цитата:
"награды идут после каждого хода"
Во-первых, это не значит, что обновление Q таблицы идет также !
И вообще, награды не идут после каждого хода - 0 это не награда, и для каждого в. агента есть отрезок величин которые он считает наградой - для первого >0 <=10, для второго >10 <=20 ... и т.д.
ОК... т.е. вообще никак?
Цитата:
2. по QFix можно увидеть, что агент попадает в одно и тоже состояние не получая награды, то интерес к действиям начинаем падать и при появлении аппатии (I[i, j] == 0) агент снимает с матрицы Q все приращения сделанные в порыве энтузиазма
Не совсем понимаю с "энтузиазмом". Я не нашел в алгоритме, где у него увеличение?
Цитата:
2. Из Q-learning убраны все эти коэффициенты ... вроде как не зачем ... пользуемся простой формулой Q[i, j] + r, т.е. дабавляем только чистые награды. При повторении результата только половину награды Q[i, j] + r*0.5
Вот, еще вопрос по вот этому. Если я прошелся несколько раз по состоянию 1, то Q этого состояния будет будет больше реальной его награды? "Классно" получается.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 14:25
QUOTE's Автор: tac
Цитата:
1. Это заставит проверить второй круг ...
2. Там он наткнется на награду 30 - появится агент №3, р. агент переключится на него
3. агент №3 не видет наград меньше 30. Он проверит все состояния не найдет ничего и возратится к стратегии получения 30.
Последнее предложение не понял. Он будет снова ВСЕ состояния проверять?
Ну вообще, вот пожалуйста очередной пример ИМХО проблемный...
http://content.foto.mail.ru/inbox/daner/charts/i-15.jpg
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 14:39
QUOTE' sАвтор: tac
Цитата:
1. Да, каждая строчка там нужна - что-то выбросишь - все развалится
Не уверен, но именно так и кажется, так как выглядит как "вязанная кофточка".
Цитата:
2. Вы не справедливы
У QL и то 3 коэффициента. Всего две, причем взаимосвязанные ... поэтому можно свести к ОДНОМУ коэффициенту, его физический смысл - преобладание Консерватизм vs. Инновации ... и как показывают эксперименты - важно лишь некоторое соотношение, т.е. есть 2-3 значения - которые имеет смысл пробывать в зависимости от задачи ... например, для детерминированной задачи будет выгоднее меньшие Инновации, а для вероятностной большие ...
Это у вас-то две? Все ваши приращения делаются через константы ( все эти 0.1, 0,5 и т.д.). Я уже молчу про то что изначально у агента фильтр наград настроен на (0,1].
Кстати, по этому поводу еще один пример "проблема":
http://content.foto.mail.ru/inbox/daner/charts/i-16.jpg
Цитата:
3. Теория не по барабану. Но я не вижу почему для теории нужно делать вырожденные алгоритмы в которых все смешано в кучу в качестве формулы - это ошибочное построение теорий в таком случае ...
Не "нужно", а проще! Начнем с того, что мы изначально хотели алгоритм, который рассчитан на одного агента, что бы после его использовать с несколькими. А вы уже предлагаете алгоритм рассчитанный (по вашим словам, в чем я не уверен) на нескольких агентов. Нам нужен был алгоритм на который можно "положиться" а вы даете алгоритм, который точно даже в MDP работать не будет ("точно" можете вычеркнуть, так как формально это доказывать у меня желания и времени нет). Возможно где-то он будет очень и очень полезным, но это ГДЕ-ТО мне не известно (и вам тоже). Так что... у вас есть алгоритм (гвоздь) для которого нужно искать стену.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 14:45
QUOTE's Автор: tac
Цитата:
Ну и наконец:
"этот алгоритм сам по себе требует исследования"
да нет же ! Он требует ПОНИМАНИЯ, я прошу вас уделить этому время и ПОНЯТЬ, т.к. следующим шагом это позволит нам написать правильный алгоритм взаимодействия в. агентов ...
P.S. Может вам код посмотреть ? Мне тогда на порядок яснее становится ...
Ну... я уже на много лучше его понимаю... в прочем можно и код, хотя вы могли бы его в пару строчек псевдокода уложить, без всякой грязи с кастинагами и прочего.
Как бы это объяснить... одно дело понимать как алгоритм работает, другое дело понимать, где он работает, а где нет. Вчера мы выяснили, что алгоритм работать в среде, где рациональной стратегией будет стратегия с суммой наград больше больше других стратегий, но с максимальной наградой меньше чем в других. Это уже что-то.
Вы бросились ставить заплатку на это ограничение (ну точно как на соревнованиях). Но про другие дырки все-равно не ясно.
Кстати, не понятно, как ваш агент будет считать сумму стратегии, если уж мы перешли на сумму, и уж тем более если агенты у вас игнорируют часть наград...
http://content.foto.mail.ru/inbox/daner/charts/i-17.jpg
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами (трансформация)
Добавлено: 22 окт 09 15:01
QUOTE's Автор: tac
Цитата:
Далее читать, только когда есть четкое понимание QFix ....
Ну я все-таки попробую.
В результате обсуждения выявилось три вариации необходимых трансформаций:
Цитата:
1. Трансформация сложной награды (награда определяется разными величинами) в скалярную награду (или сразу (!) в выгодность состояния - стратегию) - QL к такому не способен
Он вообще-то не предназначен для этого? У машины есть двигатель, колеса, руль... у каждого своя задача. QЛ предназначен для определения выгодности состояний. Если выгода дана сразу или ее можно получить трансформацией, то гарантированно достаточно будет Дайэкстры, Флойда и т.д. ну максимум: А* или D*.
Цитата:
2. Трансформация из наград в выгодность состояния (стратегию) при изменении награды в том-же состоянии/действии (MDP такое не предполагает, это PoMDP так как меняются условия со временем)
Не понял что ты хочешь сказать. Награда функция от времени? R(s,a,t)? так что ли?
Цитата:
3. Трансформация из наград в выгодность состояния (стратегию) при нахождении той-же награды в другом состоянии/действии на одном пути - QL априорно применяет сложение, что в таком случае оправданно, но не оправдано при переходе к PoMDP или сложным наградам (наградам разной природы/модальности)
Уже в какую-то метафизику ударились. QL и не рассчитан на PoMDP. и я туда пока смысла лезть не вижу. Изначальная цель еще в MDP не достигнута.
Цитата:
Все это звенья одной цепи и их нужно решать единым алгоритмом ...
Может быть... из того что вы описали, это конечно логически следует (так как 1, это част.случай 2, а 3... про это я вообще молчу). Но я не задавался целью сразу решать все эти 1,2,3. У меня была конкретная цель. Если я увижу, что та система которую я хочу изучить принципиально/теоретически не способна решать MDP, или PoMDP или эти ваши 2,3, то это будет отличным результатом. ЗАМЕЧАТЕЛЬНЫМ.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 15:07
Цитата:
Автор: daner
1. Ну.. это не несколько агентов, а просто обнуление всех матриц с повышением одной из ограничивающих констант. Или нет? Или они все же параллельно друг другу ощущают? Не совсем уловил этот момент.
Ну ладно, допустим несколько.
2. ОК... т.е. вообще никак?
1. Нет - НЕСКОЛЬКО (но ВИРТУАЛЬНЫХ + 1 РЕАЛЬНЫЙ) ! Это вы все утверждаете, что там не агенты, не знаю даже из-за чего ... наверное потом и воспринимаете так же ... но там реально разные объекты в. агентов и все последовательно обрабатываются (имитируя параллельность)
2. Теперь я не понял - что "никак" ?
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 15:18
Цитата:
Автор: daner
1. Не совсем понимаю с "энтузиазмом". Я не нашел в алгоритме, где у него увеличение?
2. Вот, еще вопрос по вот этому. Если я прошелся несколько раз по состоянию 1, то Q этого состояния будет будет больше реальной его награды? "Классно" получается.
1. "энтузиазм" записывается отдельно в
QT[s, j] = Convert.ToInt32(QT[s, j] + locR);
матрица Q содержит "энтузиазм" + "реальные награды"
когда нужно скинуть "энтузиазм" - происходит вычитание Q-QT
if (I[i, j] == 0)
{
Q[s, j] -= QT[s, j];
QT[s, j] = 0;
}
2. И что с того ?
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 15:20
QUOTE's Автор: tac
Цитата:
1. Нет - НЕСКОЛЬКО (но ВИРТУАЛЬНЫХ + 1 РЕАЛЬНЫЙ) ! Это вы все утверждаете, что там не агенты, не знаю даже из-за чего ... наверное потом и воспринимаете так же ... но там реально разные объекты в. агентов и все последовательно обрабатываются (имитируя параллельность)
да я не утверждаю. вы же с QЛ сравниваете, вот я и думал, что вы предложили алгоритм который справляется с задачей в одиночку, без нескольких агентов.
Цитата:
2. Теперь я не понял - что "никак" ?
вопрос уже отпал. я так понял, у вас стоит жесткий фильтр и если награда не лежит в диапазоне то она просто игнорируется. Правильно?
[
Ответ
][
Цитата
]
Стр.22 (26)
:
1
...
18
19
20
21
[22]
23
24
25
26
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net