GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.23 (26)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Управление агентами
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 15:26
Цитата:
Автор: daner
QUOTE's Автор: tac
1. Последнее предложение не понял. Он будет снова ВСЕ состояния проверять?
2. Ну вообще, вот пожалуйста очередной пример ИМХО проблемный...
http://content.foto.mail.ru/inbox/daner/charts/i-15.jpg
1. Кто он - р. агент ? Да, но вначале он это сделает под влиянием в. агента #2, потом под влиянием в. агента №3
2. думаю тут проблем нету, но проверю
3.
http://content.foto.mail.ru/inbox/daner/charts/i-16.jpg
Ну награды с минусом не договаривались
4.
http://content.foto.mail.ru/inbox/daner/charts/i-17.jpg
вот теперь это тоже самое о чем я говорил раньше - суммировать он не будет, но это и хорошо
... исправлять будем ни как вы выразились как заплатку - а на все случаи жизни (описанные трансформации, не вижу смысла делать частные решения)
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 15:37
Цитата:
Автор: tac
1. Кто он - р. агент ? Да, но вначале он это сделает под влиянием в. агента #2, потом под влиянием в. агента №3
2. думаю тут проблем нету, но проверю
3.
http://content.foto.mail.ru/inbox/daner/charts/i-16.jpg
Ну награды с минусом не договаривались
4.
http://content.foto.mail.ru/inbox/daner/charts/i-17.jpg
вот теперь это тоже самое о чем я говорил раньше - суммировать он не будет, но это и хорошо
... исправлять будем ни как вы выразились как заплатку - а на все случаи жизни (описанные трансформации, не вижу смысла делать частные решения)
Ну так.. все-таки, пока в.агент не выбран, он вообще не воспринимает ничего? Ну значит нет параллельности?
что значит не договаривались про отрицательные? МДП этого не запрещает и это вообще важный момент.
Почему это хорошо, что он суммировать не будет? И как он должен суммировать? Я вот не совсем понимаю. Т.е. будет еще алгоритм выделения возможной максимальной стратегии?
кстати, третий пример не тоже самое что ты говорил. так как у тебя агенты игнорируют награды, получается, что при 10+20+30, то каждый из агентов (на 10, на 20 и на 30) будет по разному думать какая сумма. А в твоем примере с 20+20, один агент будет будет иметь данные для вычисления суммы.
На все случае жизни не исправишь. А главное, это ПУСТАЯ трата времени
. и честно, мне надоело время на это бесполезное дело тратить. Зачем мне нужен еще один алгоритм в МДП если QЛ отлично удовлетворяет требованиям? Ну не понимаю я этого.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 15:38
Цитата:
Автор: daner
Это у вас-то две? Все ваши приращения делаются через константы ( все эти 0.1, 0,5 и т.д.). Я уже молчу про то что изначально у агента фильтр наград настроен на (0,1].
Это рассмешили: 0.1 и 0,5 - это не две ? т.д. нету
Фильтр - ну хотите настроим на минус бесконечность, это не вопрос ... я просто считаю что награды меньше нуля - это не награды ! И в такие игры я не играл
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 15:44
Цитата:
Автор: tac
Это рассмешили: 0.1 и 0,5 - это не две ? т.д. нету
Фильтр - ну хотите настроим на минус бесконечность, это не вопрос ... я просто считаю что награды меньше нуля - это не награды ! И в такие игры я не играл
это две. но у вас еще есть трешхолд, длинна диапазона фильтра, смещение фильтра. Если покопаться, уверен, еще найдется.
фильтр на минус бесконечность не поможет. в конце концов ваш агент будет лезть в мышеловку (-10000) за сыром (+10) игнорируя наказание.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 15:51
Цитата:
Автор: daner
Ну так.. все-таки, пока в.агент не выбран, он вообще не воспринимает ничего? Ну значит нет параллельности?
что значит не договаривались про отрицательные? МДП этого не запрещает и это вообще важный момент.
Почему это хорошо, что он суммировать не будет? И как он должен суммировать? Я вот не совсем понимаю. Т.е. будет еще алгоритм выделения возможной максимальной стратегии?
На все случае жизни не исправишь. А главное, это ПУСТАЯ трата времени
. и честно, мне надоело время на это бесполезное дело тратить. Зачем мне нужен еще один алгоритм в МДП если QЛ отлично удовлетворяет требованиям? Ну не понимаю я этого.
Я вот не понимаю, чего вы не понимаете ...
"пока в.агент не выбран, он вообще не воспринимает ничего?"
Да ... и что ? Такого не бывает, рождаются сразу р.агент + 1 ведущий агент поиска нового с фильтром 0-+бесконечность ...
"Ну значит нет параллельности?"
Что значит нету ? На одном процессоре параллельности нету ! Именно это я написал ... смысловая параллельность есть !
"что значит не договаривались про отрицательные? МДП этого не запрещает и это вообще важный момент."
В таком случае это глупо ! Отрицательные числа это не награды, а наказания ... если у нас будут такие игры - это снова вопрос выбора в. агента ... и понижение фильтра с минус бесконечности
---
"Почему это хорошо, что он суммировать не будет? И как он должен суммировать? Я вот не совсем понимаю. Т.е. будет еще алгоритм выделения возможной максимальной стратегии?"
И вот это самое важно ! Ну конечно будет ! Это как раз тот протоколо взаимодействия между р. агентом и в. агентов - другой вид которого вы основываясь на boosting хотели исследовать !
введя его решаться все проблемы QFix с суммированием, частных случаев которых вы нашли ...
Почему хорошо ? Да, потому, что суммирование это всего лишь частных случай что нужно делать с наградами ... и именно из-за этого QL ограничен и далек от совершенства.
" Ну не понимаю я этого"
Ну, не удовлетворяет QЛ ... основываясь на нем вы никогда не выйдете за рамки МДП и никогда его не улучшите - применяя его хоть 1000 раз параллельно !
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 15:57
Цитата:
Автор: daner
1. это две. но у вас еще есть трешхолд, длинна диапазона фильтра, смещение фильтра. Если покопаться, уверен, еще найдется.
2. фильтр на минус бесконечность не поможет. в конце концов ваш агент будет лезть в мышеловку (-10000) за сыром (+10) игнорируя наказание.
1. трешхолд - это что такое ?
диапозон фильтра, смещение фильтра настраиваться в зависимости от среды. - это не в чет ...
2. Я уже писал - это частный случай той же самой проблемы суммирования ... и я уверен, что суммирование это лишь частный случай, что нужно делать с наградами !!! Поэтому на определенным уровне от этого нужно как раз избавится, и решать что делать суммировать, выбирать максимум, в обем случае находит соотношение тех или иных наград - на уровень ВЫШЕ - для этого есть Р. АГЕНТ ... ну, нравится вам суммирование (как в QL) - ну не проблема его ввести при смене активного в. агента.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 16:03
Цитата:
Автор: daner
На все случае жизни не исправишь. А главное, это ПУСТАЯ трата времени
.
Все случаи жизни - были достаточно конкретные- имелись введу те три вида трансформаций, которые я ранее описал !!! И это далеко не пустая трата времени, если конечно не считать исследования - пустой тратой времени ...
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 16:09
Цитата:
Автор: daner
и честно, мне надоело время на это бесполезное дело тратить.
Это, наверняка, от того, что вы захотели потопить алгоритм QFix, из-за непонятной любви к QL, а сделать это не так просто
Ну и потом ... выскажите свои идеи по бостингу ... я думаю если они буду полезны для QL, то будет интересно применить и сравнить с QFix ... только на этом уровне мы сможем понять что лучше ... и нужно ли убирать априорное суммирование или можно исправить это бостингом ..
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 16:19
Цитата:
Автор: daner
фильтр на минус бесконечность не поможет. в конце концов ваш агент будет лезть в мышеловку (-10000) за сыром (+10) игнорируя наказание.
Будут в.агенты - которые будут специализироваться на наказаниях, и изучать как их лучше и оптимально получить ! Р. агенту, нужно будет сделать инверсию, наложить на награды - и выбрать оптимальную стратегию ... и повторю суммирование - не всегда является токовой ... но потренироваться на ней я попробую ...
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 17:11
QUOTE's Автор: tac
Цитата:
"пока в.агент не выбран, он вообще не воспринимает ничего?"
Да ... и что ? Такого не бывает, рождаются сразу р.агент + 1 ведущий агент поиска нового с фильтром 0-+бесконечность ...
понятно.
Цитата:
"Ну значит нет параллельности?"
Что значит нету ? На одном процессоре параллельности нету ! Именно это я написал ... смысловая параллельность есть !
никакой нету. если каждый агент "живет" в разное время (а это то что вы выше написали) то никакой параллельности я не вижу.
Цитата:
"что значит не договаривались про отрицательные? МДП этого не запрещает и это вообще важный момент."
В таком случае это глупо ! Отрицательные числа это не награды, а наказания ... если у нас будут такие игры - это снова вопрос выбора в. агента ... и понижение фильтра с минус бесконечности
Это не глупо. Наказание = отрицательная Награда.
Это как бы даже без обсуждения. В определении MDP награда может быть любым вещественным числом. Как я уже писал минус бесконечность не решит проблемы.
---
Цитата:
"Почему это хорошо, что он суммировать не будет? И как он должен суммировать? Я вот не совсем понимаю. Т.е. будет еще алгоритм выделения возможной максимальной стратегии?"
И вот это самое важно ! Ну конечно будет ! Это как раз тот протоколо взаимодействия между р. агентом и в. агентов - другой вид которого вы основываясь на boosting хотели исследовать !
Нееее, не надо сюда boosting приплетать. Это никакой не протокол между агентами.
Например в Q-Л стратегией будет [Q-таблица + аргмакс]. Вы же хотите выбирать агентов по макс стратегии каждого по отдельности. Как вы ее будете искать? сравнивать? Или это еще не придумано? Если нет, то пока остается только по существованию макс награды... (со всеми вытекающими).
Цитата:
введя его решаться все проблемы QFix с суммированием, частных случаев которых вы нашли ...
Ну... сложно говорить что решиться алгоритмом, который еще не придуман
.
Если его будет реализовывать только ОДИН в.агент, то не решиться, так как он часть наград игнорирует, а значит не будет знать, реальную сумму.
Цитата:
Почему хорошо ? Да, потому, что суммирование это всего лишь частных случай что нужно делать с наградами ... и именно из-за этого QL ограничен и далек от совершенства.
"Совершенство"
ну я в совершенство не верю, так что ИМХО это не страшно. А суммирование вытекает из определения рациональности стратегии в MDP и другого быть не может. Т.е. если удобно можете хоть корни извлекать, но только что бы в конце стратегия СУММАРНО давала максимум.
" Ну не понимаю я этого"
Цитата:
Ну, не удовлетворяет QЛ ... основываясь на нем вы никогда не выйдете за рамки МДП и никогда его не улучшите - применяя его хоть 1000 раз параллельно !
С ним, НЕТ, а на его основе -- Почему бы и нет.
В конце концов, прецеденты есть.
Одна из целей, как раз и есть: понять, могу ли я качественно улучшить обучение (в плоть до перехода в другую среду) при использовании популяции. Поэтому, я очень даже рад, что QЛ гарантированно не решет определенных задач. Есть еще одно свойство QЛ + популяции, которые делают QЛ очень привлекательным в рамках этого исследования.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 17:15
QUOTE's Автор: tac
Цитата:
1. трешхолд - это что такое ?
это транслитерация Threshold
(на англ. было лень перейти).
Цитата:
диапозон фильтра, смещение фильтра настраиваться в зависимости от среды. - это не в чет ...
Еще как в счет.
Вообще, константы они как раз и есть зависимость алгоритма от среды.
Цитата:
2. Я уже писал - это частный случай той же самой проблемы суммирования ... и я уверен, что суммирование это лишь частный случай, что нужно делать с наградами !!! Поэтому на определенным уровне от этого нужно как раз избавится, и решать что делать суммировать, выбирать максимум, в обем случае находит соотношение тех или иных наград - на уровень ВЫШЕ - для этого есть Р. АГЕНТ ... ну, нравится вам суммирование (как в QL) - ну не проблема его ввести при смене активного в. агента.
Нравиться. Давайте введем. А как мы это делать будем?
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 17:16
Цитата:
Автор: tac
Все случаи жизни - были достаточно конкретные- имелись введу те три вида трансформаций, которые я ранее описал !!! И это далеко не пустая трата времени, если конечно не считать исследования - пустой тратой времени ...
это исследование алгоритма QФикс... чего я изначально пытался избежать. Его исследование -- для меня трата времени.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 17:23
Цитата:
Автор: tac
Это, наверняка, от того, что вы захотели потопить алгоритм QFix, из-за непонятной любви к QL, а сделать это не так просто
Ну и потом ... выскажите свои идеи по бостингу ... я думаю если они буду полезны для QL, то будет интересно применить и сравнить с QFix ... только на этом уровне мы сможем понять что лучше ... и нужно ли убирать априорное суммирование или можно исправить это бостингом ..
я не понял, почему суммирование противопоставляется бустингу?
это во-первых. во-вторых. Нечего топить. Qфикс сырой (не понятно как сумма по стратегии будет искаться), без форм.доказательства (только на основе вашей интуитивной логики, этого мало), уже с (типа) несколькими агентами (а в одиночку вообще никак), не понятно где его предел работоспособности, никому не известный, требующий доп.исследования (да и доработки). Мне этого достаточно.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 17:48
Цитата:
Автор: daner
QUOTE's Автор: tac
понятно.
никакой нету. если каждый агент "живет" в разное время (а это то что вы выше написали) то никакой параллельности я не вижу.
дурдом
если не ясно первое, то зачем писать что "понятно" .... ВСЕ виртуальные агенты живут в течении ОДНОГО такта пока р. агент думает ... откуда взялось разное время ???
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 17:50
Цитата:
Автор: daner
Это не глупо. Наказание = отрицательная Награда.
Это как бы даже без обсуждения. В определении MDP награда может быть любым вещественным числом. Как я уже писал минус бесконечность не решит проблемы.
Под обсуждением ВСЕ ! Вплоть до выделения награды из состояний ... другой вопрос что вы так НЕ ПРИВЫКЛИ рассматривать задачу ...
Я тоже написал в каком случае минус бесконечность решит проблему ...
[
Ответ
][
Цитата
]
Стр.23 (26)
:
1
...
19
20
21
22
[23]
24
25
26
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net