GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.21 (26)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Управление агентами
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 20 окт 09 2:25
Цитата:
Автор: tac
Прогноз может быть лишь в отношении нового состояния - иначе это не прогноз

ну... верно, если старые состояния в другое время называть "новыми".
Когда вы идете в магазин за хлебом, то не смотря на то что уже бывали в этом состоянии, вам приходиться делать прогноз "а получите вы хлеб или нет". Просто инога, хлеба может и не быть. Имхо, любой алгоритм работающий с мат.ожиданием чего-то да прогнозирует.
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 20 окт 09 3:14
Цитата:
Автор: daner

Попробуйте такой пример: http://content.foto.mail.ru/inbox/daner/charts/i-14.jpg
Скорее всего он у вас не выйдет, если я правильно понимаю ваш алгоритм.



Скорее всего понимаете неверно. Результаты одинаковы: 133 тыс. за 10000 итераций (QL EF=0 иначе хуже, в QFix = тоже есть один коэфициент он должен быть не больше 0.7)

[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 20 окт 09 3:15
Цитата:
Автор: daner


а что делать то? сделайте в вашей среде еще и состояние с 100000 и ваш агент наплюет на него с высокой колоколни, в то время как qл агент в конце концов найдет лучшее.


Этого не понял ... с какой стати ? Он его быстро найдет ...
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 21 окт 09 3:39
Цитата:
Автор: tac

Скорее всего понимаете неверно. Результаты одинаковы: 133 тыс. за 10000 итераций (QL EF=0 иначе хуже, в QFix = тоже есть один коэфициент он должен быть не больше 0.7)



возможно что не верно. Обясните, почему ваш алгоритм в самом верхнем состоянии должен выбирать состояние 10, а не состояние 20? и вообще.
И вообще, в этой задачи МАКСИМУМ это 100К, а минимум 66.7К. Откуда 133К? Делаем вывод: среду задали не верно.

-----------------------
В здачи два круга: первый общей стоимостью 30 (круг30), второй 20 (круг20). Двигаться можно только по одному из кругов (т.е. после выбора круга, перескачить уже невозможно, пока сного не вернешься в точку выбора). В каждом круге ровно 3 шага. Значит полюбому мы делаем 10К/3 кругов. Максимально можно набрать только если все время использовать круг30, а минимум только если все время использовать круг20
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 21 окт 09 3:41
Цитата:
Автор: tac
Этого не понял ... с какой стати ? Он его быстро найдет ...

здесь пока спорить не буду.. возможно я несколько ваших идей в кучу смешал... дойдем и до этого.
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 21 окт 09 4:28
Цитата:
Автор: daner
В здачи два круга: первый общей стоимостью 30 (круг30)


Считаем лучше 30+10 = ? (смотрим на рисунок ВНИМАТЕЛЬНО)
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 21 окт 09 4:36
Цитата:
Автор: daner

почему ваш алгоритм в самом верхнем состоянии должен выбирать состояние 10, а не состояние 20? и вообще.


Если только без вообще

в первый раз он выберет 20, но потом найдет 30 (10 проигнорирует) ... все это благодаря матрице интереса к неизвестным состояниям ... почитайте немного внимательнее описание в вике
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 21 окт 09 4:43
Но ! Вы мне подали идею ... если в одном круге будет 20+20, а во втором 30 + 0 ... то мой агент проиграет - он суммировать выгоды не будет ... впрочем QL - этого тоже не делает, и только благодаря случайности (EF>0) находит стратегию, которую QFix - игнорирует.

Это следствие того, что он ориентирован только на одну цель, а не на их комбинацию ... но это дело как раз взаимодействия виртуальных агентов, которой у нас еще нет ...
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 1:56
Цитата:
Автор: tac
Считаем лучше 30+10 = ? (смотрим на рисунок ВНИМАТЕЛЬНО)

Ups... да точно. я хотел 10 на 0 исправить... а потом забыл .
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 1:59
Цитата:
Автор: tac
Если только без вообще

в первый раз он выберет 20, но потом найдет 30 (10 проигнорирует) ... все это благодаря матрице интереса к неизвестным состояниям ... почитайте немного внимательнее описание в вике

OK, без вообще. Не понимаю, все же, как он после будет выбирать состояние 10. Все состояния известны. Так что матрица неизвестных уже ни при чем. Предположим, уже побывали во ВСЕХ состояниях. Почему агент должен выбирать состояние 10, а не состояние 20?
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 2:13
Цитата:
Автор: tac

Но ! Вы мне подали идею ... если в одном круге будет 20+20, а во втором 30 + 0 ... то мой агент проиграет - он суммировать выгоды не будет

Ну так это тот же пример что я дал. 10+30 и 20+0 (именно в таком порядке) и так как он не сумирует, я не пойму как он должен понять, что состояние 10, лучше/выгоднее чем состоание 20.

Цитата:
... впрочем QL - этого тоже не делает, и только благодаря случайности (EF>0) находит стратегию, которую QFix - игнорирует.

Не.... EF нужна для разведки, а вот после того как уже разведанно и информация полученна, можно говорить о рациональности стратегии. QЛ -- будет вести себя рационально, и выбирет стратегию суммарно приносящую пользу по максимому, а вот QФикс этого не сделает (правда я не понимаю, как он у вас с моим примером максимальные баллы набрал, что-то там не то).

Цитата:
Это следствие того, что он ориентирован только на одну цель, а не на их комбинацию ... но это дело как раз взаимодействия виртуальных агентов, которой у нас еще нет ...

стоп, стоп, стоп. Причем тут одна цель? О цели вообще речи не шло. Цель, влияет на стимулы, а не на агента прямиком. Так что, кол-во целей, ситуацию не меняет, оно поменяет функцию наград, но это к нашему разговору не относится. А несколько агентов, должны предоставит одновременное разнообразие решений, но опять-таки на стимулы и цели это влиять не будет, так как мы пока оставляем определение стимулов (а соответственно и целей) среде (вне агента).
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 2:23
Цитата:
Автор: daner
OK, без вообще. Не понимаю, все же, как он после будет выбирать состояние 10. Все состояния известны. Так что матрица неизвестных уже ни при чем. Предположим, уже побывали во ВСЕХ состояниях. Почему агент должен выбирать состояние 10, а не состояние 20?


Ну, начнем с того, что состояния не известны заранее, т.е. величину награды агент узнает только после того как осуществит определенное действие в определенном состоянии ...

Поэтому первое свое действие о выберет "0" ... и тут как повезет в какой круг он попадет ...
1. может попасть сразу в нужный 10+30 ... со временем он все равно проверит второй круг, но откажется
2. обратная ситуация попадет в круг 20 ... со временем проверит круг 10+30 он ему понравится больше
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 2:34
Цитата:
Автор: daner


Ну так это тот же пример что я дал. 10+30 и 20+0 (именно в таком порядке) и так как он не сумирует, я не пойму как он должен понять, что состояние 10, лучше/выгоднее чем состоание 20.


Нет это другой пример. У вас 10+30=max(30) sum(40) и 20+0=max(20)sum(20)
У меня 20+20=max(20)sum(40) 30+0=max(30)sum(30)

QFix ориентируется на max, поэтому в моем примере выберет не правильный круг, а в вашем правильный. В принципе нет ничего сложного изменить это на sum - это затрагивает только протокол взаимодействия в. агентов ... но это частное решение и надо бы еще подумать ...

"как он должен понять, что состояние 10, лучше/выгоднее чем состоание 20."

Ему это понимать совсем не нужно - он даже не заметит 10, для него это тоже самое что 0, т.к. уже было 20 ... он будет искать 30 !

P.S. "именно в таком порядке" - вот именно - вы хотели "запороть" мой алгоритм в зависимости от порядка, но к порядку он инвариантен ... собственно на запутанных дорожках я его и отлаживал ...
[Ответ][Цитата]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 22 окт 09 2:48
Цитата:
Автор: daner

стоп, стоп, стоп. Причем тут одна цель?


При том, что за все время поиска стратегии возникнут 4 в. агента: первый будет искать наилучший путь за наградой 10 , второй ищет награду 20, третий 30, четвертый будет искать >30 (не найдет и успокоится) ... реального агента всецело поглотит только ОДИН в. агент доставляющий максимальную награду 30 (и в вашем примере 10-ку он слопает просто по пути даже не осмыслив) ...

На уровне в. агентов - я считаю, это хорошее их качество ... а вот для р. агента намеренно был выбран самый простое (max) что пришло в голову ... сейчас можем к этому перейди ...
[Ответ][Цитата]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 22 окт 09 6:02
Цитата:
Автор: tac
Ну, начнем с того, что состояния не известны заранее, т.е. величину награды агент узнает только после того как осуществит определенное действие в определенном состоянии ...

да это понятно. я же говорую, возьмем середину эксперимента. почему он
Цитата:
....проверит второй круг, но откажется....проверит круг 10+30 он ему понравится больше....

????
[Ответ][Цитата]
 Стр.21 (26)1  ...  17  18  19  20  [21]  22  23  24  25  26<< < Пред. | След. > >>