|
tac Сообщений: 2601 |
 |
|
На: Управление агентами
Добавлено: 23 окт 09 0:58
|
Автор: daner
Фигней занимаетесь вместо того что бы идти к поставленной цели. Придумали какой-то алгоритм который совершенно незачем. Потом вам с чего-то пришло в голову, что среда должна быть обязательно детерминированная, теперь награды обязательно должны быть положительными. Какой смысл в этой демагогии?
|
|
Каждый идет своим путем к поставленной цели ! И цель одна ... я вот не понимаю, чего вы "выходите из себя" ... начинаете решать что фигня, а что нет ... при этом слабо понимая для как и для чего я сделал этот алгоритм ... Начинайте параллельно обсуждать свой путь - в чем проблема ? Только зачем чужой "мешать с гавном" и утверждать что это тут не причем ... нравится/не нравится - мне не условия, а их интерпретация ... именно поэтому у меня предпочтение к детерминированной задаче и входам стимулам без выделения наград, или с разделением наград и наказаний ... я обсуждаю, ищу границы МДП, QL, постановки задачи ... некоторые из них я первоначально не знал (как например с отрицательностью) ... смысл этого прощупать все это, чтобы можно было писать общий алгоритм, да проверяя его в этой задаче, но чтобы реально была надежда на другие условия постановки задачи ... почему это для вас демагогия ?
|
|
|
tac Сообщений: 2601 |
 |
|
На: Управление агентами
Добавлено: 23 окт 09 1:04
|
Автор: daner
что значит не нужно? это вы так решили на звезды посмотрев? ВСЕ константы о которых я упоминал у вас, зависят от среды. Просто прикиньте, если награды будут в диапазоне (0,1), т.е. не целые. У вас уже куча констант измениться. А если вы возможный диапазон еще и не знаете? Кстати, есть алгоритмы которые автоматически настраивают константы QЛ. |
|
То и значит .. ну поменяю я тип с int на double ... и что, сильно запарюсь думаете  ? И знать мне диапазон не зачем -бесконечность + бесконечность ... остальное настроиться автоматически ... ну, заведу пропорцию от полученной награды ... какие проблемы ? (хотя по мне - это условия задачи нужно преобразовывать в целые числа - и весь вопрос)
|
|
|
tac Сообщений: 2601 |
 |
|
На: Управление агентами
Добавлено: 23 окт 09 1:06
|
Автор: daner
Я не чего (пока) менять не хочу (в этом весь смысл). Я хочу внешний алгоритм, который повысить производительность QL алгоритма. Кстати, упомянутый бустинг именно такой алгоритм. Он использует (в стандарте) деревья решений (может и перцептрон, может и любой другой алгоритм), не меняя их, а используя. |
|
Можете этот бустинг написать в виде псевдо алгоритма не смешивая с QL ?
|
|
|
|
На: Управление агентами
Добавлено: 23 окт 09 1:10
|
Автор: tac Причем тут рациональность ? Меня не устраивает, что вы ограничиваетесь постановкой задачи где нужно найти суммарный максимум !!! |
|
так суммарный максимум -- это и есть определение рациональности стратегии. Это из теории принятия решений и экономики. Не вижу вообще никакого смысла это менять.
|
|
|
tac Сообщений: 2601 |
 |
|
На: Управление агентами
Добавлено: 23 окт 09 1:12
|
Автор: daner
так суммарный максимум -- это и есть определение рациональности стратегии. Это из теории принятия решений и экономики. Не вижу вообще никакого смысла это менять. |
|
Вам не в лом кинуть сюда это определение - я над ним помедитирую ... (просто боюсь, что тогда мы стоит уж совсем на шадкой почве - в болоте т.е. )
|
|
|
|
На: Управление агентами
Добавлено: 23 окт 09 1:21
|
QUOTE's Автор: tac | Каждый идет своим путем к поставленной цели ! И цель одна ... я вот не понимаю, чего вы "выходите из себя" ... начинаете решать что фигня, а что нет ... при этом слабо понимая для как и для чего я сделал этот алгоритм ... Начинайте параллельно обсуждать свой путь - в чем проблема ? Только зачем чужой "мешать с гавном" и утверждать что это тут не причем ... |
|
никто ничего не мешает. фигня НЕ сам алгоритм (алгоритм очень даже не плохой), а то что мы вообще, его уже который день обсуждаем. И да, я совсем (а не слабо) не понимаю, зачем вы его сделали. | нравится/не нравится - мне не условия, а их интерпретация ... именно поэтому у меня предпочтение к детерминированной задаче и входам стимулам без выделения наград, или с разделением наград и наказаний ... я обсуждаю, ищу границы МДП, QL, постановки задачи ... некоторые из них я первоначально не знал (как например с отрицательностью) ... смысл этого прощупать все это, чтобы можно было писать общий алгоритм, да проверяя его в этой задаче, но чтобы реально была надежда на другие условия постановки задачи ... почему это для вас демагогия ? |
|
Зачем их искать? они уже найдены. Поэтому и демагогия. Так общий алгоритм -- не входит в задачи данного проекта, который мы с вами начали. Если бы вы сразу поставили вопрос, что хотите написать общий алгоритм -- я бы сразу открестился.
|
|
|
|
На: Управление агентами
Добавлено: 23 окт 09 1:24
|
Автор: tac То и значит .. ну поменяю я тип с int на double ... и что, сильно запарюсь думаете ? И знать мне диапазон не зачем -бесконечность + бесконечность ... остальное настроиться автоматически ... ну, заведу пропорцию от полученной награды ... какие проблемы ?
(хотя по мне - это условия задачи нужно преобразовывать в целые числа - и весь вопрос) |
|
да нет, изменения будут посерьезнее. А добавить самонастройку конечно можно (она и для QЛ тоже есть, если уж на то пошло). Ну не будет у вас констант. Что это меняет? Ничего.
|
|
|
|
На: Управление агентами
Добавлено: 23 окт 09 1:25
|
Автор: tac Можете этот бустинг написать в виде псевдо алгоритма не смешивая с QL ?
|
|
а он и не должен смешиваться. вот только я пока не знаю как бустинг для РЛ сделать.  знал бы, проект был бы на 90% уже сделан.
|
|
|
|
На: Управление агентами
Добавлено: 23 окт 09 1:34
|
Автор: tac Вам не в лом кинуть сюда это определение - я над ним помедитирую ... (просто боюсь, что тогда мы стоит уж совсем на шадкой почве - в болоте т.е. ) |
|
понятия не имею где его взять. Но тут особенно медитировать ненадчем. Так как в рамках этого проекта менять теорию принятия решений и всю экономику, желания у меня совершенно нет. Единственное, с чем я еще могу согласиться, это (опять таки с экономической точки зрения) с дисконтированием (т.е. когда награда сейчас важнее чем награда которая будет, когда-то там...). т.е. Соглашусь, что возможно 0+0+0+0+0+0+0+...+0+10000 стратегия хуже чем 10+10+10 (особенно, если среда меняется со временем). В прочем на эти тему есть куча материала по экономики в раздели инвестирования, и это пять таки не та тема, которой мне бы хотелось заниматься сейчас. Фокусируйтесь на проблеме.
|
|
|
tac Сообщений: 2601 |
 |
|
На: Управление агентами
Добавлено: 23 окт 09 1:54
|
Автор: daner Фокусируйтесь на проблеме. |
|
Тогда обозначьте ее наиболее ЯВНО и ЧЕТКО. Похоже у нас все-таки разные проблемы  , и ваша кажется есть лишь мала часть моей  (отсюда я закидываю удочку дальше вас по стратегии 1+1+1+1+1+1+1+...+1+10000, вместо вашей 10+10+ стоп.)
|
|
|
tac Сообщений: 2601 |
 |
|
На: Управление агентами
Добавлено: 23 окт 09 1:57
|
Автор: daner
а он и не должен смешиваться. вот только я пока не знаю как бустинг для РЛ сделать. 
|
|
Да, поясните мне что вы уже знаете ... для чего его делают и как ... читать это на английском - это мне очень трудно, все равно прочитаю не то, и пойму не то
|
|
|
| |
tac Сообщений: 2601 |
 |
| |
| |
NO. Сообщений: 10700 |
 |
| |
|