GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.17 (26)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Управление агентами
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 15 окт 09 16:13
Цитата:
Автор: tac
В нашем случае, система управления подкрепления - внешняя, т.е. это классическое обучение с учителем ! Поэтому вся болтовня, что RL (обучение с подкрепление) - чем то от этого отличается - так и остается болтовней ...
Конечно отличается. Вы разницу между "Подарок находится в салоне под кроватью, с левой стороны." и "Теплее, Теплее, Холоднее, еще Теплее, ...." видите? Я вижу. Разница не в том, есть учитель или нет, а в том как он учит.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 15 окт 09 18:46
Цитата:
Автор: daner
Конечно отличается. Вы разницу между "Подарок находится в салоне под кроватью, с левой стороны." и "Теплее, Теплее, Холоднее, еще Теплее, ...." видите? Я вижу. Разница не в том, есть учитель или нет, а в том как он учит.
Это димагогия ... т.е. разница не принципиальная ... В обучении с учителем тоже самое - учитель классически говрит правильно/не правильно (он не указывает КАК правильно) ... здесь же кроме двухбальной системы, используется 100 бальная - но как оценивал внешний учитель так и оценивает ... только ЕЩЕ точнее ...
Разница действительно в данном случае не с / без учителя. Весь вопрос в том на каком языке сформулировано подкрепление. В простой системе (а у нас именно такая) язык стимулов соответствует языку подкреплений. Это пригодно для простых регуляторов, например температуры ... вот что пишет Растригин (с чем я полностью солидарен, и еще до его прочтения интуитивно к этому стримился):
"свои цели субъект формулирует не в терминах среды S: субъекту удобнее оперировать иными, свойственными ему понятиями (назовем их целевыми). Пусть эти целевые понятия описываются вектором Z , где каждый целевой параметр однозначно определяется ситуацией S.
В частном случае может оказаться, что Z = Y (т.е. цели соответствуют состояниеям объекта), но это бывает редко. Например, при управлении температурным режимом объекта достаточно измерять температуру, т. е. z = y = t0, так как цель сформулирована в терминах измерений. Однако при создании оператору комфортных условий необходимо измерять температуру и влажность, в то время как цель формулируется в виде определенного ограничения на определенную их комбинацию."
Именно отсюда я давно предлагаю исследовать среду с разными видами подкрепления (не одной цифрой, а тремя, а цель указывать в виде их комбинации - помните я об этом писал в задаче с муравьями и ДНК растений, которые они поедают) ...
Это как раз снимет высказанные притензии, и позволит говорить, что система подкрепления внутреняя ! А не внешняя как сейчас ! (Соответственно и цель будет (если получится) будет формироваться агентом)
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 16 окт 09 2:29
QUOTE's Автор: tac
Цитата:
Это димагогия ... т.е. разница не принципиальная ... В обучении с учителем тоже самое - учитель классически говрит правильно/не правильно (он не указывает КАК правильно) ... здесь же кроме двухбальной системы, используется 100 бальная - но как оценивал внешний учитель так и оценивает ... только ЕЩЕ точнее ...
Вот именно, что говорит как правильно.
Вспомните как обучается .. например ИНС (перцептронная). Ей говорят
правильный
ответ, она вычисляет ошибку и корректирует веса. Так что... принципиально.
Цитата:
Именно отсюда я давно предлагаю исследовать среду с разными видами подкрепления (не одной цифрой, а тремя, а цель указывать в виде их комбинации - помните я об этом писал в задаче с муравьями и ДНК растений, которые они поедают) ...
А вот тут, принципиальной (т.е. вообще никакой) разницы не вижу. Мы раньше говорили, что не важно, где определяется награда (вне или самим агентом), вы же предлагаете среднее между этими двумя. Т.е. награда определяется средой, но в виде вектора, дальше уже самим агентом вектор трансформируется в скаляр. Вы хотите исследовать какой-то метод подобной трансформации? Отличная идея, но только это другая "сказка".
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 16 окт 09 6:07
Цитата:
Автор: daner
Вот именно, что говорит как правильно.
Вспомните как обучается .. например ИНС (перцептронная). Ей говорят
правильный
ответ, она вычисляет ошибку и корректирует веса. Так что... принципиально.
Какую ошибку ? Нет, перцептрон Розенблатта не нуждается в вычислении НИ КАКОЙ ошибки ! Как минимум в случае "Метод коррекции ошибок со случайным знаком подкрепления"
(
http://ru.wikipedia.org/wiki/М
етод_коррекции_ошибки)
если же говорить о классическом методе обучения перцептрона "Метод коррекции ошибок с квантованием"
то как я и говорил это демагогия, т.к. в таком случае подкрепление агента это ТОЧНЫЙ правильный ответ на комбинацию состояние-действие , ровно такой же как указание комбинации стимул-реакция. Если же мы говорим вообще о ответе на задачу, то перцептрону так же не известная искомая гиперплоскость, как и Q-функция агента ... несколько разная теминалогия и условия задачи ... что легко впрочем приводится к одному виду ... но по сути ОТЛИЧИЙ в способе обучения НЕТУ.
(конечно речь идет только о МДП)
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 16 окт 09 6:14
Цитата:
Автор: daner
А вот тут, принципиальной (т.е. вообще никакой) разницы не вижу. Мы раньше говорили, что не важно, где определяется награда (вне или самим агентом), вы же предлагаете среднее между этими двумя. Т.е. награда определяется средой, но в виде вектора, дальше уже самим агентом вектор трансформируется в скаляр. Вы хотите исследовать какой-то метод подобной трансформации? Отличная идея, но только это другая "сказка".
Нет сказка та же самая (другой вопрос в каком порядке мы к ней прейдем, но как только захотим говорить о биологичности модели - другого выхода не будет) ... и именно такой средний вариант в реальности только и возможен, т.к. награды самим агентом без относительно среды определятся не могут - это будут чистые фантазии агента, без связи с реальностью ...
А разница тоже принципиальна - алгоритмически потребуются совершенно другие механизмы/алгоритмы ... есть разница или на входе один параметр, и ты его максимизируешь, или три параметра и не знаешь вид взаимосвязи оптимальной их взаимосвязи ... и вот только тут обучение вида "теплее, теплее, холоднее ... "
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 16 окт 09 14:06
QUOTE's Автор: tac
Цитата:
то как я и говорил это демагогия, т.к. в таком случае подкрепление агента это ТОЧНЫЙ правильный ответ на комбинацию состояние-действие , ровно такой же как указание комбинации стимул-реакция.
вот и я про тоже самое. Точный ответ, в отличии от RL. В этом и разница. Если написать алгоритм для ИНС, который будет для коррекции получать не ОТВЕТ, а подкрепление -- то это будет RL алгоритм для ИНС.
Цитата:
Если же мы говорим вообще о ответе на задачу, то перцептрону так же не известная искомая гиперплоскость, как и Q-функция агента ... несколько разная теминалогия и условия задачи ... что легко впрочем приводится к одному виду ... но по сути ОТЛИЧИЙ в способе обучения НЕТУ.
А с этим никто и не спорил. Поэтому в обоих случаях это называется ОБУЧЕНИЕМ, так что... это не имеет отношения к разнице между класич.обуч. с учителем и РЛ.
Цитата:
(конечно речь идет только о МДП)
причем тут MDP? это всего лишь среда. основная идея в RL состоит в том, что вместо точного ответа мы получаем подкрепление. А в каком типе среды это происходит, не важно.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 16 окт 09 14:26
QUOTE's Автор: tac
Цитата:
Нет сказка та же самая (другой вопрос в каком порядке мы к ней прейдем, но как только захотим говорить о биологичности модели - другого выхода не будет) ...
Не со мной, так как я не захочу.
Цитата:
и именно такой средний вариант в реальности только и возможен, т.к. награды самим агентом без относительно среды определятся не могут - это будут чистые фантазии агента, без связи с реальностью ...
Не правда. Реальность -- не только биология. Реальность - это наша жизнь. Не виртуальный робот -- это тоже реальность, агент ведущий торги или какие другие переговоры с людьми -- тоже реальность (попроще конечно), и т.д.
Но и даже в биологии, оценка вообще не обязательно должна получаться извне.
В конце концов, она может вырабатываться вообще самим агентом самостоятельно (моя работa по этой теме, да и ряд работ др.авторов: Брукс,Тумер,Балх,Болинг,Велосо,Матарик,Розеньфельд,Экселент-Толедо,Капетанакис,Куденко и т.д.).
Вся разница в том, что упомянутая функция трансформации, превратиться из функции, которая переводит вектор подкрепления в скаляр подкрепления, в функцию которая переводит вектор сенсоров (состояний агента) в скаляр подкрепления.
Цитата:
А разница тоже принципиальна - алгоритмически потребуются совершенно другие механизмы/алгоритмы ... есть разница или на входе один параметр, и ты его максимизируешь, или три параметра и не знаешь вид взаимосвязи оптимальной их взаимосвязи ... и вот только тут обучение вида "теплее, теплее, холоднее ... "
В том-то и дело, что ИМХО, никаких других механизмов не потребуется. Если конечно функция трансформации (генерации награды) будет правильной, т.е. будет генерировать хорошую награду (а что бы она такой была, она должна отвечать ряду характеристик; есть даже несколько статей по этой теме), то на алгоритм самого обучения это не повлияет.
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 16 окт 09 17:01
Цитата:
Автор: daner
Точный ответ, в отличии от RL. В этом и разница. Если написать алгоритм для ИНС, который будет для коррекции получать не ОТВЕТ, а подкрепление -- то это будет RL алгоритм для ИНС.
Нет, ты не понял - точный ответ и в QL и в ИНС. Смотри: на состояние S1 при действии A1 = дается однозначное подкрепление 100 ед. Один в один при обучении перцептрона: На входы S1 указывается что это реакция A1 (1/0) - тогда ладно жестко указали как реагировать ! Но можно кодировать по другому - выход будет не бинарный, а скажем байтовый. Тогда на 8 бинарных выходов запишем 100 ед. И будет связано один в один так же в ситуации S1 делать действие A1 с уверенностью 100 из 256. Изменилось лишь КОДИРОВАНИЕ, а не тип обучения ... и это не случайно, т.к. RL - это частный случай обучения с учителем, отличающийся лишь КОДИРОВАНИЕМ, который можно и не различать ...
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 16 окт 09 17:05
Цитата:
Автор: daner
оценка вообще не обязательно должна получаться извне.
В конце концов, она может вырабатываться вообще самим агентом самостоятельно
Такого быть не может ! Или ты хочешь сказать, что агент для этого не использует НИКАКИХ внешних данных ? У него нет ни каких датчиков - и показания с них он не использует ?
[
Ответ
][
Цитата
]
tac
Сообщений: 2601
На: Управление агентами
Добавлено: 16 окт 09 17:09
Цитата:
Автор: daner
В том-то и дело, что ИМХО, никаких других механизмов не потребуется. Если конечно функция трансформации (генерации награды) будет правильной, т.е. будет генерировать хорошую награду (а что бы она такой была, она должна отвечать ряду характеристик; есть даже несколько статей по этой теме), то на алгоритм самого обучения это не повлияет.
А вот это СОВСЕМ не очевидно. Да и потом, что значит "правильной" ? Дело в том, что появляется новая подзадача НАЙТИ вид и саму функцию этой трансформации ! Она агенту не может быть известна ! И именно эта новая подзадача диктует то какие экспериментальные действия должен произвести агент в среде ...
Да и потом, сейчас я вообще не представляю, чтобы QLearning заработал бы - дадим ему 3 числа награды ! Как он должен их воспринимать ? В простейшем случае сложит - и будет ориентироваться на сумму ? А ведь реальная функция может буть совсем не сложение ! И тогда его обучения гроша ломаного стоить не будет. Ему необходимо НАЙТИ что делать с этими 3 числами ... как он будет это делать ? Пока даже сравнивать нельзя, т.к. однозначно QLearning для это не предназначен, и нельзя к нему свести !
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 17 окт 09 14:12
QUOTE's Автор: tac
Цитата:
Нет, ты не понял - точный ответ и в QL и в ИНС. Смотри: на состояние S1 при действии A1 = дается однозначное подкрепление 100 ед. Один в один при обучении перцептрона: На входы S1 указывается что это реакция A1 (1/0) - тогда ладно жестко указали как реагировать !
я то как раз понял. Q-таблица не собирает информацию о наградах, она собирает информацию о выгодности положения (это не одно и тоже). И даже если рассматривать одно состояние, то ответом агента будет пара (состояние-действие), а ответом среды (новое состояние, подкрепление). Таким образом, ТОЧНОГО ответа нет. то что ты получаешь 100 или 0 или 10, само по себе ни о чем не говорит. Другое дело в ИНС (ну скажем в BP). Ты отвечаешь (000100011), а тебе говорят:"Правильный ответ (001010011)". И этот ответ не зависит ни от чего. Он правильный сам по себе.
Цитата:
Но можно кодировать по другому - выход будет не бинарный, а скажем байтовый. Тогда на 8 бинарных выходов запишем 100 ед. И будет связано один в один так же в ситуации S1 делать действие A1 с уверенностью 100 из 256. Изменилось лишь КОДИРОВАНИЕ, а не тип обучения ...
За одной неточностью.
как я уже говорил, Q-л учит не награды, а стратегии, в отличии от переведенного тобой примера. Т.е. после того, как ты выучишь все награды, тебе потребуется применить какой-то алгоритм решения RL для поиска нужной стратегии, на уже известных тебе наградах (либо способ "итерации значений", либо "итерации стратегий").
Цитата:
и это не случайно, т.к. RL - это частный случай обучения с учителем, отличающийся лишь КОДИРОВАНИЕМ, который можно и не различать ...
Неее, так точно обобщать не правильно. "Обучение с учителем" не смотря на его интуитивное понимание, оно имеет намного более узкие рамки, т.е. именно "Точный Ответ". Если ответ дается не точный, но все равно учителем, это уже не называется "Обучение с учителем". Ну так уж принята терминология. Так что RL это одно, а точные ответы это другое.
Кстати, вот что пишут по этому поводу в вики:
"Reinforcement learning differs from the supervised learning problem in that correct input/output pairs are never presented, nor sub-optimal actions explicitly corrected. Further, there is a focus on on-line performance, which involves finding a balance between exploration (of uncharted territory) and exploitation (of current knowledge)."
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 17 окт 09 14:14
Цитата:
Автор: tac
Такого быть не может ! Или ты хочешь сказать, что агент для этого не использует НИКАКИХ внешних данных ? У него нет ни каких датчиков - и показания с них он не использует ?
Конечно использует. Но эти данные -- НЕ награда. Это просто данные состояния среды. Хочу напомнить, что НАГРАДА, не смотря на то, что она дается средой (ну в классическом варианте) она НЕ является частью состояний НИ агента, НИ среды.
[
Ответ
][
Цитата
]
daner
Сообщений: 4633
На: Управление агентами
Добавлено: 17 окт 09 14:29
QUOTE'sАвтор: tac
Цитата:
А вот это СОВСЕМ не очевидно. Да и потом, что значит "правильной" ? Дело в том, что появляется новая подзадача НАЙТИ вид и саму функцию этой трансформации ! Она агенту не может быть известна ! И именно эта новая подзадача диктует то какие экспериментальные действия должен произвести агент в среде ...
* ок... пока что эксперименты показывают обратное... но формального доказательства я не видел... так что, тут кому что очевиднее.
* "правильная", это та которая позволит адекватно действовать агенту. Правда в таком случае "адекватность" может быть достаточно сложным определением.
* Во-первых, именно, что подзадача. Об этом и речь. Во-вторых, не обязательно, что он должен сам эту функцию узнавать. Это может быть какая либо эвристическая функция данная агенту априори. На первый взгляд типа никакой разницы, но на самом деле она существенна, особенно для реального воплощения.
Цитата:
Да и потом, сейчас я вообще не представляю, чтобы QLearning заработал бы - дадим ему 3 числа награды ! Как он должен их воспринимать ? В простейшем случае сложит - и будет ориентироваться на сумму ? А ведь реальная функция может буть совсем не сложение ! И тогда его обучения гроша ломаного стоить не будет. Ему необходимо НАЙТИ что делать с этими 3 числами ... как он будет это делать ?
Так я про эту функцию и говорю!!!! Т.е. то что ты называешь "и что он с ними делать будет", я назвал "функцией трансформации в награду". В данном случае, трансформироваться будет не состояние среды, а тоже награда, только комплексная.
Тут одно из двух (ИМХО, и я уже выше это написал). Либо даем ему функцию априори (ну например сложение), либо заставляем его изучать эту функцию самостоятельно, но тогда, для этого необходимо каким-то образом сообщить агенту, что такое "рациональное"/"эффективное" поведение в данной среде. Как мне кажется, вопрос это открытый, и пожалуй работ я по этой тебе не видел. ХОТЯ, возможно, что когда все это будет проделано, окажется, что это тот-же самый RL, только обучение перенесли со стратегии действий, на стратегию вознаграждений (вот и все).
Цитата:
Пока даже сравнивать нельзя, т.к. однозначно QLearning для это не предназначен, и нельзя к нему свести
QLearning, в таком случае, будет ЧАСТЬЮ алгоритма. Той частью которая будет изучать.
Вы же сами твердили о необходимости умения делать декомпозицию задач и все такое. Вот это как раз тот случай.
[
Ответ
][
Цитата
]
гость
62.205.211.*
На: Управление агентами
Добавлено: 18 окт 09 5:35
Цитата:
Автор: daner
я то как раз понял. Q-таблица не собирает информацию о наградах, она собирает информацию о выгодности положения (это не одно и тоже). И даже если рассматривать одно состояние, то ответом агента будет пара (состояние-действие), а ответом среды (новое состояние, подкрепление). Таким образом, ТОЧНОГО ответа нет. то что ты получаешь 100 или 0 или 10, само по себе ни о чем не говорит. Другое дело в ИНС (ну скажем в BP). Ты отвечаешь (000100011), а тебе говорят:"Правильный ответ (001010011)". И этот ответ не зависит ни от чего. Он правильный сам по себе.
Слишком самоуверенно
Правильнее говорить, "я думаю, что я все понял" ...
"Q-таблица не собирает информацию о наградах, она собирает информацию о выгодности положения (это не одно и тоже)"
Нет, она собирает информацию о наградах, и на основе этого строить гиперплоскость выгодности положения (и это не одно и тоже)
"если рассматривать одно состояние, то ответом агента будет пара (состояние-действие)"
Нет, входом будет состояние. возможное действие - выходом оценка выгодности данного действия (ну вспомни какие индексы нужны для того, чтобы обратится к Кю-таблице)
Ты отвечаешь (000100011), а тебе говорят:"Правильный ответ (001010011)" - повторяю еще раз -
один вариант: Ты отвечаешь (000100011), а тебе говорят правильно/неправильно (ВСЕ) - за это платим более долгим схождением
второй вариант: Ты отвечаешь (000100011), а тебе говорят согласен/несогласен, и в случае несогласен добавляют, а я думаю (001010011)
Если 001010011 интерпретировать как оценку пары состояния-действия - то это будет тоже самое ....
Ну хочешь называй это РЛ на ИНС ... НО от этого алгоритм ИНС вообще ни как не поменялся - изменилась только интерпретация его выхода - вот и все ...
[
Ответ
][
Цитата
]
гость
62.205.211.*
На: Управление агентами
Добавлено: 18 окт 09 5:41
Цитата:
Автор: daner
Конечно использует. Но эти данные -- НЕ награда. Это просто данные состояния среды. Хочу напомнить, что НАГРАДА, не смотря на то, что она дается средой (ну в классическом варианте) она НЕ является частью состояний НИ агента, НИ среды.
А чем по вашему отличается награда от состояния ? По мне награда - это частный случай состояния среды!
"она НЕ является частью состояний НИ агента, НИ среды" ОНА из космаса дана свыше ? Ничего кроме среды, и агента не существует, а среда это просто пространство стимулов и ничего больше .... поэтому НИ агента, НИ среды - тогда встает закономерный вопрос а частью чего она является ?
[
Ответ
][
Цитата
]
Стр.17 (26)
:
1
...
13
14
15
16
[17]
18
19
20
21
...
26
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net