GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.5 (11)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Какие методы обучения ИНС существуют и чем отличаются?
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 07 авг 08 17:38
Цитата:
Автор: daner

А вот это я совсем не понял.



Здесь вопрос вот в чем - есть неизвестный и не понятный ресурс для агента, изначально он так научен, чтобы учитывать его при принятии решений ... Вопрос в том, что его алгоритм адаптации - может привести к двух вариантам:
1. Учитывать или даже основыватся на этом неизвестном ресурсе, вместе с тем успешно развиваясь ... т.е. проевление некоторой веры, что если максимизировать этот ресурс, то и развитие колонии будет успешным (несмотря на то, что в ряде случаем это может не совпадать);
2. Игнорировать неизвестный ресурс, стать совершенно прагматичным - лишится мнимой цели и руководствоватся только числом двух других ресурсов.

аналогии с религиозностью и наукой, конечно, достаточно условные
[Ответ][Цитата]
daner
Сообщений: 4633
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 07 авг 08 19:02
Цитата:
Автор: tac



Здесь вопрос вот в чем - есть неизвестный и не понятный ресурс для агента, изначально он так научен, чтобы учитывать его при принятии решений ... Вопрос в том, что его алгоритм адаптации - может привести к двух вариантам:
1. Учитывать или даже основыватся на этом неизвестном ресурсе, вместе с тем успешно развиваясь ... т.е. проевление некоторой веры, что если максимизировать этот ресурс, то и развитие колонии будет успешным (несмотря на то, что в ряде случаем это может не совпадать);
2. Игнорировать неизвестный ресурс, стать совершенно прагматичным - лишится мнимой цели и руководствоватся только числом двух других ресурсов.

аналогии с религиозностью и наукой, конечно, достаточно условные


аааа, теперь понял аналогию.
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 07 авг 08 23:58
Цитата:
Автор: daner
Не, для форума это сильно много рассказывать. Но тема это оооочень известная, так что в гоогле если напишите "markove decision process", найдете тысячи ссылок.


Если это про это
"Марковский процесс — случайный процесс, эволюция которого после любого заданного значения временного параметра t не зависит от эволюции, предшествовавшей t, при условии, что значение процесса в этот момент фиксировано (короче: «будущее» процесса не зависит от «прошлого» при известном «настоящем»)."

то что тут много рассказывать ?
[Ответ][Цитата]
daner
Сообщений: 4633
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 08 авг 08 0:43
Цитата:
Автор: tac
Если это про это
"Марковский процесс — случайный процесс, эволюция которого после любого заданного значения временного параметра t не зависит от эволюции, предшествовавшей t, при условии, что значение процесса в этот момент фиксировано (короче: «будущее» процесса не зависит от «прошлого» при известном «настоящем»)."

то что тут много рассказывать ?


Это тоже самое, что на вопрос, что такое Нейронная сеть, сказать, что это группа из однородных элементов, имеющих в основе способность активации и связанных друг с другом. ВСЕ.
Если бы я знал, что вас это удовлетворит...
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 08 авг 08 3:04
Цитата:
Автор: daner

Автор: tac
Если это про это
"Марковский процесс — случайный процесс, эволюция которого после любого заданного значения временного параметра t не зависит от эволюции, предшествовавшей t, при условии, что значение процесса в этот момент фиксировано (короче: «будущее» процесса не зависит от «прошлого» при известном «настоящем»)."

то что тут много рассказывать ?


Это тоже самое, что на вопрос, что такое Нейронная сеть, сказать, что это группа из однородных элементов, имеющих в основе способность активации и связанных друг с другом. ВСЕ.
Если бы я знал, что вас это удовлетворит...



Хорошо, спасибо за наводку, здесь подробности всем кому интересно:
http://rriai.org.ru/markovskie-protsessyi-prinyatiya-resheniy-v-chastichno-nablyudaemyih-variantah-s-2.html

(Кстати, кто знает что это за книга - я так и не нашел на сайте автора и названия)

Итак, похоже на первый взгляд именно то, что у меня в одной из подзадач - выбор территории агентом для поселения ... (я еще читаю ) Подводить итоги будем позже, но на 50% моя задача все же оказывается классической

[Ответ][Цитата]
daner
Сообщений: 4633
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 08 авг 08 3:18
Цитата:
Автор: tac
Хорошо, спасибо за наводку,... на 50% моя задача все же оказывается классической

Да на здоровье (особенно после того, что я "ничего в этом не смыслю", не так ли?)
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 08 авг 08 3:51
Цитата:
Автор: daner

Да на здоровье (особенно после того, что я "ничего в этом не смыслю", не так ли?)


Не ужели я говорил, такую глупость (мое общение с различными индивидумами дает о себе знать по видимому) ...
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 09 авг 08 18:36
Немного слов о POMDP:

"В описании марковских процессов принятия решений, приведенном в разделе 17.1, предполагалось, что среда является полностью наблюдаемой. При использовании этого предположения агент всегда знает, в каком состоянии он находится. Это предположение, в сочетании с предположением о марковости модели перехода, означает, что оптимальная стратегия зависит только от текущего состояния. А если среда является только частично наблюдаемой, то вполне очевидно, что ситуация становится гораздо менее ясной. Агент не всегда точно знает, в каком состоянии находится, поэтому не может выполнить действие π (s), рекомендуемое для этого состояния. Кроме того, полезность состояния s и оптимальное действие в состоянии s зависят не только от s, но и от того, насколько много агент знает, находясь в состоянии s. По этим причинам задачи MDP в частично наблюдаемой среде (Partially Observable MDP — POMDP, читается как "пом-ди-пи") обычно рассматриваются как намного более сложные по сравнению с обычными задачами ΜDP. Однако невозможно игнорировать необходимость решения задач POMDP, поскольку реальный мир изобилует такими задачами.
....
Для более сложных задач POMDP с непустыми результатами наблюдений приближенный поиск оптимальных стратегий является очень сложным (фактически такие задачи являются PSPACE-трудными, т.е. действительно чрезвычайно трудными). Задачи с несколькими десятками состояний часто оказываются неразрешимыми. В следующем разделе описан другой, приближенный метод решения задач POMDP, основанный на опережающем поиске.
"


Стоит заметить, что предлагаемая мной задача как раз является задачей POMDP с непустыми результатами наблюдений (а именно 25 клеток вокруг) с конечным горизонтом (80 шагов) с как минимум 300 (базовыми) состояниями ... т.е. авторы этой книги признают, что такая задача является "неразрешимой" ... но неразрешимой именно методами перебора и жесткими методами (а именно только такие авторы применяют) .. и похоже вы их называете тем, что "исследованно" ...
с другой стороны, я предлагаю изучать эту задачу, не преследуя цель оптимального решения в том смысле как его формализуют авторы ... т.к. такого решения в поистине интеллектуальной задачи (неразрешимой жесткими методами принятия решений) нету ... а можно лишь попытаться "жить" в такой среде и раз от раза действовать лучше ...

[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 09 авг 08 22:23
Еще я подумал, что можно немного упростить правила игры, убрав необходимость в определении типа территории по изображению. В новом варианте типы территорий даются как входная информация. Так же учителем предаставляется более детальная информация, но ее автомат может вначале использовать не всю, хотя конечно, интереснее варианты когда он ее будет использовать ... Полная формулировка задачи ниже.
----------
Двухуровневое целепологание агента как задача искусственного интеллекта

1. Описание минимальной задачи двухуровневого целеполагания
Для задачи используем мотив стратегической игры “Цивилизация”. Имеется карта состоящая из 300 квадратов (координатных положений, территорий). Каждая территория имеет свой тип – луг, равнина, океан, река, пшеница. Каждый такой тип отличается количеством ресурсов, которые можно получить обрабатывая эту местность (квадрат). Различают три вида ресурсов – еда, метал и деньги (золото).
Игра начинается с одного поселенца, который помещается в случайную позицию на карте. Задача поселенца выбрать место для будущего города, необходимого для того, чтобы обрабатывать местности на карте. Видимость карты для поселенца составляет 25 квадратов (радиус 2 квадрата вокруг него).
Сделав свой выбор, поселенец строит город, а сам пропадает – превращается в одного жителя города. Город занимает площадь 9 квадратов (радиус 1 квадрат вокруг него), потенциальных для выбора места обработки. Центр города считается всегда обрабатываемым. Окраины (8 квадратов) могут обрабатываться жителями, на одного жителя – один квадрат. Выбор делается статично в момент появления жителя. Таким образом, сразу после постройки выбирается место для обработки.
Далее при накоплении на складах города определенного количества еды – появляется житель города (и стоит задача выбора места обработки), а при накоплении определенного количества металла - появляется новый поселенец (и стоит задача выбора места для нового города).
Количество необходимой еды для появления нового жителя зависит от размера города (числа жителей этого города). При одном жителе нужно 20 ед. Еды, при двух – 30 ед. и т.д. Количество металла необходимое для создания поселенца 40 ед. При этом за один ход, один житель в городе съедает 2 единицы пищи.
Задача состоит в выборе стратегии при которой за 80 ходов можно добыть наибольшее количество денег.
Важной частью условий является предоставление информации о самих правилах игры – играющему автомату. Например, непосредственно ему не известно сколько тех или иных ресурсов можно добыть на определенном типе территории. Информацию об этом он получает косвенно, через систему т.н. учителей (об этом см. следующий раздел).
Так же есть запрещающие правила, например, если поселенец захочет выйти за пределы карты, он стукается об стенку и остается на месте. Также нельзя построить город на городе или уже обрабатываемой территории. В данном случае, в виде наказания, поселенец просто пропадает если осуществит такое действие.
2. Передача информации с помощью учителя (простейший вариант)
Учитель делает свою экспертную оценку на базе классического алгоритма “Принятия решений”, например, применяя взвешенную оценку альтернатив. Дополнительно к этому методу учитель учитывает уже занятые территории – если предполагается строить город на городе, то экспертная оценка будет 0, если предполагается город строить на территории окраин уже построенного города (где потенциально уже может обрабатываться территория), то экспертная оценка будет 50.
Учитель предоставляет экспертную оценку пригодности определенного места на основании 25 типов территорий, которые находятся вокруг автомата, разделяя их 9 раз по 9 в различных направлениях от позиции автомата. Информация предоставляемая учителем состоит из ряда составляющих, поделенных на строки. Автомат имеет датчики по которым достоверно определяются сразу 9 типов территорий (площадь одного города). На основании этих данных учитель предоставляет 9 промежуточных сведений (строк) и лишь в конце получается конечная оценка. Первая из девяти строка данных содержит информацию о первом квадрате, вторая строка о сумме ресурсов и маске одинаковых типов территорий первого и второго квадратов, а также относительную экспертную оценку эти двух квадратов, третья строка добавляет информацию и анализ уже относительно трех квадратов, и т.д. до учета всех 9 квадратов.
Информация в каждой строке состоит из 3 частей (ниже в примере описана 3 строка из 9, когда входные данные три квадрата: холм, река, лес) :
1. Сумма ресурсов на рассматриваемых квадратах, например, 4/3/0 (пища/метал/золото);
2. Маска одинаковых территорий, например, 0010-0000-0011-0000;
3. Экспертная оценка, например, 60/180/118/0/0/0/0/0.
После получения 9 строки предоставляется общая оценка пригодности города. Сравнивая, таким образом, еще 9 мест для постройки города (в различных направлениях от положения автомата) – в итоге получаем 81 сторку промежуточной информации (по 9 строк на каждую площадь для застройки города) и 9 совокупных оценок пригодности, которые относительно сравнивают на сколько пригодны места для постройки города.
Выбирая максимальную оценку автомат двигается в соответствующую сторону. А если он уже там находится и эта оценка больше 100, то он строит город.
Вся эта информация предоставляется учителем до игры полностью по всей карте. Автомат может запомнить ее, преобразовав по своему усмотрению. Но нужно иметь введу, что наличие такой информации не означает ознакомление с картой, т.к. автомат в процессе игры не будет знать в каком именно месте он находится. И второе, оценка данная экспертом лишь начальная, и совсем не гарантируется, что она оптимальна для правил и конечной цели игры. Автомат должен сам решать на сколько доверять такой оценке.
Задачей автомата как раз является преобразование первоначальной оценки данной учителем, так чтобы применяемая стратегия стала бы наилучшей для конечной цели игры.
Для упрощения задачи возможен вариант, когда принятие решения о том, какой участок в городе обрабатывать при появлении нового жителя, делается автоматически на основании взвешенной оценки альтернатив.

----

Если есть желающие помочь формализовать эту задачу (разделив ее на подзадачи) - буду рад помощи ...

[Ответ][Цитата]
daner
Сообщений: 4633
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 10 авг 08 4:20
Цитата:
Автор: tac
Стоит заметить, что предлагаемая мной задача как раз является задачей POMDP с непустыми результатами наблюдений (а именно 25 клеток вокруг) с конечным горизонтом (80 шагов) с как минимум 300 (базовыми) состояниями ... т.е. авторы этой книги признают, что такая задача является "неразрешимой" ... но неразрешимой именно методами перебора и жесткими методами (а именно только такие авторы применяют) .. и похоже вы их называете тем, что "исследованно" ...
с другой стороны, я предлагаю изучать эту задачу, не преследуя цель оптимального решения в том смысле как его формализуют авторы ... т.к. такого решения в поистине интеллектуальной задачи (неразрешимой жесткими методами принятия решений) нету ... а можно лишь попытаться "жить" в такой среде и раз от раза действовать лучше ...


Все верно, об этом я вам и говорил. Но "исследованным" я называл именно среду, а не решение. Но даже если говорить о решения, то на сегодня есть много различных алгоритмов, которые так или иначе пытаются решать задачу POMDP. Если у вас будет представлен свой метод, его надо сравнивать с существующими, что бы понять что в нем нового и т.д.
[Ответ][Цитата]
daner
Сообщений: 4633
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 10 авг 08 4:23
Зачем вам термин "Двухуровневое целепологани"??? Вам POMDP не хватает?
Что касается формализации. Если бы у вас был метод полностью решающий POMDP. Как бы вы решали вашу задачу? ну ли подругому. Скажем, что еще вы добавляете к классичекому POMDP.
Это я вам наводящие для формализации подкидываю.
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 10 авг 08 4:43
Цитата:
Автор: daner

Зачем вам термин "Двухуровневое целепологани"??? Вам POMDP не хватает?


POMDP это лишь частная подзадача "Двухуровневое целепологания", и по сути даже мало пересекается. Скажем так POMDP, Мультиагентность, Распознование образов, Переоценка ситуации - является минимальными, но не достаточными аспектами построения задачи "Двухуровневое целепологани". Двухуровневым задачу делает тот факт, что на фоне всего этого происходит выработка стратегии по двум прагматичным параметрам и улучшению/упрощению по третьему связанному параметру. Т.е. пргаматичная игра ведется в пространстве двух ресурсов и их использования, и интеллектуального осмысления третьего ресурса ... и как говорилось, POMDP - это лишь минимальный фон на котором разыгрываются интеллектуальные действия. Кстати, обратным отличием от MDP и POMDP - это детерминированность действий - действия происходят не вероятностно, а выполняются на верняка ...

Кстати, не очевидной подзадачей, не необходимой, но очень важной для алгоритма решения - является способ хранения данных полученных от учителя ... т.к. я работаю с нейронными сетями, то эти данные хранятся распределенным образом в сети, которая может сделать прогноз. И важно найти способ хранения в инвариантном виде. Т.е. понятно, что учитель предоставляет информация о одних и тех же территория только в разных комбинациях, поэтому хотелось бы научится хранить информацию в сети, так чтобы разделять собственно не повторяющуюся информацию и в процессе работы получать комбинации ... наверное не очень понятно ... но можем обсудить позже ... пока я не знаю решения, но думаю с этого правильно начать думать об алгоритме решения ...

Полное же решение должно получится из анализа только этих данных - и нахождения в них противоречий ... и этого по задумке должно быть достаточно для эффективной (т.к. нет оптимальной) стратегии поведения в среде.

Да, и было бы не плохо подумать над тем как провести доказательство, что в такой задаче не может быть оптимальной стратегии ...
[Ответ][Цитата]
daner
Сообщений: 4633
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 10 авг 08 13:02
QUOTE Автор: tac

Цитата:
POMDP это лишь частная подзадача "Двухуровневое целепологания", и по сути даже мало пересекается. Скажем так POMDP, Мультиагентность, Распознование образов, Переоценка ситуации - является минимальными, но не достаточными аспектами построения задачи "Двухуровневое целепологани". Двухуровневым задачу делает тот факт, что на фоне всего этого происходит выработка стратегии по двум прагматичным параметрам и улучшению/упрощению по третьему связанному параметру. Т.е. пргаматичная игра ведется в пространстве двух ресурсов и их использования, и интеллектуального осмысления третьего ресурса ... и как говорилось, POMDP - это лишь минимальный фон на котором разыгрываются интеллектуальные действия. Кстати, обратным отличием от MDP и POMDP - это детерминированность действий - действия происходят не вероятностно, а выполняются на верняка ...


Не знаю, но что-то я не до конца понимаю это ваше "Двухуровневое целепологания".
Я думаю что вам надо начать именно с этого. Т.е. как можно формальнее определить этот термин!!! Без этого дальше (ИМХО) просто некуда двигаться.

Цитата:
Кстати, не очевидной подзадачей, не необходимой, но очень важной для алгоритма решения - является способ хранения данных полученных от учителя ... т.к. я работаю с нейронными сетями, то эти данные хранятся распределенным образом в сети, которая может сделать прогноз. И важно найти способ хранения в инвариантном виде. Т.е. понятно, что учитель предоставляет информация о одних и тех же территория только в разных комбинациях, поэтому хотелось бы научится хранить информацию в сети, так чтобы разделять собственно не повторяющуюся информацию и в процессе работы получать комбинации ... наверное не очень понятно ... но можем обсудить позже ... пока я не знаю решения, но думаю с этого правильно начать думать об алгоритме решения ...

Посмотрите тему, что такое "ассоциативные нейронные сети". Но я себя плохо... т.е. вообще, не представляю, как их можно совмещать с обычными сетями.

Цитата:

Да, и было бы не плохо подумать над тем как провести доказательство, что в такой задаче не может быть оптимальной стратегии ...

Вам надо найти две стратегии, хоть как-то различающиеся (пусть даже в одно действие), но которые обе будут оптимальными. Подумайте, как можно проверить стратегию на оптимальность. Ну скажем, я даю вам стратегию, вы ее анализируете и говорите, оптимальна она или нет.
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 10 авг 08 23:43
Цитата:
Автор: daner
Вам надо найти две стратегии, хоть как-то различающиеся (пусть даже в одно действие), но которые обе будут оптимальными. Подумайте, как можно проверить стратегию на оптимальность. Ну скажем, я даю вам стратегию, вы ее анализируете и говорите, оптимальна она или нет.


Дело как раз не в этом, если найти две оптимальные стратегии - это означает, что оптимальная стратегия в принципе расчитывается, ну подумаешь они совпали, тогда бы речь шла бы о том, что имеются равнозначные стратегии, а не о том, что их нету в принципе.
Давайте, подумаем что значит нету оптимальных стратегий - это означает то, что при имеющийся информации их не возможно расчитать, а можно лишь расчитать некую среднию стратегию, и несколько локальных правил, которые ее улучшат в случае если автомат попал в определенное состояние.
Соответственно, я не могу каким либо образом проанализировать данную Вами мне стратегию и сказать на сколько она оптимальна. Все будет зависеть от конкретного мира в который попадет Ваш агент, и только прогнав его в среде 80 шагов я смогу сказать на сколько он оптимален.
Если точнее оптимальность той или иной стратегии будет зависеть от распределения типов территорий в среде, и соответственно, доступности тех или иных ресурсов ... выбор же эффективной стратегии будет заключатся в использовании наилучшем образом доступных ресурсов. Т.е. вы будите просто не способны дать мне статическую стратегию, вам прейдется ее оформить в виде алгоритма, а вот проанализировать алгоритм в неизвестной (со случайно распределенными ресурсами) среде - будет просто не реально ...
Поэтому целью рационального агента в такой среде является не максимизация цели, которая ему поставленна (это даже не зависит от экспериментатора - он по прежнему может требовать максимизацию), а "благоразумность" (присутствие в них логики, которая не задана детерминированно изначально - т.е. как раз проявление интеллектуальности) действий ... и именно такую "благоразумность" и нужно оценить ...

(Кстати, в условиях задачи я ранее пропустил одно условие: "При этом за один ход, один житель в городе съедает 2 единицы пищи.", что не позволяет городам бесконечно разрастаться ...)
[Ответ][Цитата]
tac
Сообщений: 2601
На: Какие методы обучения ИНС существуют и чем отличаются?
Добавлено: 11 авг 08 3:27
В принципе эта задача просчитывается ... если знать что она длится 80 ходов, если знать при каком условии появляется новый житель в городе и поселенец, если знать какие типы территорий существуют и сколько на каждой из них ресурсов, и главное по какому параметру оценивается успех. То при всей прочей неопределенности задача жестко просчитывается и покрайней мере можно написать алгоритм, который это расчитывает. Главными понятиями такого алгоритма будет виды возможных для постройки городов, расчет гибкой стратегии в планировании того какие виды городов нужны в зависимости до оставшегося времени окончания игры, расчет алтернатив стоит ли поселенцу искать лучшее место или в создавшихся условиях лучше воспользоваться той доступностью ресурсов, что есть, и оценке риска стоит ли далеко уходить поселенцу от места возможной постройке даже если еще не исчерпан лимит ходов на поиск (т.е. сможет ли поселенец в случае неудачного поиска хотя бы возвратиться к возможному ранее месту).

Построение такого алгоритма, наверняка важно - и этим можно занятся, в общих чертах я представляю себе как это может быть ...
Но затем все же следует заметить, что автомату все же не представляется такая информация, а есть лишь косвенная информация от учителя, которая уже смешенна с его так сказать предпочтениями ... задачей же такого автомата по большому счеты является востановить необходимую информацию для выроботки стратегии, находя противоречия в предоставляемой учителем информацией ... и тогда можно будет сравнить на сколько отличаются алгоритмы обладающей информацией о четких правилах игры и алгоритмы, которые имеют нечеткую и противоречивую информацию ....

[Ответ][Цитата]
 Стр.5 (11)1  2  3  4  [5]  6  7  8  9  ...  11<< < Пред. | След. > >>