Вернемся теперь к нашим баранам. К задаче 1 этапа обучения из описанного выше примера.
"1 этап.
Обучение агента производится путем подачи ему на вход сочетаний вида:
SA, SБ, SВ, SГ, SД, SЕ, SЖ, SЗ .... и т.д. - на второй позиции буквы русского алфавита, которым мы будем обучать агента.
Смысл здесь такой. Учитель подает агенту сообщения
Скажи "А", Скажи "Б", Скажи "В", Скажи "Г", Скажи "Д", Скажи "Е", Скажи "Ж", Скажи "З" ..." и т.д.
Начиная обучаться агент СПАЙ параллельно использует сразу несколько форм обучения.
Про слабую все понятно, просто заполняется таблица вход-выход-вероятность подкрепления.
Постепенно, совершая те или иные ответные действия набирается необходимая статистика, которая используется при выборе действий (для простоты будем считать что выбираются, те которые с максимальной вероятность дадут "+")
Как можно будет видеть дальше, поначалу - на самых первых шагах - агент при выборе своих действий использует результаты слабого обучения. Tabula rasa - ничего не попишешь.
Посмотрим теперь как обстоит дело при сильном. При сильном строится новое знание отображающее какую-то особенность мира, генерящего обучающую выборку.
Перед этим система создания новых предположений/гипотез/знаний регистрирует содержащуюся в обучающей выборке особенность
(про то, как происходит нахождение различных особенностей - отдельный разговор, это очень интересная и плодотворная тема, касающаяся таких вещей, как интуиция, инсайт, сознание и прочее).
В нашем случае регистрируется следующая очевидная особенность. Во всех наиболее актуальных кейсах при получении "+" раздражитель S остается неизменным, следующие за ним продолжения могут представлять собой разные сочетания пар букв, но на выходе получается
один и тот же результат т.е. "+".
Отсюда строится предположение о том, что все такие сочетания следующие за S
имеют нечто общее.
Этим общим может быть некий таинственный - и не поддающийся прямому наблюдению, т.е. существующий скрытно, за кулисами событий - объект Z, появляющийся каждый раз, когда возникает сочетание приводящее к "+".
Именно совместное существование объектов S и Z является причиной появления "+".
Когда знание о возникновении/существовании Z только строится, т.е. является абсолютно новым, ни разу не проверенным на практике, ему изначально приписывается минимум
определенности, т.е. вероятность равную 0.5.
Как и знанию о том, что совместное существование S и Z приводит к "+".
(S,Z)->"+" p=0.5
Т.е. поначалу это совершенно бесполезные, заведомо непригодные для применения знания (их вероятность слишком близка к 0.5).
Но затем, по мере проверки их на полученных опытных данных, приписываемые им вероятности перевычисляются. А поскольку в рамках данного примера они будут всегда подтверждаться, то постепенно будет происходить поляризация их вероятностей к 1.
При достижении же определенного значения этой вероятности, эти знания окажутся в глазах агента предпочтительнее знаний содержащихся в таблице слабого обучения (напомню, что агент всегда выбирает наиболее вероятные знания).
Важно!
Поляризация этих, самостоятельно построенных агентом знаний происходит
намного быстрее, чем знаний слабого обучения. По той простой причине, что встречаться на практике и перевычисляться они будут намного чаще (в нашем случае в ~32 раза), поскольку имеют более общий характер.
PS Я здесь описал суть используемого агентом СПАЙ приема сильного обучения в предельно упрощенном, даже несколько утрированном виде. Хотя, вряд ли и это поможет. Не думаю, что суть дела ухватят хотя бы два человека с данного форума. В лучшем случае.
PPS Кому интересно, могут поломать головы над природой объекта Z. Что из имеющегося в реальном мире может ему соответствовать.