Нет конкретная задача меня не интересует. По сути представленная игра - это всего лишь игра. Если говорить о частностях меня интересует куда более серьезные задачи (такие как сворачивание РНК/фолдинг белков
http://biogenom.eu/). Но рассуждая на примере фолдинга - у многих "пухнут мозги" и ничего полезного обсудить не получается. Кроме того, я пытаюсь объяснить, что задача фолдинга не имеет особых отличий от других задач. Поэтому описанная игра - вполне годится как рассмотрение частного примера.
Теперь по поводу - "это довольно разные цели". Нет не разные, рассуждать о общих принципах не соприкасаясь с реальной задачей - это довольно быстро приводит к философствованию и рассуждению о конях в ваккуме. Поэтому ТОЛЬКО путем ссылок на частные решения можно начать говорить о общих принципах. И да я хочу говорить именно о общих принципах, но конкретно на примерах частных задач.
Теперь по поводу формализации. Это отдельный момент и мы долго спорили с Данером об этом, и разругавшись разошлись. Дело в том, что если ВАМ и именно ВАМ нужна формализация - делайте её. Т.е. это задача агента, автомата, бота - называйте как хотите. Я как постановщик задачи её делать не должен и не буду. Т.е. видимо прежде чем выдвинуть цель - у агента должна быть функция "анализа мира". От меня (как разработчика среды) требуется лишь возможность поместить агента в мою среду - собственно дать ему поиграть в эту игру. Все остальное его проблемы. Более того, я не гарантирую что поведение в среде будет одинаковым и прогнозируемым - оно наоборот может меняться. И поэтому разработчик бота для игры (называется она Киберсеть) не должен переформолизовывать свою начальную формализацию каждый раз при, например, изменении онтологического графа . Таким образом, никакая формализация вам не поможет. И это не моя прихоть - это такой класс задач, где формализация не известна и не может быть дана (собственно проблема сворачивания белков именно такая, как кстати любая из игр, не доведенная исследователями до маразма - когда они могут ее решить своими некуда негодными методами).
(Ну и пару слов о формализации - агенту/боту - дается все тоже самое, что и игроку - онтологический граф, состояния агента (5 его характеристик), таблица запасов продуктов (продукт, количество, качество), и требуется составить план действий (можно на 120 действий сразу, а можно по одному на каждый такт игрового времени)). Большего уровня формализации не будет принципиально. Более того, не вся данная информация будет нужна агенту - это пусть он сам выбирает, что ему интересно.
И да - я допускаю, что могу ошибаться только тогда когда не уверен в том, о чем говорю (обычно я это обозначаю заранее) - пока это не так. И ваши генетические алгоритмы тут никак не помогут. И вот почему:
"то через некоторое количество итераций обучения, для большинства состояний системы будет иметься набор действий с оценкой их эффективности"
тут самое время вернуться к обсуждению игры еще попроще - крестиков-ноликов (обсуждали выше).
1. Попробуйте найти конкретную и эффективную целевую функцию для игры в крестики-нолики
2. После того как найдете сами - попробуйте реализовать это генетическим алгоритмом как вы это предлагали.
3. Решите задачу минимаксом - и отметьте число анализируемых ситуаций за все время.
4. Отметьте число анализируемых ситуаций и в случае повторов их количество при применении генетических алгоритмов
5. Тоже само для вашей эвристической целевой функции.
6. Сравните 3,4,5 - уверен генетические алгоритмы проиграют даже минимаксу. А будет ли ваша функция лучше - зависит от вас. Но как минимум прошу её действительно придумать и здесь написать (это если остальное делать в реальности лень

)
И теперь главное - если вы примените генетические алгоритмы НЕ ЗАДАВ ПРИДУМАННУЮ ВАМИ целевую функцию - я вас поздравлю и пожму руку

Но ОЧЕНЬ сомневаюсь, что функции для п. 1 и п. 2 будут разными

В противном случае, будем считать вы поняли, что обучение хоть генетическим алгоритмом, хоть другими не имеет никакого отношения к нахождению целевой функции. (только не путайте параметрическую адаптацию со структурной - в генетических алгоритмах вы лишь зададите через некоторые коэффициенты, которые будите искать генетическими алгоритмами, а в своей целевой функции скорее всего зададите конкретные коэффициенты. Но чтобы это случилось нужен определенный класс задач, а попробовав это сделать для крестиков-ноликов у вас и этого отличия не будет. И тогда я надеюсь вы поймете, что обучение тут действительно не причем. )