Допустим, что репозиторий создан
Для каждой задачи есть мера оценки ее решения
Создан общий критерий для оценки решения всех задач скопом
Этого достаточно для начала деятельности. Но, как я вижу, сразу встает вопрос об оценки интеллектуальности программы ИИ.
На мой взгляд, эта задача должна решаться так.
Перечисляется перечень свойств, которыми должен обладать ИИ.
Для каждого свойства нужно придумать ТЕСТ, который бы как-то измерил / оценил наличие этого свойства в какой-то мере.
Желательно произвести классификацию свойств, от простых к сложным, чтобы разработчик мог ориентироваться, чего он достиг.
Примеры.
Уровень 1 – понимание условий.
Тест 1 - программа ИИ должна понимать все мат. конструкции, используемые в репозитории задач. Если не все, то какой процент задач покрывает.:
Шаг 1.1. запуск программы ИИ и подсчет, на сколько задач она ответит, что «поняла условия». Основное измеряемое свойство – процент «понятых задач»
Уровень 2 – полноценный просмотр пространства поиска.
Тест 2 - Решение тривиальных задач.:
Шаг 2.1 выбрать набор тривиальных дискретных задач с малым числом вариантов перебора, отдать программе ИИ на обучение.
Шаг 2.2. выбрать другой набор тривиальных дискретных задач, отдать программе ИИ на решение на 1 час – замерить ресурсы, количество решенных задач
Шаг 2.3. создать отчет по замерам, характеризующее свойство «Решение тривиальных задач». Основное свойство – процент решенных задач.
…
Уровень N – аналитическая обучаемость
Тест N - обучаемость решение семейства задач.
Шаг N.1 выбрать семейство задач (математическая модель у них одинаковая, а данные у каждой задачи свои). Например, «календарно-ресурсное планирование», «Обход конем шахматной доски размером 2*N на 2*N»
Шаг N.2 выбрать набор обучающих задач, отдать программе ИИ на обучение
Шаг N.3 выбрать набор тестовых задач, отдать программе ИИ на решение на 1 час.
Шаг N.4. создать отчет по замерам, характеризующее свойство «Решение тривиальных задач». Основное свойство – процент решенных задач.
…
Пример, как это делается, можно найти на сайте, посвященным тестам производительности баз данных
http://www.tpc.org/Нужно почитать описания тестов, почему они такие, какие отчеты делаются.
http://www.tpc.org/information/current_specifications.aspНапример, прочесть pdf для теста tpc-c.
Начальный документ для тестирования ИИ, вероятно, ну ни как не менее 100 страниц. Т.е. кто-то должен всерьез заняться этой темой, выяснить у заинтересованных лиц, каково его понимание требований к ИИ, как бы он хотел это протестировать, все это классифицировать, скомпоновать, и т.д. Это большой труд.
Я могу сделать репозиторий задач, если это кому-то еще кроме меня нужно.