GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.17 (17)

<< < Пред.

Поиск:

Автор

Тема: На: Компьютер на палках и камнях.

гость
185.16.29.*

На: Компьютер на палках и камнях.

Добавлено: 27 мар 25 9:10

Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально.
Источники:TechCrunch и ARC Prize

Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %.

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (Franois Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам.

Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций.

Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком.

Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат.

Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу.

[Ответ][Цитата]

гость
193.189.100.*

На: Компьютер на палках и камнях.

Добавлено: 27 мар 25 17:52

а причем тут ИИ? к этому пиксельарту? не ну серьезно

[Ответ][Цитата]

гость
172.232.102.*

На: Компьютер на палках и камнях.

Добавлено: 28 мар 25 1:18

Цитата:

Автор: гость

а причем тут ИИ? к этому пиксельарту? не ну серьезно

Наверное что бы определить чей ИИ лучше.
Меня вот задолбало проходить капчу. Может ИИ справится?

Проверочный код CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart – Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) – это одна из разновидностей мер безопасности, известная как аутентификация "вызов-ответ".

[Ответ][Цитата]

Дмитрий Стволовой
Сообщений: 350

На: Компьютер на палках и камнях.

Добавлено: 28 мар 25 5:38

Цитата:

Автор: гость

а причем тут ИИ? к этому пиксельарту? не ну серьезно

Цитата:

Автор: chatgpt

ARC от Франсуа Шоле — это не просто задача на распознавание 2D-узоров, а тест на абстрактное мышление и способность к обобщению. В отличие от шахмат, Go или других формальных игр, где можно перебрать все возможные ходы и натренировать модель, в ARC каждая задача уникальна, и алгоритму нужно самому вывести правило на основе нескольких примеров, а затем применить его к новым данным.

Здесь не работает brute force, нельзя просто натренировать нейросеть на огромной выборке, потому что каждый новый тест требует принципиально нового понимания. AI должен не просто "узнавать" закономерность, а выводить абстрактное правило, искать связи, придумывать новый алгоритм и применять его к неизвестным примерам — как это делает человек.

Вот почему даже самые продвинутые AI-модели (GPT-4, AlphaZero и прочие) проваливаются. Они работают на статистическом обобщении, но не умеют абстрактно рассуждать. Человек решает ARC-задачи за секунды, а современные нейросети тонут, потому что у них нет настоящего понимания.

Если удастся создать AI, стабильно решающий ARC, это будет шаг в сторону настоящего AGI — системы, способной адаптироваться к новым задачам без предобучения. Это уже не просто "натасканный" алгоритм, а что-то ближе к универсальному мышлению.

[Ответ][Цитата]

гость
185.170.114.*

На: Компьютер на палках и камнях.

Добавлено: 28 мар 25 8:32

Цитата:

Автор: Дмитрий Стволовой

Франсуа Шоле

я слышал этот франсуа шоле, ну это... как многие французы, "нетрадиционный" в общем, так что на все его разработки и выводы нужно смотреть через эту призму

[Ответ][Цитата]

Стр.17 (17): 1 ... 13 14 15 16 [17]

<< < Пред.

Форум: Проблемы искусственного интеллекта