ИИ сдал судоку: языковые модели путаются даже в простых задачах

Современные системы искусственного интеллекта, такие как ChatGPT от OpenAI и Gemini от Google, давно научились генерировать тексты, сочинять письма, помогать с советами и даже участвовать в написании научных публикаций. Но что будет, если поручит им не креатив, а простую на первый взгляд задачу решить судоку? Ответ на этот вопрос решили выяснить исследователи из Университета Колорадо в Боулдере, устроив масштабный эксперимент.

Они создали около 2300 уникальных головоломок судоку формата 6×6 (упрощённая версия классической 9×9) и поручили их решение нескольким языковым моделям. Главная цель — не просто проверить, справится ли ИИ, а понятий, как он думает, когда сталкивается с задачами, требующими точного логического анализа.

Результаты оказались неожиданными. Некоторые модели вполне успешно справлялись с задачами базового уровня, но даже самые продвинутые версии демонстрировали странности в объяснении собственных шагов. В ответ на просьбу обрисовать процесс решения, ИИ частенько выдавал путаные либо совсем нерелевантные комментарии. Один из самых курьезных случаев – модель, которая вместо объяснения просто сообщила прогноз погоды. Почему – никто не понял.

Лучший результат продемонстрировала экспериментальная модель o1 от OpenAI – она решила около 65% головоломок. Тем не менее, и у нее возникли трудности с объяснением логики решений, что еще раз показало ключевую проблему: большинство языковых моделей обучены на огромных массивах текста и ориентированы на предсказание слов, а не на строгую дедукцию.

Ученые подчеркивают: судоку – не просто игра. Эти головоломки требуют структурного и пошагового мышления, свойственного человеку. Понимание того, как ИИ справляется (или не справляется) с такими задачами, может дать ключ к созданию более продвинутых моделей. Сейчас команда планирует перейти к более сложным головоломкам – например, к хиторы, где также важны логика, внимание и точность. Цель – научить ИИ не просто угадывать ответ, а понимать, что он делает, и уметь это объяснить.

Карта сайта