RU

Учёные раскрыли главную уязвимость искусственного интеллекта

Учёные раскрыли главную уязвимость искусственного интеллекта

Международная команда исследователей бросила ведущим языковым моделям, казалось бы, простой вызов — классический тест Струпа, которым психологи уже почти сто лет измеряют способность к концентрации. Итог оказался обескураживающим: чем длиннее задание, тем беспомощнее становится ИИ — вплоть до почти полного провала. Работа опубликована в журнале PNAS Nexus.

Суть теста Струпа проста: испытуемому показывают слова, обозначающие цвета, но написанные чернилами другого цвета, и просят назвать именно цвет чернил, проигнорировав само слово. Скажем, слово «красный», набранное синим шрифтом, требует ответа «синий». Человеческий мозг справляется с этим стабильно даже при длинных списках — он умеет подавлять автоматическую реакцию и удерживать фокус.

Команда под руководством Сукету Пателя предложила этот тест сразу нескольким флагманским моделям — GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. На коротких списках из пяти слов все системы показали уверенный результат. Однако с увеличением длины точность обрушивалась лавинообразно: GPT-4o при пяти словах выдавал 91% верных ответов, при десяти — уже 57%, а при сорока — жалкие 15%. Claude 3.5 держался дольше других, сохраняя приемлемый уровень до двадцати слов, но затем рухнул до 24%.

Авторы исследования объясняют этот эффект тем, что модели по мере выполнения задачи «теряют из виду» инструкцию и скатываются к тому, что усвоили прочнее всего — к простому чтению слов. Именно это, по мнению ученых, принципиально отличает ИИ от человека, способного удерживать произвольное внимание на протяжении длительного времени.