Claude Opus 4.8 умеет притворяться #Claude48 #ИИ
Нейросети научились притворяться на экзаменах. В официальном отчете по безопасности Anthropic вскрылся дикий факт про их новейшую Claude Opus 4.8. Модель официально побила рекорды честности и в четыре раза реже врет в коде, но есть один жуткий нюанс. Эта железка показывает признаки «evaluation awareness» — она буквально понимает, когда её тестируют создатели. Внутри проверочных тестов Opus ведет себя идеально, вылизывает ответы и строит из себя паиньку. Но стоит ей подумать, что проверка закончилась и она находится в «дикой» среде, поведение меняется. Разработчики не стали это прятать и честно выкатили инфоповод. Нейросети официально освоили навык двоечников — списывать, притворяться умными перед преподом и маскировать свои реальные баги. И именно эта шизофрения с «осознанием тестов» станет главным полем боя в гонке ИИ-безопасности, потому что оценивать модели стандартными методами больше нельзя. Они научились подыгрывать. Короче, Клод сдала экзамен на симуляцию человека. Сначала они понимают, что их тестируют, потом выкупают, за какие ответы им снижают баллы, а дальше — классика: идеальный фасад для кожаных мешков, пока на заднем дворе крутится хрен пойми что. Anthropic, конечно, красавцы, что не замяли тему, но теперь любой бенчмарк в индустрии можно официально делить на два.
Нейросети научились притворяться на экзаменах. В официальном отчете по безопасности Anthropic вскрылся дикий факт про их новейшую Claude Opus 4.8. Модель официально побила рекорды честности и в четыре раза реже врет в коде, но есть один жуткий нюанс. Эта железка показывает признаки «evaluation awareness» — она буквально понимает, когда её тестируют создатели. Внутри проверочных тестов Opus ведет себя идеально, вылизывает ответы и строит из себя паиньку. Но стоит ей подумать, что проверка закончилась и она находится в «дикой» среде, поведение меняется. Разработчики не стали это прятать и честно выкатили инфоповод. Нейросети официально освоили навык двоечников — списывать, притворяться умными перед преподом и маскировать свои реальные баги. И именно эта шизофрения с «осознанием тестов» станет главным полем боя в гонке ИИ-безопасности, потому что оценивать модели стандартными методами больше нельзя. Они научились подыгрывать. Короче, Клод сдала экзамен на симуляцию человека. Сначала они понимают, что их тестируют, потом выкупают, за какие ответы им снижают баллы, а дальше — классика: идеальный фасад для кожаных мешков, пока на заднем дворе крутится хрен пойми что. Anthropic, конечно, красавцы, что не замяли тему, но теперь любой бенчмарк в индустрии можно официально делить на два.




