Историческое сотрудничество конкурентов
OpenAI и Anthropic объявили о беспрецедентном сотрудничестве — они провели взаимную оценку безопасности своих систем искусственного интеллекта и опубликовали результаты анализа.
Результаты тестирования
Anthropic проверила модели OpenAI на следующие параметры:
- Лесть и склонность к подхалимству;
- Доносительство;
- Самосохранение;
- Поддержка неправомерного использования ИИ человеком;
- Способность обходить системы безопасности.
Результаты показали, что модели o3 и o4-mini соответствуют ожиданиям, однако GPT-4o и GPT-4.1 вызвали опасения относительно возможного неправильного использования.
OpenAI провела тестирование моделей Anthropic по следующим критериям:
- Иерархия инструкций;
- Джейлбрейк (попытки обхода ограничений);
- Галлюцинации;
- Склонность к манипуляциям.
Модели Claude продемонстрировали хорошие результаты в тестах на иерархию инструкций и показали высокий уровень отказов при неуверенности в ответах.
Контекст и значимость
Примечательно, что такое сотрудничество произошло на фоне недавнего конфликта между компаниями, когда OpenAI нарушила условия использования Claude при разработке новых моделей GPT, что привело к ограничению доступа OpenAI к инструментам Anthropic.
Этот шаг приобретает особую важность в контексте растущей критики и требований к безопасности ИИ-систем, особенно после первого судебного иска против OpenAI в связи с трагическим случаем суицида подростка, общавшегося с ChatGPT.
Новые разработки
Стоит отметить, что в тестировании не участвовала новейшая модель OpenAI — GPT-5, оснащённая функцией Safe Completions, предназначенной для защиты пользователей от потенциально опасных запросов.