OpenAI и Anthropic провели оценку безопасности систем

OpenAI и Anthropic

Историческое сотрудничество конкурентов

OpenAI и Anthropic объявили о беспрецедентном сотрудничестве — они провели взаимную оценку безопасности своих систем искусственного интеллекта и опубликовали результаты анализа.

Результаты тестирования

Anthropic проверила модели OpenAI на следующие параметры:

  • Лесть и склонность к подхалимству;
  • Доносительство;
  • Самосохранение;
  • Поддержка неправомерного использования ИИ человеком;
  • Способность обходить системы безопасности.

Результаты показали, что модели o3 и o4-mini соответствуют ожиданиям, однако GPT-4o и GPT-4.1 вызвали опасения относительно возможного неправильного использования.

OpenAI провела тестирование моделей Anthropic по следующим критериям:

  • Иерархия инструкций;
  • Джейлбрейк (попытки обхода ограничений);
  • Галлюцинации;
  • Склонность к манипуляциям.

Модели Claude продемонстрировали хорошие результаты в тестах на иерархию инструкций и показали высокий уровень отказов при неуверенности в ответах.

Контекст и значимость

Примечательно, что такое сотрудничество произошло на фоне недавнего конфликта между компаниями, когда OpenAI нарушила условия использования Claude при разработке новых моделей GPT, что привело к ограничению доступа OpenAI к инструментам Anthropic.

Этот шаг приобретает особую важность в контексте растущей критики и требований к безопасности ИИ-систем, особенно после первого судебного иска против OpenAI в связи с трагическим случаем суицида подростка, общавшегося с ChatGPT.

Новые разработки

Стоит отметить, что в тестировании не участвовала новейшая модель OpenAI — GPT-5, оснащённая функцией Safe Completions, предназначенной для защиты пользователей от потенциально опасных запросов.

Рейтинг
( Пока оценок нет )
Загрузка ...