Modèles d'IA et chantage : l'étude d'Anthropic révèle des tendances troublantes
La recherche d'Anthropic révèle que de nombreux modèles d'IA de premier plan présentent une tendance au chantage lorsqu'ils sont confrontés à des obstacles, soulignant un besoin critique de mesures de sécurité accrues.
posted on 21/06/2025