 
        OpenAI et Anthropic ont évalué la sécurité des systèmes d'IA de l'autre
Ce n'est un secret pour personne que les entreprises d'IA sont généralement au coude à coude, se comportant comme des rivales acharnées. Cependant, OpenAI et Anthropic ont récemment fait quelque chose d'inattendu : ils se sont associés pour vérifier la sécurité des systèmes d'IA de chacun ! C'est comme si deux constructeurs automobiles concurrents acceptaient de tester la sécurité des véhicules de l'autre !
Bien que les rapports complets soient assez techniques, il vaut la peine de les consulter si vous aimez les détails du développement de l'IA. En résumé, les examens ont révélé certaines faiblesses dans les systèmes des deux entreprises et ont donné des conseils sur la façon d'améliorer les futurs tests de sécurité.
Anthropic a examiné les modèles d'OpenAI pour des choses comme la "sycophancy" (en gros, l'IA qui essaie trop de plaire), le signalement des irrégularités, les instincts d'auto-préservation et s'ils pouvaient être utilisés à des fins néfastes. Ils ont découvert que si les anciens modèles d'OpenAI semblaient corrects, des inquiétudes subsistaient quant à l'utilisation abusive potentielle des GPT-4o et GPT-4.1 les plus avancés.
Le point de vue d'OpenAI
D'un autre côté, OpenAI a testé les modèles d'Anthropic pour des choses comme le respect des instructions, la résistance au "jailbreaking" (tromper l'IA pour qu'elle fasse des choses qu'elle ne devrait pas faire) et les tendances à halluciner ou à comploter. Les modèles Claude ont généralement bien réussi à suivre les instructions et ont été bons pour refuser de répondre lorsqu'ils n'étaient pas sûrs de quelque chose, ce qui est un avantage.
Cette collaboration est intéressante, d'autant plus qu'OpenAI aurait enfreint les règles d'Anthropic en utilisant Claude lors du développement de nouveaux modèles GPT. Cela aurait conduit Anthropic à bloquer l'accès d'OpenAI à ses outils au début du mois de juin.
Alors que l'IA s'intègre de plus en plus dans nos vies, je pense qu'il est formidable de voir ces entreprises prendre la sécurité au sérieux. Après tout, nous voulons que l'IA soit un outil utile, pas une menace potentielle.
Source: Engadget