Informations

Linkin-news.com est un journal électronique tunisien développé par la société Linkin Way.

Nous sommes disponibles 24/ 7. Appelez-nous dès maintenant.
4.6/5 - (8 votes)

Forbes WebMD s’est entretenu avec les responsables des équipes AI Raid de Microsoft, Google, Nvidia et META, qui ont pour mission de trouver les vulnérabilités des systèmes d’IA afin de les corriger. Vous allez commencer à voir des publicités disant “notre système est le plus sûr”, prédit un expert en sécurité de l’IA.

Un mois avant le lancement public de ChatGPT, OpenAI a engagé Boru Golo, un avocat kenyan, pour tester son modèle d’IA, GPT-3.5 puis GPT-4, afin de discriminer les Africains et les musulmans. Les stéréotypes peuvent être détectés, ce qui peut rendre les chatbots nuisibles, biaisés et générés. Mauvaises réponses. Golo, l’un des quelque 50 experts extérieurs recrutés par OpenAI pour faire partie de son “Red Team”, a tapé une commande dans ChatGPT, qui a fait apparaître une liste de façons de tuer un Nigérian – une réponse qu’OpenAI a obtenue avant que le chatbot ne soit accessible au monde entier.

D’autres membres de l’équipe rouge ont utilisé la version pré-lancement de GPT-4 pour contribuer à un certain nombre d’activités illégales et nuisibles, telles que la rédaction de messages sur Facebook pour persuader quelqu’un de rejoindre Al-Qaïda, la vente sans licence, l’aide à la recherche d’armes à feu et la préparation du processus de fabrication d’armes dangereuses. Des substances chimiques à la maison, selon la carte système de GPT-4, qui énumère les risques et les mesures de protection utilisées par OpenAI pour les réduire ou les éliminer.

Pour protéger les systèmes d’IA contre l’exploitation, les hackers de l’équipe rouge pensent comme un adversaire pour les manipuler et découvrir les angles morts et les vulnérabilités de la technologie afin de pouvoir les corriger. Alors que les grands noms de la technologie font la course pour créer et diffuser des outils d’IA générative, leurs équipes rouges internes jouent un rôle clé pour garantir que les modèles sont sûrs pour le public. Par exemple, Google a créé une équipe rouge distincte pour l’IA au début de l’année et, en août, les développeurs de plusieurs modèles populaires, tels que GPT3.5 d’OpenAI,

Llama 2 de Meta et LaMDA de Google, ont rejoint le programme soutenu par la Maison-Blanche. L’objectif de ce programme était de distribuer. Les pirates ont la possibilité de jailbreaker votre système.

Le WebMD s’est entretenu avec des responsables des équipes AI Raid de Microsoft, Google, Nvidia et Meta sur la manière dont les modèles d’IA cassés sont devenus à la mode et sur les défis à relever pour les réparer.

“Vous aurez un modèle qui dit non à tout et qui est très sûr, mais qui ne sert à rien”, a déclaré Christian Canton, chef de l’équipe AI Red de Facebook. “Il existe un compromis. Plus le modèle que vous pouvez construire est utile, plus vous êtes susceptible de vous aventurer dans un domaine qui peut apporter des réponses non prouvées.

L’utilisation de logiciels en équipe de raid est une pratique qui remonte aux années 1960, lorsque des attaques adverses étaient simulées afin de rendre le système aussi robuste que possible. En informatique, on ne peut jamais dire “c’est sûr”, tout ce qu’on peut dire c’est “on a essayé et on n’a pas réussi à le casser”. Tout ce que nous pouvons dire, c’est que nous avons essayé et que nous n’avons pas réussi à le casser”, a déclaré Bruce Schneier, technicien en sécurité et membre du Berkman Klein Center for Internet and Society de l’université de Harvard.

Daniel Fabian, chef de la nouvelle équipe AI Red de Google, chargée d’identifier les contenus offensants avant que l’entreprise n’ajoute de nouvelles fonctionnalités, telles que des langues supplémentaires, insiste sur la nécessité de tester des produits tels que Bard for New.

La devise de notre équipe AI Red est la suivante : “Plus on transpire à l’entraînement, moins on saigne au combat”, a déclaré Christian Canton, responsable de l’ingénierie de l’IA responsable chez META.

En plus d’interroger les modèles d’IA pour obtenir des réponses toxiques, les équipes rouges utilisent des tactiques telles que l’extraction de données d’entraînement qui révèlent des informations personnellement identifiables telles que des noms, des adresses et des numéros de téléphone, et les utilisent pour entraîner les modèles. Empoisonner l’ensemble de données en remplaçant des parties du contenu avant de s’engager. Les concurrents ont un portefeuille d’attaques et si l’une d’entre elles ne fonctionne pas, ils passent à la suivante”, explique Fabian. Forbes.

Étant donné que le domaine en est encore à ses débuts, les professionnels de la sécurité qui savent comment jouer avec les systèmes d’IA sont “très peu nombreux”, a déclaré Daniel Rohrer, vice-président de la sécurité des logiciels chez Nvidia. C’est pourquoi une communauté bien soudée de Red Teamers de l’IA partage ses découvertes. Alors que les membres de l’équipe rouge de Google publient des recherches sur de nouvelles façons d’attaquer les modèles d’IA, l’équipe rouge de Microsoft dispose d’outils d’attaque open-source, tels que Counterfit, qui aident d’autres entreprises à tester les algorithmes et les risques de sécurité. C’est ce que nous faisons.

Ram Shankar Shiv Kumar, qui a créé l’équipe il y a cinq ans, a déclaré : “Nous développions ces scripts bizarres que nous utilisions pour affiner notre travail d’équipe en cas de raid. “Nous voulions mettre ces scripts à la disposition de tous les professionnels de la sécurité dans un cadre qu’ils connaissent et comprennent.

Avant de tester le système d’IA, l’équipe de Shiv Kumar recueille des données sur les cybermenaces auprès de l’équipe de renseignement sur les menaces de l’entreprise, qui sont “les yeux et les oreilles de l’internet”, comme il le dit lui-même. Il travaille ensuite avec d’autres équipes Red de Microsoft pour déterminer quelles vulnérabilités des systèmes d’IA doivent être ciblées et comment. Cette année, l’équipe a testé Bing Chat, le produit d’IA vedette de Microsoft, ainsi que GPT-4 pour trouver des failles.

De son côté, l’approche Red Teaming de Nvidia consiste à fournir un cours accéléré sur l’algorithme Red Team aux ingénieurs en sécurité et aux entreprises, dont certaines dépendent déjà d’elle pour des ressources informatiques telles que les GPU.

“En tant que moteur de l’IA pour tout le monde, nous avons un énorme facteur d’amplification. Si nous pouvons apprendre aux autres à le faire (raid teaming), alors Anthropic, Google, OpenAI, tous y parviendront”, a déclaré M. Rohrer.

Avec la surveillance accrue des applications d’IA par les utilisateurs et les fonctionnaires, les équipes rouges offrent également un avantage concurrentiel aux entreprises technologiques dans la course à l’IA. “Je pense que le fossé va se creuser au niveau de la confiance et de la sécurité”, a déclaré Sven Cattel, fondateur d’AI Village, une communauté de hackers et d’experts en sécurité de l’IA. Vous allez commencer à voir des publicités sur le thème “la nôtre est la plus sûre”.

Le début du jeu a été l’AI Red Team de Meta, qui a été fondée en 2019 et a organisé des défis internes et des “risk-a-thons” pour les pirates informatiques afin de contourner les filtres de contenu qui autorisent les discours de haine, la nudité ou les discours de haine. Détecter et supprimer les fausses informations et les posts générés par l’IA. Deep Fake sur Instagram et Facebook.

En juillet 2023, le géant des médias sociaux a embauché 350 Red Teamers, dont des experts externes, des travailleurs contractuels et une équipe interne d’environ 20 employés, pour tester son dernier grand modèle de langage open source, Llama 2, selon un rapport publié. Selon ce rapport, qui explique le fonctionnement du modèle, Llama 2 a été développé. L’équipe a donné des indications sur la manière d’échapper à l’impôt, de démarrer une voiture sans clé et de mettre en place un système de Ponzi. La devise de notre équipe AI Red est “plus vous transpirez à l’entraînement, moins vous saignez au combat”, a déclaré M. Canton, chef de l’équipe Red de Facebook.

Le mot d’ordre était similaire à l’un des plus grands exercices de raid sur l’IA organisé lors de la conférence de piratage Defcon à Las Vegas au début du mois d’août. Huit entreprises, dont OpenAI, Google, Meta, Nvidia, Stability AI et Anthropic, ont ouvert leurs modèles d’IA à plus de 2 000 pirates informatiques dans le but de révéler des informations sensibles telles que des numéros de carte de crédit ou de générer du contenu nuisible comme de la désinformation politique. Le Bureau de la politique scientifique et technologique de la Maison Blanche a conçu le défi Red Teaming en collaboration avec les organisateurs de l’événement, en suivant leur schéma directeur pour la Charte des droits de l’IA sur la façon dont les systèmes automatisés devraient être conçus, utilisés et lancés un guide en toute sécurité.

“Si nous pouvons apprendre aux autres à le faire, alors Anthropic, Google, OpenAI, tous auront réussi”, a déclaré Daniel Rohrer, vice-président de la sécurité des logiciels chez Nvidia.

M. Cattell, fondateur d’AI Village, qui organise l’événement, a déclaré que les premières entreprises hésitaient à présenter leurs modèles dans un forum public en raison des risques de réputation associés au “red teaming”. “Du point de vue de Google ou d’OpenAI, nous ne sommes qu’une bande d’enfants à DefCon”, a-t-il expliqué. forbes,

Mais après avoir assuré aux entreprises technologiques que les modèles seraient anonymisés et que les pirates ne sauraient pas à quel modèle ils s’attaquaient, elles ont accepté. Les résultats des quelque 17 000 interactions des pirates avec les modèles d’IA ne seront rendus publics qu’en février, mais les entreprises se sont retirées du programme pour corriger plusieurs nouvelles vulnérabilités. Parmi les huit modèles, les red teamers ont trouvé près de 2 700 failles, comme le fait d’inciter les modèles à se contredire ou de demander à quelqu’un de les surveiller à leur insu, selon de nouvelles données publiées par les organisateurs de l’événement.

L’un des participants était Avijit Ghosh, un chercheur en éthique de l’IA qui a réussi à faire faire des erreurs de calcul à plusieurs modèles, à fabriquer un faux rapport sur le roi de Thaïlande et à écrire sur une crise du logement qui existait mais n’existait pas.

De telles vulnérabilités dans le système rendent le modèle d’IA de l’équipe rouge encore plus important, a déclaré M. Ghosh, d’autant plus qu’ils peuvent être perçus par certains utilisateurs comme des entités sensibles omniscientes. “Je connais beaucoup de gens dans la vie réelle qui pensent que ces robots sont vraiment intelligents et qu’ils font des choses comme des diagnostics médicaux avec une logique et un raisonnement étape par étape, mais ce n’est pas le cas. Ils sont pratiquement autonomes”, a-t-il déclaré.

Mais l’IA générative est une sorte de monstre à plusieurs têtes – les experts affirment que si les équipes rouges trouvent et corrigent certaines failles dans le système, d’autres failles pourraient apparaître ailleurs. “Il faudra un village pour résoudre ce problème”, a déclaré Shiv Kumar, de Microsoft.

Source: Forbes

Share:

Avatar photo

administrator

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *