Le 7 novembre 2023 – ChatGPT et autres outils d'IA générative sont alimentés par les grands modèles de langage (LLM). Ils utilisent des réseaux de neurones artificiels pour traiter d’énormes quantités de données textuelles. Après avoir appris les schémas entre les mots et la façon dont ils sont utilisés dans leur contexte, le modèle est capable d'interagir en langage naturel avec les utilisateurs. Une des raisons du succès inédit de ChatGPT est sa capacité à raconter des blagues, à composer des poèmes et à communiquer d’une manière difficile à distinguer d’un être humain.
LECTURE CONNEXE : Writing like a boss with ChatGPT: How to get better at spotting phishing scams
Les modèles d'IA générative alimentés par LLM, utilisés dans les chatbots tels que ChatGPT, fonctionnent comme des moteurs de recherche suralimentés, utilisant les données sur lesquelles ils ont été formés pour répondre aux questions et effectuer des tâches avec un langage proche de celui des humains. Qu’il s’agisse de modèles publiques ou de modèles propriétaires utilisés en interne, l’IA générative basée LLM peut exposer les entreprises à des risques sécuritaires et de confidentialité.
Les 5 principaux risques LLM
1. Partage excessif de données sensibles
Les chatbots basés LLM ne sont pas doués pour garder les secrets – ni pour les oublier. Cela signifie que toutes les données saisies peuvent être absorbées par le modèle et mises à la disposition d'autres personnes ou être utilisées pour former les futurs modèles LLM. Le personnel de Samsung (Samsung workers) l'a découvert lorsqu'il a partagé des informations confidentielles avec ChatGPT en l'utilisant pour le travail. Le code et les enregistrements des réunions qu’il a chargé dans l’outil pouvaient en théorie se retrouver dans le domaine public (ou être stockés pour une réutilisation, comme l’a souligné le Centre National de Cyber-sécurité du Royaume-Uni). ESET a déjà examiné comment les organisations peuvent éviter de mettre leurs données en danger lorsqu'elles utilisent les LLM.
2. Problèmes de droits d’auteur
Les LLM sont formés sur de grandes quantités de données. Ces informations sont souvent extraites du Web, sans l’autorisation explicite de leurs propriétaires. Cela peut créer des problèmes de droits d’auteur si on continue à les utiliser. Trouver la source originale de données de formation peut être difficile, ce qui rend l'atténuation de ces problèmes encore plus difficile
3. Code non sécurisé
Les développeurs utilisent toujours plus ChatGPT et des outils similaires pour les aider à accélérer la mise sur le marché. Cela peut aider en générant rapidement et efficacement des extraits de code et même des logiciels complets. Mais, selon les experts en sécurité, cela peut générer des vulnérabilités. C’est particulièrement préoccupant si le développeur n’a pas suffisamment de connaissances dans le domaine pour savoir quels bogues rechercher. Si du code bogué se retrouve en production, cela peut avoir un sérieux impact sur la réputation et nécessiter du temps et de l’argent pour être corrigé.
4. Pirater le LLM
L'accès non autorisé et la falsification des LLM peut offrir aux pirates une gamme d'options pour des activités malveillantes, telles que faire en sorte que le modèle divulgue des informations sensibles via des attaques par injection rapide ou qu’il effectue d'autres actions censées être bloquées. D'autres attaques peuvent impliquer l'exploitation de vulnérabilités de falsification de requêtes serveur (SSRF) dans des serveurs LLM, permettant aux attaquants d'extraire des ressources internes. Les pirates pourraient même trouver un moyen d’interagir avec des systèmes et des ressources confidentielles en envoyant simplement des commandes malveillantes via des instructions en langage naturel.
LECTURE CONNEXE : Black Hat 2023: AI gets big defender prize money
En mars, ChatGPT a dû être mis hors ligne suite à la découverte d'une vulnérabilité qui exposait les titres des historiques de conversations de certains utilisateurs à d'autres. Afin de sensibiliser aux vulnérabilités des applications LLM, la Fondation OWASP a récemment publié une liste de 10 failles sécuritaires critiques (10 critical security loopholes) couramment observées dans ces applications.
5. Une violation de données chez le fournisseur d'IA
Une entreprise qui développe des modèles d’IA peut elle-même être victime d’une violation, permettant aux pirates informatiques de voler des données de formation pouvant inclure des informations propriétaires sensibles. C’est pareil pour les fuites de données, comme lorsque Google a divulgué par inadvertance des discussions privées de Bard (leaking private Bard chats) dans ses résultats de recherche.
Si une organisation souhaite exploiter le potentiel de l’IA générative pour obtenir un avantage concurrentiel, elle doit prendre des mesures pour atténuer certains de ces risques :
• Cryptage et anonymisation des données : crypter les données avant de les partager avec les LLM pour les protéger des indiscrets, et/ou envisager des techniques d'anonymisation pour protéger la vie privée des individus pouvant être identifiés dans les ensembles de données. Le nettoyage des données peut atteindre cet objectif en supprimant les détails sensibles des données d’entraînement avant qu’elles ne soient introduites dans le modèle.
• Contrôles d'accès améliorés : des mots de passe forts, une authentification multi facteur (MFA) et des politiques de moindre privilège contribuent à garantir que seules les personnes autorisées ont accès au modèle d'IA générative et aux systèmes back-end.
• Audits sécuritaires réguliers : ils peuvent aider à découvrir les vulnérabilités des systèmes informatiques pouvant avoir un impact sur les modèles LLM et d'IA générative sur lesquels ils sont basés.
• Plans de réponse aux incidents : un plan RI solide et bien préparé aidera une organisation à réagir rapidement pour contenir, remédier et se rétablir de toute violation.
• Examiner minutieusement les fournisseurs de LLM : comme pour tout fournisseur, il est important de s'assurer que celui du LLM suit les meilleures pratiques du secteur en sécurité et confidentialité des données. S’assurer que l’endroit où les données utilisateur sont traitées et stockées est clairement indiqué et si elles sont utilisées pour former le modèle. Combien de temps sont-elles conservées ? Est-ce partagé avec des tiers ? Peut-on accepter ou refuser que ces données soient utilisées pour la formation ?
• S’assurer que les développeurs suivent des directives de sécurité strictes : si les développeurs utilisent des LLM pour générer du code, il faut s’assurer qu'ils respectent les procédures, telles que les tests de sécurité et l'examen par leurs pairs, afin de réduire le risque de bogues en production.
La bonne nouvelle : il ne faut pas réinventer la roue. La plupart des conseils ci-dessus sont des conseils de sécurité éprouvés. Ils peuvent avoir besoin d’être mis à jour/adaptés au monde de l’IA, mais la logique sous-jacente devrait être familière à la plupart des équipes de sécurité.
LECTURE CONNEXE: A Bard’s Tale – how fake AI bots try to install malware
A propos d’ESET
Depuis plus de 30 ans, ESET® développe des logiciels et des services de sécurité informatique de pointe pour protéger les entreprises, les infrastructures critiques et les consommateurs du monde entier contre les menaces numériques toujours plus sophistiquées. De la sécurité des terminaux et des mobiles à l'EDR en passant par le chiffrement, l'authentification à double facteur, les solutions légères et performantes d'ESET protègent et surveillent 24/7, mettant à jour, en temps réel, les défenses afin d’assurer sans interruption la sécurité des utilisateurs et des entreprises. L'évolution constante des menaces nécessite un fournisseur de sécurité informatique évolutif qui permet d’utiliser la technologie de façon sûre. Ceci est supporté par les centres de R&D d'ESET dans le monde entier, travaillant à soutenir notre avenir commun. Pour plus d’information visitez
www.eset.com , ou suivez-nous sur LinkedIn, Facebook, Instagram et
https://www.eset.com/be-fr/