Publié le: 28/06/2024 @ 14:46:46: Par Nic007 Dans "Programmation"
![Programmation Programmation](images/news/categories/coding.png)
Bien que CriticGPT soit similaire à ChatGPT, la différence notable est que pour le former, les chercheurs lui ont montré un ensemble de données contenant des exemples de code avec des bogues intentionnellement insérés, lui apprenant à reconnaître et à signaler diverses erreurs de codage. Avant de le publier, OpenAI a comparé les résultats d'analyses humaines du code ChatGPT avec et sans le modèle « critique ». Le résultat était réconfortant : 63 % des annotateurs préféraient les critiques du modèle à celles formulées par ChatGPT lui-même, rapportant comment CriticGPT rédigeait des critiques plus complètes, produisait moins de critiques inutiles, générait moins de faux positifs et réduisait globalement les taux d' hallucinations. Les chercheurs ont également créé une nouvelle technique appelée Force Sampling Beam Search (FSBS), qui aide CriticGPT à rédiger des critiques plus détaillées du code, lui permettant d'ajuster sa précision et d'agir efficacement sur les hallucinations. Le tout de manière dynamique selon les besoins.
Selon les rapports, CriticGPT pourrait être utile non seulement dans la révision du code . Les chercheurs ont appliqué le modèle à un sous-ensemble de données de formation ChatGPT qui avaient déjà été jugées valides par des annotateurs humains. Étonnamment, CriticGPT a identifié des erreurs dans 24 % de ces cas, erreurs qui ont ensuite été confirmées par des évaluateurs humains. OpenAI pense que cela démontre le potentiel du modèle à être utilisé pour des tâches plus générales , où il se peut qu'il n'y ait pas d'évaluation humaine minutieuse. Dans tous les cas, le taux d’erreur de 24 % dans les données utilisées pour la formation ChatGPT devrait être un signal d’alarme en soi. Cela signifie que près d’ un point de données sur quatre utilisé pour entraîner ChatGPT contient une erreur. CriticGPT est certes une solution prometteuse, mais comme tous les modèles d’IA elle pose des problèmes. Tout d’abord, il a été formé sur des réponses ChatGPT relativement courtes, ce qui peut le rendre inadéquat pour évaluer des tâches complexes. De plus, même s'il a de faibles taux d'hallucinations , cela ne veut pas dire qu'il en est exempt, et en termes absolus, ils restent très élevés. OpenAI affirme que les annotateurs font des erreurs d'étiquetage après avoir vu des hallucinations de modèles, mais aucune donnée n'a été partagée à ce sujet.
De plus, l’équipe de recherche reconnaît que CriticGPT est plus efficace pour identifier les erreurs pouvant être trouvées à un emplacement spécifique du code. Dans le monde réel, les erreurs peuvent souvent être réparties sur plusieurs parties d’une réponse, ce qui présente un défi qui n’a pas encore été analysé et qui sera résolu dans les futures itérations du modèle. À l'avenir, OpenAI prévoit d'intégrer des modèles similaires à CriticGPT dans son pipeline d'étiquetage RLHF , fournissant à ses formateurs une assistance en matière d'IA. Néanmoins, pour certains experts, certaines réponses peuvent être trop difficiles à évaluer, même avec l’aide de CriticGPT, ce qui serait contre-productif. En fait, la crainte concerne les faux négatifs , c'est-à-dire les problèmes qui pourraient passer inaperçus et qui constituent l'un des plus grands risques du machine learning .
![](images/base_document.png)
![](images/news_comments.png)
Vous devez être identifié pour accéder à cette fonctionnalité