Publié le: 15/04/2024 @ 14:50:57: Par Nic007 Dans "Programmation"
L'anglais est la langue principale du commerce, de la science et, désormais, aussi de l'intelligence artificielle. Non qu'il y ait un doute, et peut-être l'aurez-vous remarqué aussi : converser avec ChatGPT en français ou en anglais n'est pas la même chose, mais maintenant plusieurs études certifient cette sensation. C'est pourquoi c'est un problème. Il existe plusieurs mèmes sur Internet qui montrent comment les Américains voient le reste du monde. Les plus efficaces montrent l’Europe comme le lieu où l’on boit du vin et où l’on mange des spaghettis, l’Amérique du Sud comme le lieu du café et de la cocaïne, le Moyen-Orient comme le pétrole et les guerres, et l’Asie comme un groupe d’usines produisant des chaussures ou des téléphones. Des clichés , mais un aspect est indéniable : l'anglais est la langue reine de nombreux secteurs, comme le commerce, les sciences ou l'économie. On pensait que l’intelligence pouvait d’une manière ou d’une autre aplanir les différences et s’adapter à ceux qui ne parlaient pas anglais, mais cela ne s’est manifestement pas produit. Cela a été révélé par plusieurs articles scientifiques, qui montrent comment ChatGPT et ses partenaires non seulement travaillent mieux à traduire d'autres langues vers l'anglais qu'à réaliser le processus inverse (surtout pour les langues non latines), mais comment ils réagissent mieux en anglais. , et surtout créer moins de fausses informations (appelées hallucinations).
Le problème ne concerne pas seulement le reste du monde par rapport aux États-Unis, mais aussi les États-Unis eux-mêmes. 44 % des Californiens parlent une langue autre que l'anglais, et le Congrès américain a demandé à Sam Altman d' OpenAI ce que faisait son entreprise pour combler le fossé linguistique. Altman a déclaré qu'il espère travailler avec les gouvernements et d'autres organisations pour acquérir des ensembles de données qui renforceraient les capacités linguistiques de ChatGPT et étendraient ses avantages à « un groupe aussi large que possible ». OpenAI n'a pas caché le fait que ses systèmes sont biaisés. La raison est simple. La plupart des données de formation sont dérivées et, comme l'a déclaré OpenAI lui-même, les efforts de l'entreprise pour régler et étudier les performances du modèle se sont concentrés principalement sur l'anglais " avec une perspective centrée sur les États-Unis ". En effet, comme l'a écrit un membre du support technique dans une demande sur un forum d'entreprise , « Tout bon résultat en espagnol est un bonus ».
Les solutions ne sont pas très convaincantes. Les dirigeants de Microsoft, OpenAI et Google travaillant sur les chatbots ont déclaré que les utilisateurs peuvent obtenir des réponses correctes en ajoutant des instructions plus détaillées à leurs questions. Certains ont simplement découvert qu’il valait mieux utiliser l’anglais directement. Et cela vaut également pour le chinois, l’une des langues les plus parlées au monde. Comme nous l’avions anticipé, le problème ne concerne pas uniquement ChatGPT. Google a annoncé que son modèle PaLM 2, sorti ce mois-ci, contient des données de formation non anglaises pour plus de 100 langues. Le modèle reconnaît les expressions idiomatiques en allemand et en swahili , les blagues en japonais et corrige la grammaire en indonésien, dit Google, et reconnaît mieux les variations régionales que les modèles précédents. Mais pour les utilisateurs de Gemini, ce n'est pas aussi polyvalent. Le modèle basé sur PaLM 2 ne fonctionne qu'en anglais américain , japonais et coréen. L'assistant d'écriture pour Gmail prend uniquement en charge l'anglais.
Le problème ne concerne pas seulement le reste du monde par rapport aux États-Unis, mais aussi les États-Unis eux-mêmes. 44 % des Californiens parlent une langue autre que l'anglais, et le Congrès américain a demandé à Sam Altman d' OpenAI ce que faisait son entreprise pour combler le fossé linguistique. Altman a déclaré qu'il espère travailler avec les gouvernements et d'autres organisations pour acquérir des ensembles de données qui renforceraient les capacités linguistiques de ChatGPT et étendraient ses avantages à « un groupe aussi large que possible ». OpenAI n'a pas caché le fait que ses systèmes sont biaisés. La raison est simple. La plupart des données de formation sont dérivées et, comme l'a déclaré OpenAI lui-même, les efforts de l'entreprise pour régler et étudier les performances du modèle se sont concentrés principalement sur l'anglais " avec une perspective centrée sur les États-Unis ". En effet, comme l'a écrit un membre du support technique dans une demande sur un forum d'entreprise , « Tout bon résultat en espagnol est un bonus ».
Les solutions ne sont pas très convaincantes. Les dirigeants de Microsoft, OpenAI et Google travaillant sur les chatbots ont déclaré que les utilisateurs peuvent obtenir des réponses correctes en ajoutant des instructions plus détaillées à leurs questions. Certains ont simplement découvert qu’il valait mieux utiliser l’anglais directement. Et cela vaut également pour le chinois, l’une des langues les plus parlées au monde. Comme nous l’avions anticipé, le problème ne concerne pas uniquement ChatGPT. Google a annoncé que son modèle PaLM 2, sorti ce mois-ci, contient des données de formation non anglaises pour plus de 100 langues. Le modèle reconnaît les expressions idiomatiques en allemand et en swahili , les blagues en japonais et corrige la grammaire en indonésien, dit Google, et reconnaît mieux les variations régionales que les modèles précédents. Mais pour les utilisateurs de Gemini, ce n'est pas aussi polyvalent. Le modèle basé sur PaLM 2 ne fonctionne qu'en anglais américain , japonais et coréen. L'assistant d'écriture pour Gmail prend uniquement en charge l'anglais.
Liens
Lien (65 Clics)
Plus d'actualités dans cette catégorie