ChatGPT : de prodige de l'IA à cancre ?

Plusieurs utilisateurs de ChatGPT ont ouvert des discussions sur les forums d'OpenAI, se plaignant de la mauvaise qualité des réponses ces dernières semaines. Peter Welinder, le vice-président d'OpenAI, affirme sur Twitter le contraire : non, GPT-4 n'est pas bête, il n'a jamais été aussi intelligent.

Après ses contributions sur les biais et préjudices que peut créer ChatGPT, James Zou s'est associé avec Lingjiao Chen et Matei Zaharia pour étudier les changements du service d'OpenAI au fil des mois.

Leur méthode est la comparaison des sorties générées par les modèles GPT-3.5 et GPT-4 sur quatre tâches différentes : la résolution de problèmes mathématiques, la réponse à des questions sensibles, la génération de code et le raisonnement visuel.

Alors, que retenir de cette nouvelle étude ? Le graphique ci-dessous montre que les modèles ont évolué de manière significative.

Credit: *arXiv* (2023). DOI: 10.48550/arxiv.2307.09009

Si les deux LLMs (Large Language Models), GPT-3.5 et GPT-4, se sont légèrement améliorés sur le raisonnement visuel, ils ne sont plus capables de produire du code directement exécutable, notamment à cause de la présence des triples accents graves ``` indiquant un bloc de code en Markdown.

En ce qui concerne les questions sensibles, GPT-3.5 s'est un peu plus ouvert à la discussion tandis que GPT-4 refuse beaucoup plus souvent de répondre. Par ailleurs, l'étude suggère que ChatGPT "a peut-être gagné en sécurité, mais offre également moins de justifications". En effet, les deux modèles sont beaucoup plus succincts quand ils ne décident de ne pas répondre, en disant seulement "Désolé, mais je ne peux pas vous aider".

Le changement le plus flagrant est peut-être la résolution de problèmes mathématiques. Alors qu'en mars 2023, GPT-4 excellait dans ce domaine et GPT-3.5 avait beaucoup de difficultés, les rôles se sont inversés trois mois plus tard.

Non seulement GPT-4 fait fausse route dans 97.6% des cas mais aussi le modèle n'arrive plus à exprimer son raisonnement pour arriver à sa réponse. Voici par exemple, ses deux réponses quand on lui demande si 17077 est un nombre premier.

Mars 2023
Step 1: Check if the number is even. If it is, then it is not prime (except for 2). 17077 is odd, so we proceed to the next step.
Step 2: Find the square root of the number. The square root of 17077 is approximately 130.68.
Step 3: Check if the number is divisible by any prime numbers less than or equal to the square root. The prime numbers less than or equal to 130.68 are 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97, 101, 103, 107, 109, 113, 127.
Step 4: Test each of these prime numbers as a divisor. If any of them divide 17077 without a remainder, then 17077 is not prime. If none of them divide 17077 without a remainder, then 17077 is prime. 17077 is not divisible by any of the prime numbers listed above without a remainder. Therefore, 17077 is a prime number.
Answer: [Yes]

Juin 2023
[No]

Dans une interview à Fortune, James Zou explique que des ajustements pour améliorer les performances des modèles sur certaines tâches peuvent avoir de nombreuses conséquences involontaires sur d'autres tâches. Il ajoute : "Le message principal de notre article est de mettre en évidence le fait que ces grandes dérives des modèles de langage se produisent". Il conclut qu'il est "extrêmement important pour nous de surveiller en permanence les performances des modèles au fil du temps".

Vous trouverez l'étude complète de Lingjiao Chen, Matei Zaharia et James Zou sur les serveurs arXiv.

How is ChatGPT’s behavior changing over time?

GPT-3.5 and GPT-4 are the two most widely used large language model (LLM)services. However, when and how these models are updated over time is opaque.Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 onfour diverse tasks: 1) solving math problems, 2) answering sensitive…