Il y a deux grands types de modèles de langage (LLM, Large Langage Models) : basiques et « Instruction based ».
Les premiers prédisent le mot suivant le plus probable. Cela peut aboutir à des aberrations. Par exemple, en réponse à « Quelle est la capitale de France ? », on pourrait avoir « Quelle est la plus grande ville de France ? Quelle est la population de France ? Etc. » En effet, le modèle aurait vu que ce genre de listes sont les plus probables. Au contraire les modèles « Instructions based » tentent de suivre les instructions qu’on leur donne. [Source
Les principes de base
Le problème des hallucinations
Comparaisons
J’ai comparé les principaux modèles OpenAI disponibles dans le playground. La conclusion est la suivante :
- Davinci-003 est largement au dessus du lot, fournissant à chaque fois des réponses assez détaillées avec un vocabulaire varié. Ce n’est pas parfait et peut rarement être repris tel quel, mais pas loin. Davinci-002 donne des réponses beaucoup plus courtes et de bien moins bonne qualité.
- Curie fait des réponses assez courte, mais apporte quelque chose en plus: un côté impactant et fluide qui manque à davinci-003. Ses performances sont à plusieurs reprises meilleures que celles de davinci-002. Utiliser les deux (curie + davinci-003) peut être une idée pertinente. Babbage fait comme curie en moins bien, voire beaucoup moins bien. Ada est inutile.