E-Veille IA Générative France #8

Semaine du 8 au 14 Avril

avr. 14, 2024

Retrouvez un résumé de l'actualité Generative AI en français sélectionnée par Adrien Maret.

✍️ L’édito

Dernières sorties des gros modèles de langue

Du nouveau du côté des gros modèles de 4è génération de LLMs cette semaine avec la sortie publique de Gemini 1.5 et de la dernière version de GPT-4 Turbo.

Gemini 1.5 avec ses 1 millions de tokens et son coût inférieur à GPT-4 mérite d’être considéré dans les cas d’usage de type RAG.

Plus de 13 mois après la première sortie de GPT-4, le modèle domine toujours le marché. L’avance de OpenAI est impressionnante.

Démocratisation de l’entrainement

Sinon, je reçoit de plus en plus de signaux faibles à propos de la démocratisation de l’entrainement et/ou du fine-tuning des modèles.

Les coûts d’entrainement ont drastiquement baissé avec par exemple JetMoE qui est équivalent à LlaMa 2 pour un coût d’entrainement 50 fois moindre.

Le dernier batch de YC est aussi pleins d’exemple de startup ayant entrainé leur propre modèle en 2 mois et avec un budget max de 500 000$.

Bref, il faut s’attendre à une augmentation de ce genre de technique pour améliorer la performances des LLMs, que ce soit pour du RAG ou des Agents.

🧠 Large-Language-Models

💡 New GPT4 Turbo 2024-04-09

OpenAI sort sa dernière version du modèle GPT4 Turbo avec des performances sensiblement meilleures

Il faut maintenant utiliser le modèle gpt-4-turbo pour être sur de pointer sur la dernière version en date (9 avril 2024).

Les modèles GPT 4 turbo preview ne devraient plus être utilisés.

💡 Tarifs de l'API Gemini | Google AI for Developers

Gemini 1.5 est disponible pour le grand publique.

Non seulement le modèle est très prometteur (j’en parlais ici et la) sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.

On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.

Bref, Gemini est le meilleur modèle de 4e génération jusqu'à l'arrivée de GPT5.

💡 huggingface/text-generation-inference: Revert license to Apache 2.0

Huggingface passe son moteur d'inférence texte en Apache 2.

C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.

Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.

Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.

💡 JetMoE: Reaching LLaMA2 Performance with 0.1M Dollar

Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.

JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.

💡 Large Language Models Suffer From Their Own Output: An Analysis of the Self-Consuming Training Loop

Les performances des LLM baissent significativement lorsqu'on les entraines sur des données générées par d'autres LLM.

C'est le challenge des prochains mois/années, pouvoir distinguer les données générées par un LLM pour les exclure des données d'entrainement

⚙️ Prompt Engineering

💡 L’IA Générative au service de la pédagogie

Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.

Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)

🤖 Agents LLM

💡 FreeAskInternet is a completely free, private and locally running search aggregator & answer generate using LLM

Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.

En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG.

💡 Debunking Devin: "First AI Software Engineer" Upwork lie exposed!

Sans surprise, la vidéo de Devin qui prend une issue Upwork et la fix est pleine de fake.

Devin fix de soit disant erreurs dans des fichiers qui n'existent pas dans le repo et il utilise aussi des commandes Bash inutiles (`head -n 5 file.json | tail -n 5`)

Aussi, l'auteur de la vidéo a complété la tâche en 35 min et c'était assez simple vu que le Readme était très clair.

Bref encore une fois les Agents complètement autonomes restent très décevants.

💡 auto-code-rover: Autonomous program improvement

Un autre Agent capable de résoudre des issues GitHub.

Ils font mieux que Devin (13%) avec 22% des issues du SWE-bench résolues.

Encore une fois, prudence face à ce type d’annonces.

🔍 Retrieval-Augmented-Generation

💡 AIcrowd | Meta Comprehensive RAG Benchmark: KDD Cup 2024

Une compétition de RAG. Je trouve ça intéressant de garder sous la main les 8 types de questions qu’il faut être capable de traiter:

- Question simple : questions demandant des faits simples, comme la date de naissance d'une personne et les auteurs d'un livre.

- Question simple avec conditions : questions demandant des faits simples avec certaines conditions données, telles que le cours de l'action à une certaine date et les films récents d'un réalisateur dans un certain genre.

- Set Question: Questions qui attendent un ensemble d'entités ou d'objets comme réponse. Un exemple : quels sont les continents de l’hémisphère sud ?

- Question de comparaison : des questions qui peuvent comparer deux entités, comme par exemple qui a commencé à se produire plus tôt, Adele ou Ed Sheeran ?

- Question d'agrégation : questions qui peuvent nécessiter une agrégation des résultats de récupération pour répondre, par exemple, combien d'Oscars Meryl Streep a-t-elle remportés ?

- Questions multi-sauts : questions qui peuvent nécessiter d'enchaîner plusieurs éléments d'information pour composer la réponse, comme par exemple qui a joué dans le dernier film d'Ang Lee ?

- Question de post-traitement : questions qui nécessitent un raisonnement ou un traitement des informations récupérées pour obtenir la réponse, par exemple : combien de jours Thurgood Marshall a-t-il été juge à la Cour suprême ?

- Question piège : questions comportant une fausse préposition ou hypothèse ; par exemple, quel est le nom de l'album rap de Taylor Swift avant sa transition vers la pop ? (Taylor Swift n'a sorti aucun album de rap.)

💡 ARAGOG: Advanced RAG Output Grading

Une méta étude sur les RAG avec notamment:

- Sentence-window retrieval

- Document summary index

- HyDE

- Multi-query

- Maximal Marginal Relevance

- Cohere Re-ranker

- LLM-based Re-ranker

L'étude montre que la combinaisons des méthodes Sentence Window Retrieval, LLM Rerank, Cohere Rerank et HyDE donnent les meilleurs résultats.

Dommage que l'étude ne parle pas des techniques qui limitent le chunking et d'autres méthodes que les seules Vector Database pour récupérer les documents, comme Elasticsearch par exemple.

💡 RAFT: Adapting Language Model to Domain Specific RAG

Une méthode très intéressante pour améliorer les performances d'un RAG avec du fine tuning de modèle.

En gros on va créer un dataset contenant:

- une question

- un document pertinent pour y répondre

- un document non pertinent ("distractor")

- la réponse générée depuis le document pertinent

- une chaine de pensée (Chain of Thought) expliquant le raisonnement (généré par GPT4 par exemple)

Ensuite il faut fine tuner un modèle avec ce dataset (Voir ce LlamaPack ou un exemple sur Azure AI)

Ils ont des résultats avec Llama2 7B qui sont meilleurs que GPT3.5 + RAG.

Dommage qu'ils n'aient pas comparés avec GPT4 + RAG mais c'est surement parce que GPT4 est meilleur. Il faudrait fine tuner un modèle de 4è génération Open Source comme Mistral ou GPT4 via l'API de fine tuning pour arriver à des résultats vraiment bons.

💡 Bases de données vectorielles: chronique d'une mort annoncée

Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.

🎨 Image

💡 Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.

Dans la même veine, il y a aussi CogVML

💡 Stability AI reportedly ran out of cash to pay its AWS bills

Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.

Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.

🎥 Video

💡 Open-Sora-Plan: This project aim to reproduce Sora (Open AI T2V model)

Un modèle open source de Text to Video.

Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)

La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!

L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.

📰 Autres

💡 Appel à projets « Accélérer l’usage de l’intelligence artificielle générative dans l’économie » | Bpifrance

La BPI lance un appel à projet autour de la GenAI avec à la clé entre 1 et 5 millions d'euro de financement.

💡 Les testeurs du Humane AI Pin sont unanimes : il ne sert à rien

Il fallait s'y attendre, le gadget qui a fait beaucoup de bruit est tout simplement nul.

Ergonomie pas au point et peu d'autonomie en plus d'être décevant sur les fonctionnalités IA comme la reconnaissance d'image.

Bref, poubelle.

💡 UncovAI - Detect AI content

Un outil de détection des contenus créés par IA (texte, image et son).

La grosse différence c'est qu'ils ne se basent pas sur un algorithme d'IA mais sur un système d'algorithmes mathématiques.

Du coup, pas besoin de GPU pour faire tourner une détection, un simple CPU et quelques centaines de ms suffisent !

Ce genre de techno est indispensable à toute personne souhaitant entrainer son propre modèle car il faut absolument écarter les données générées par IA pour l'entrainement des modèles de fondation.

💡 Groq CEO: ‘We No Longer Sell Hardware’

Groq pivote vers le cloud plutôt que le hardware.

Ils envisagent de vendre leurs LPU à de grosses boites mais sinon tout se fera sur le nouveau cloud qu'ils prévoient de déployer.

Clairement c'est game changer pour eux car la marge va exploser en vendant du cloud plutôt que du hardware.

💡 Building AI Models is faster and cheaper than you probably think

Plusieurs startup du dernier batch YCombinator ont entrainé leur propre modèle de GenAI en seulement 2 mois et moins 500K$.

Pas que des LLM mais aussi un modèle de prévision météo ou un modèle de navigation.

💡 karpathy/llm.c: LLM training in simple, raw C/CUDA

Une implémentation de GPT2 en 1000 lignes de code C.

Karpathy cherche à dénoncer la complexité de l'écosystème de machine learning en général avec des centaines de Mo (!) de code Python à télécharger pour faire tourner le moindre programme d'IA.

💡 Une bulle d’intelligence artificielle et de stupidité naturelle

Un avis critique de Ploum sur la GenAI.

Je suis au moins d'accord sur le fait qu'il y a belle et bien une bulle. On a vu par exemple Stability AI qui n'a plus d'argent pour payer ses factures de cloud et il y a beaucoup d'entreprises qui ont de la même manière "cramé" l'argent des VCs sans avoir de business modèle.

Generative AI France est une newsletter technique francophone. Retrouvez nous aussi sur https://gen-ai.fr

Generative AI France