E-Veille IA Générative France #18

Semaine du 28 octobre au 4 novembre

nov. 03, 2024

Retrouvez une analyse de l'actualité Generative AI en français sélectionnée par Adrien Maret.

✍️ L’édito

Difficile de choisir quel sujet est le plus brulant entre les multiples levées de fonds dans le domaine des Assistants AI (Sana 55M, CrewAI 16M, Sierra AI 175M) et l’adoption croissante des outils de génération pour développeurs.

Les Assistants AI pour développeurs sont parmi les produits GenAI les plus anciens (Github Copilot date de 2021) et surement les plus aboutis en terme de gain de productivité et d’adoption.

Dans le métier de développeur, on traite essentiellement du texte alors forcément c’était un cas d’usage de choix pour les LLMs.

Cependant, la complexité sous-jacente des programmes informatique pose néanmoins de nombreux défis à ces Assistants:

contexte réparti entre plusieurs fonctions dans plusieurs fichiers
codebase pouvant contenir des centaines de milliers voir millions de lignes
complexité de compréhension de l’architecture des programmes

La plupart des solutions actuelles se concentrent sur des parties limitées du code comme la ligne ou le fichier actuel plutôt que d’essayer de manipuler des codebases entières.

Nous ne sommes pas encore au niveau de l’Assistant capable d’écrire et maintenir des programmes entiers mais le gain de productivité offert par les outils est incontestable.

La pression pour l’adoption des outils GenAI va augmenter au fur et à mesure que la différence de productivité avec et sans s’accentue.

Il est crucial de continuer l’évangélisation au sein des équipes pour que l’adoption soit un succès mais ce n’est pas toujours facile et on se heurte parfois à la réticence des développeurs les plus seniors, ce qui est dommage car eux aussi peuvent en bénéficier.

En partenariat avec ExFabrica et Alexandre Soyer, je participe actuellement à une expérimentation sur la démocratisation des outils GenAI pour développeurs avec un accompagnement de 6 équipes sur 6 mois, le but est de mesurer l’apport réel de ces outils sur la productivité et la qualité du code.

Ce n’est pas toujours facile de faire la promotion de ces outils dans le contexte d’une grande entreprise internationale avec des équipes très différentes mais je suis agréablement surpris des bons résultats qui commencent déjà à être enregistrés avec un net gain de productivité et de satisfaction des équipes.

Bref, que ce soit Cursor, Copilot, Supermaven ou autre, il est grand temps de se mettre aux outils de GenAI pour développeur pour démarrer l’année 2025 du bon pied ;-)

💻 Code AI

💡 We raised $12M to build a text editor

Supermaven a levé 12 millions de dollars pour créer un éditeur de code.

Ils sont arrivés aux limites de ce qu'il est possible de faire via une extension alors ils veulent développer leur propre éditeur.

À voir si ils vont partir de VScode comme Cursor ou créer un Nouvel éditeur from scratch (j'espère qu'ils partiront de VScode)

En tout cas vu la qualité de leur outil d'autocomplétion, cela fera très certainement un sérieux concurrent à Cursor !

💡 Claude 3.5 Sonnet on GitHub Copilot

Après OpenAI, c'est Anthropic qui devient partenaire de Github (Microsoft) pour proposer son modèle Claude 3.5 Sonnet dans Github Copilot.

Depuis la dernière mise à jour du modèle, Claude 3.5 Sonnet dépasse de loin GPT-4o dans la plupart des benchmark et s'offre surtout une place de choix dans le benchmark de référence pour les tâches de programmation, SWE Bench, avec 49% (SOTA 53% pour OpenHand, le successeur de OpenDevin)

Après avoir essayé, je dois dire que je préfère toujours Supermaven pour l'auto-complétion.

Leur modèle fournit les complétions beaucoup plus rapidement et beaucoup plus souvent que Copilot tout en étant généralement de meilleure qualité.

Le seul bémol du modèle c'est qu'il est moins "intelligent" que Claude 3.5 Sonnet derrière Copilot mais ce n'est pas grave car pour les tâches de génération de code compliqué j'utilise le chat de Cursor.

💡 How I write code using Cursor: A review

Un article sur l'utilisation de Cursor pour le développement.

Plusieurs exemples concret d'utilisation de Cursor en vidéo, je trouve ce format très bien d'ailleurs car cela donne des idées d'utilisation de l'outil.

Je suis 100% d'accord avec certaines de ses conclusions:

j'utilise moins de lib externes car je peux recoder pleins d'utilitaires facilement avec l'aide du LLM
cela me dérange moins de dupliquer du code car je sais que je peux refactor très rapidement et sans trop d'efforts plus tard
je me dirige plus facilement vers des frameworks ou langages que je ne maitrise pas car le LLM génère une bonne partie du code pour moi

Les outils de GenAI pour le développement sont des précurseurs de l'écosystème en terme de profondeur des fonctionnalités, de gains de productivité et d'adoption.

Github Copilot existe depuis 2021 et à longtemps été l'application de GenAI la plus utilisée au monde avant de laisser cette place à ChatGPT.

Aujourd'hui, les outils GenAI pour développeurs sont impressionnants. Il devient de plus en plus difficile de s'en passer tant le gain de productivité est élevé !

💡 Chez Google, plus d’un quart du nouveau code est généré par de l’IA

Sacré déclaration de la part de Google !

Si c'est vrai c'est énorme car ça a dû demander un gros travail d'évangélisation des équipes.

Personnellement ma stack c'est Cursor + Supermaven.

Impossible de se passer de Cursor et de son chat intégré avec Claude 3.5 Sonnet qui me génère une grande partie de mon code.

Je peux même lui donner un screenshot d'une maquette et il me génère les composants React.

Pour l'auto complétion, Supermaven est vraiment très agréable avec des suggestions ultra rapides et très bien contextualisées.

J'estime que ma productivité est multipliée par 2 en moyenne (ça dépend le type de tâches)

🤖 Agents LLM

💡 Reaching $130m | Sana

Sana développe un assistant d'entreprise et ils ont levé 55 millions de plus, ce qui porte leur total à 130 millions.

Jusqu'ici ils étaient surtout focus sur un RAG et une base de connaissances mais avec cette levée, ils annoncent aussi avoir acquit une startup IA spécialisée dans l'automatisation des tâches (CTRL)

C'est une très grosse somme pour une boîte non-americaine (ils sont suédois) et donc probablement un futur poids lourd du marché

💡 Mobile-Agent: The Powerful Mobile Device Operation Assistant Family

Un Assistant capable de manipuler cette fois-ci des interfaces de téléphone mobile.

C'est une équipe d'Alibaba qui a réalisé ce projet.

Apple travaille aussi sur des sujets similaires avec son modèle Ferret-UI

🔍 Retrieval-Augmented-Generation

💡 Reducto Document Ingestion API

Une solution qui permet de lire et découper des PDF avec un usage pensé pour le RAG.

Par exemple, ils vont inclure un résumé des tables en plus des données bruts.

Les chunks sur cette démo sont vraiment pas mal !

Les prix sont un peu cher par contre avec un prix d'entrée à 300$ pour 15 000 pages plutôt qu'un pay-as-you-go.

🧠 Large-Language-Models

💡 LM Studio 0.3.4 ships with Apple MLX

LM Studio inclut maintenant le framework de calcul spécialisé pour le machine learning MLX de Apple.

Ce framework a été conçu pour fonctionner avec l'accélération matériel des puces M de Apple (M1 à M4) pour offrir de bonnes performances d'inférence sur du matériel de particulier.

Faire tourner un LLM en local reste encore un cas à la marge, notamment à cause de la vitesse d'inférence et de la performance des modèles OSS qui reste en deçà des modèles cloud mais j'ai bon espoir que le gap se resserre dans les prochaines années.

💡 Model Distillation in the API

OpenAI propose un pipeline complet de fine tuning directement depuis son API.

Cela permet de fine tuné un modèle depuis les input/output d'un plus grand modèle.

Concrètement, cela peut permettre de spécialiser GPT-4o-mini avec GPT-4o voir o1 pour avoir un modèle rapide et pas cher spécialisé sur une tâche précise.

C'est assez simple d'utilisation car directement intégré:

on ajoute un paramètre store: true lors des appels API pour créer un dataset
on crée la baseline d'évaluation du dataset avec le modèle
on fine tune le plus petit modèle avec le dataset
on évalue le modèle fine tuné avec le dataset par rapport à la baseline

💡 Introducing ChatGPT search

Après 3 mois de bêta, OpenAI ouvre au grand publique la fonctionnalité de RAG à l'échelle d'internet de ChatGPT.

Cela fonctionne avec un nouveau type de crawler d'OpenAI qui récupère les info des pages web en permanence, comme ceux de Perplexity ou Google Search.

La recherche n'est pas faite avec un outil qui lit la page web à la demande comme c'était parfois le cas lors de requêtes.

Ils utilisent un modèle GPT-4o qu'ils ont fine tuné à partir de données générées par leur modèle o1.

C'est un concurrent directe à Perplexity qui était jusque là plutôt tranquille sur son segment.

📰 Autres

💡 European Parliament Revolutionizes Archive Access with Claude AI \ Anthropic

Le parlement européen choisi Claude pour développer son système de RAG interne sur ses archives.

C'est un choix étonnant étant donné que Claude est 1) un modèle fermé 2) un modèle américain 3) hébergé sur Amazon Bedrocks

C'est dommage je trouve quand on sait qu'on a justement besoin de filer un coup de pouce à notre industrie européenne de l'IA (Mistral pour ne citer qu'eux)

Generative AI France est une newsletter technique francophone. Retrouvez nous sur https://gen-ai.fr

Generative AI France