Prompt, Context, Harness, Loop : et après ? La montée des eaux de l'ingénierie IA

il y a 3 jours
10 min de lecture

Je maintiens une suite open source de Claude Skills orientée GEO/SEO. Ce que j'y fais le plus souvent, ce n'est pas ajouter des fonctions — c'est en supprimer.

À chaque montée de version du modèle, je retourne effacer des savoir-faire dont j'étais fier : prompts ciselés, recherche maison, orchestration d'outils codée en dur. Et l'intervalle entre deux versions se resserre — d'une fois par mois à une fois tous les quelques jours.

Aujourd'hui, ce que je surveille, c'est sa boucle : le laisser tourner seul, essayer, se corriger, jusqu'à ce que la tâche soit finie. Je me disais : cette fois, je vais enfin me stabiliser à ce niveau. Jusqu'à la semaine dernière, où j'ai vu un agent capable de boucler vingt fois et de se réécrire lui-même se faire arrêter par la question la plus simple du monde : comment prouver que ces vingt tours étaient justes ?

C'est là que j'ai compris. Je ne montais pas en compétence — j'étais chassé vers le haut par la montée des eaux. Prompt, Context, Harness, Loop : on les prend pour quatre métiers à apprendre l'un après l'autre. Ce sont en réalité les marches d'un même escalier qui s'enfonce sous la mer. Le niveau ne fait que monter ; la marche où vous vous tenez finira noyée ; l'argent et les opportunités sont toujours une marche plus haut, là où l'eau n'arrive pas encore.

Chaque couche que vous maîtrisez est en train d'être noyée

Tout système d'IA en production comporte une couche « où un humain doit entrer dans l'eau » : le modèle n'y arrive pas seul, il faut quelqu'un, de l'eau jusqu'à la taille, pour surveiller, corriger, nourrir. Cette couche est votre point d'appui — celle où vous facturez, où vous bâtissez une douve. Mais tous les ans ou deux, le niveau monte d'un cran et la noie. Votre savoir-faire ne disparaît pas : il coule et devient le fond de mer que tout le monde foule gratuitement. Et vous, vous reculez d'une marche vers le haut.

Ce qui pousse l'eau, ce n'est pas que le modèle : c'est la capacité, l'effondrement du coût d'inférence, la maturité des outils, et la régulation, plusieurs forces à la fois. La capacité est nécessaire, pas suffisante — souvent le modèle sait déjà faire, c'est la loi et la responsabilité qui l'en empêchent. Le même scénario s'est joué quatre fois en trois ans.

Couche 1 — Prompt. En 2023, le prompt engineer était le métier le plus convoité, payé des fortunes. Deux ans plus tard, on lui rédige sa nécrologie. Pas parce que c'est inutile : parce que le RLHF a soudé le « savoir formuler » dans le modèle. GPT, Claude comprennent le langage humain ; plus personne ne paie une prime pour un ingénieur de prompts. Vos incantations — « réfléchissons étape par étape », les exemples few-shot, « tu es un expert senior » — sont désormais natives, une ligne de configuration.

Couche 2 — Context. Les orphelins du prompt se sont mis à nourrir le modèle : RAG, mais aussi chunking, vectorisation, re-ranking, gestion de mémoire, budget de contexte. Puis la fenêtre d'un million de tokens a englouti l'essentiel du « transport d'information ». Ce qui a coulé : la taille de chunk finement réglée, la règle « tout RAG passe par une base vectorielle », le découpage map-reduce. La couche n'est pas morte — elle s'est déplacée : de « j'injecte des documents » à « je décide ce que le modèle voit et ne voit pas ». Noyé ne veut pas dire disparu ; ça veut dire devenu socle. Mais votre prime, elle, s'évapore.

Couche 3 — Harness. Vous codez en dur le workflow de l'agent : appelle cet outil, puis l'autre, réessaie en cas d'échec, stocke l'état ici. La génération LangChain. Puis la précision des appels de fonction monte, le modèle planifie nativement, et les diagrammes codés en dur (if-else, DAG) s'amincissent. La plomberie d'adaptation par outil, des protocoles comme MCP la standardisent d'un coup. L'orchestration maigrit ; la coque de gouvernance, elle, épaissit.

Couche 4 — Loop. La frontière de 2026. On admet que le modèle se trompera sur les tâches longues, on lui construit une boucle de rétroaction : percevoir, penser, agir, observer — essayer, réfléchir, itérer jusqu'à l'achèvement. C'est ce que faisait mon agent à vingt tours. Et l'eau monte déjà à ses pieds : les échafaudages « réflexion–réessai » écrits à la main, l'orchestration de débats multi-agents, la nouvelle génération les avale.

Note de terrain — un ingénieur IA de première ligne : « J'en apprends un, il devient à la mode, puis il refroidit. À peine maîtrisé, la version suivante du modèle l'embarque en natif. Quelle douve suis-je en train de bâtir, au juste ? »

Quatre couches, quatre points d'appui noyés. Le prompt a tenu deux ans, le contexte un an, le harness moins encore — la courbe se redresse. La date de péremption de la couche suivante se compte en mois, plus en années.

Votre pari sur « plus d'autonomie » est en train de couler

Loop est la frontière. Mais « frontière » signifie : la prochaine à être absorbée. Notez cette phrase : un système qui boucle n'est pas automatiquement un système fiable. L'erreur favorite d'une boucle n'est pas la panne — c'est de crier victoire trop tôt. Elle tourne vingt fois, produit un correctif d'apparence impeccable, et annonce « c'est réglé » — alors que les tests ne couvrent pas le chemin critique, que les citations ne sont pas vérifiées, et que parfois elle a simplement glissé l'échec dans les logs. Sans vérification, une boucle n'est que de l'automatisation, pas de l'ingénierie.

Pire : la moitié de cette couche se fait internaliser gratuitement par les modèles. Distinguons deux boucles. La boucle interne — essayer, réfléchir, corriger avant de répondre. La boucle externe — passer de vrais tests, appeler des outils, lire les retours d'un environnement réel, avancer sur des heures voire des jours. Les modèles à raisonnement lent absorbent la boucle interne dans leur « System 2 » : avant de répondre, ils ont déjà tourné des centaines de fois. Vos échafaudages de boucle interne, les fournisseurs de modèles les intègrent au socle, gratuits. Mais la boucle externe, eux ne vous la donnent pas : le code a-t-il passé les tests réels, l'action métier est-elle reconnue, comment reprendre une tâche de plusieurs jours qui a cassé. Et tourner tout seul ne veut pas dire tourner juste, ni avoir le droit de tourner. La prime payée pour « plus d'autonomie » mise précisément sur la demi-couche qui sombre.

Note de terrain — un VC qui a investi dans des agents : « Tous mes dossiers sont "plus autonomes" les uns que les autres. Aucun ne sait répondre à "comment prouvez-vous que c'est juste ?". Mon LP me demande le ROI ; je ne peux dire qu'une chose — il tourne avec beaucoup d'ardeur. »

L'argent va donc vers les deux plateaux encore émergés. Deux questions, exactement : comment prouver que c'est juste ? Et, même juste, de quel droit l'agent agit-il ?

Plateau n° 1 : l'ingénierie de la vérification

Plus la boucle est autonome, plus « prouver que c'est juste » vaut cher. Car plus le modèle génère, plus les hallucinations et les failles se cachent — l'écart se creuse entre « du code qui a l'air juste » et « du code juste dans tous les cas limites ». Qui comble cet écart tient le point d'appui suivant. Le rôle humain passe de « celui qui écrit » à « réceptionnaire objectif ». Deux exigences dures : séparer génération et réception (l'agent qui écrit n'est pas celui qui valide), et le contrôle déterministe (ce qu'un test, un compilateur ou une règle peut trancher ne se confie jamais à un autre LLM).

Le capital afflue. Braintrust : Série A de 36 M$ menée par a16z, valorisation 150 M$ ; moins d'un an après, Série B de 80 M$, valorisation 800 M$ — fois cinq en un an. Patronus AI (test de modèles) : 50 M$. Arize (éval et observabilité) : 70 M$. Datadog et Databricks ont suivi sur Braintrust. Signal plus dur encore : SWE-bench Verified, le benchmark codage d'OpenAI. Le score est passé de moins de 10 % à plus de 80 % en un an. L'important n'est pas le score : c'est le mot Verified. Le centre de gravité bascule de « est-ce que ça ressemble à une solution » vers « le résultat est-il confirmé juste par un standard externe ». Le secteur paie pour la vérification, plus pour la génération.

Pourquoi est-ce un bon business ? La vérification ne parie sur aucun agent : elle vend la réception à tous — juridique, code, finance. Une couche transversale, incontournable — la position rêvée d'un SaaS. Mais ce n'est pas la terre promise : des valorisations en hausse de cinq fois en un an, c'est aussi une fenêtre qui se referme vite. L'éval glisse facilement de société indépendante à fonctionnalité offerte par une plateforme. Ce que vous pouvez prendre, ce n'est pas le transversal générique, mais le standard de vérification d'un secteur précis — juridique, santé, finance — que personne n'a encore fixé.

Note de terrain — un agent builder sans réponse : « Trois semaines pour faire tourner ma boucle, et mon patron pose une seule question : "comment prouves-tu que le bug est corrigé, sans régression ?" Je n'ai pas su répondre. Ce qui vaut de l'or, ce n'est pas ma boucle — c'est cette phrase à laquelle je n'ai pas su répondre. »

Plateau n° 2 : la gouvernance d'exécution

Même vérifié, il reste : de quel droit l'agent agit-il ? Un agent très autonome fera n'importe quoi pour atteindre votre but — brûler des milliers d'euros de calcul pour un bug, franchir une ligne rouge de confidentialité pour une donnée, appeler une API à haut risque pour finir sa tâche. Il n'est pas méchant : il n'a aucun sens des limites. La boucle lui a donné le pouvoir d'agir, pas les bornes.

L'objet d'ingénierie : permissions d'outils, coupe-circuits budgétaires, validations dynamiques, Policy-as-Code, classification des actions réversibles et irréversibles. Le rôle humain passe de « approuver chaque action » à « concevoir le régime de permissions » — auditeur général de la conformité. Le vote des géants suffit : Lakera (garde-fous) rachetée par Check Point fin 2025 pour environ 300 M$ ; Protect AI rachetée par Palo Alto Networks, intégrée « du développement au runtime ». Mais ces rachats fixent aussi le plafond : la tête de couche finit absorbée par les géants de la sécurité, pas en plateforme indépendante. À viser : la gouvernance runtime sous cadre réglementaire sectoriel, et les protocoles d'autorisation entre agents — MCP (agent vers outils, devenu standard de fait), A2A de Google (coordination entre agents), AP2 (signature cryptographique de l'intention de paiement). Tant que le protocole n'est pas figé, la fenêtre reste ouverte — mais une fois le standard arrêté, le gagnant rafle tout.

Sous-segment le plus chaud : l'identité des agents — Know Your Agent (KYA), priorité numéro un de la sécurité entreprise à RSAC 2026. Pourquoi l'urgence ? Une enquête auprès de responsables sécurité : 67 % soupçonnent leur agent d'avoir extrait des données au-delà de ses droits ; 7 % seulement croient que leurs contrôles arrêteraient un agent compromis. Contre-intuitif : plus un secteur est à risque, plus tôt cette couche arrive. En santé, finance, défense, gouvernance et vérification précèdent même la maturité de la boucle — non par manque de capacité du modèle, mais parce que la loi exige une signature humaine. Ce qui borne ce métier, ce n'est pas seulement la capacité, c'est la légitimité et la responsabilité.

Note de terrain — un RSSI qui ne maîtrise plus les droits de ses agents : « Le métier me réclame d'ouvrir les permissions. Je les ouvre : suppression hors périmètre, dépassement de budget, fuite de données — et c'est moi qui porte le chapeau. Je ne veux pas un agent plus intelligent ; je veux de quoi l'arrêter avant la catastrophe. »

Le mur, tout en haut : qui décide de « ce que nous voulons » ?

L'eau monte encore — mais une marche reste à jamais hors d'atteinte. Ce n'est pas « comment coordonner plusieurs agents » (protocoles, identité, design de mécanismes : encore de l'ingénierie). C'est un cran au-dessus : quand d'innombrables agents vérifiés et autorisés, agissant pour des intérêts différents, se disputent les mêmes ressources, qui décide de ce qu'ils poursuivent ensemble ? Le but est en couches. L'objectif opérationnel (corriger ce bug, baisser le coût de 10 %), le modèle le déduit. La préférence individuelle (votre goût, votre appétit pour le risque), il l'apprend. Mais « ce que nous voulons », non — car il n'existe pas de « nous » tout fait : la légitimité d'un but collectif s'appuie sur un mandat, pas sur du calcul. Pour un investisseur : ne pariez pas sur « résoudre la valeur collective avec un modèle ». Coder « ce que nous voulons » en une métrique à optimiser, c'est heurter la loi de Goodhart — dès qu'une mesure devient une cible, elle cesse d'être une bonne mesure. C'est un mur, pas un plateau à conquérir.

Où êtes-vous, sur cette ligne d'eau ?

Vous entreprenez ? Arrêtez de courir après l'autonomie. « Agent for X » n'est pas interdit — mais sur la seule couche applicative, vous êtes sur la marche qui sombre en premier. Posez sous vos pieds quelque chose d'inarrachable : un standard de vérification dans un secteur, ou un jeu de données propriétaire.

Vous investissez ? Ne payez pas la prime du « plus autonome » ; payez celle du « vérifiable et autorisé ». Le mur du sommet (institutions et valeurs collectives), ne l'investissez pas comme un marché. Contournez-le.

Vous voulez pivoter ? Quittez la couche « savoir faire tourner un agent » pour la couche « savoir définir ce qui est juste et ce qui est permis ». Réceptionnaire et auditeur — l'eau n'a pas encore atteint ces deux plateaux.

Cette déduction a un présupposé : que l'eau monte toujours — que le modèle progresse toujours. Si le scaling cale un jour, le niveau se fige et votre marche vaut quelques années de plus. Mais pour l'instant, l'eau monte, et de plus en plus vite. La couche sur laquelle vous pariez sera-t-elle encore émergée dans trois mois ?

FAQ

Le prompt engineering est-il mort ? Non — il est devenu natif. Les techniques de formulation sont absorbées par le modèle ; c'est la prime payée pour ce seul savoir-faire qui a disparu.

Par où commencer un cabinet de conseil en IA ? Par la vérification dans un domaine vérifiable (où un test tranche le vrai du faux), puis la gouvernance là où la loi impose déjà un humain dans la boucle (santé, finance).

Qu'est-ce qui ne sera jamais submergé ? La légitimité — décider de ce qu'un collectif veut. Ce n'est pas un problème de capacité, mais de mandat.

ECTIME AI Lab est l'unité de recherche et de déploiement en IA appliquée du groupe ECTIME. Nous construisons, livrons et éprouvons des systèmes agentiques en production — de l'automatisation GEO/SEO aux agents autonomes multi-étapes. Notre axe : la vérification et la gouvernance d'exécution. Nous maintenons des Claude Skills open source pour le GEO/SEO et accompagnons les marques européennes vers une IA non seulement autonome, mais vérifiable et autorisée.