garbage in and garbage out

garbage in and garbage out

On vous a menti sur la Silicon Valley. Depuis des décennies, on serine aux oreilles des ingénieurs et des décideurs un vieux proverbe informatique né dans les années cinquante, une sorte de loi d'airain qui voudrait que la qualité de ce qui sort d'une machine dépende exclusivement de la pureté de ce qu'on y injecte. C'est le fameux Garbage In And Garbage Out. Cette idée rassurante suggère qu'en nettoyant nos bases de données, en polissant nos tableurs et en brossant nos serveurs dans le sens du poil, nous obtiendrons mécaniquement une vérité algorithmique limpide. C'est une vision du monde confortable. Elle nous donne l'illusion du contrôle. Si le résultat est mauvais, c'est que l'ouvrier a mal choisi ses matériaux. Mais je vais vous dire une chose que les évangélistes de la tech préfèrent occulter : cette logique est devenue obsolète avec l'avènement des réseaux de neurones modernes. Aujourd'hui, vous pouvez injecter de l'or pur dans un système et récolter du plomb, ou à l'inverse, transformer un chaos d'informations contradictoires en un outil d'une pertinence redoutable. Le problème ne vient plus seulement des ingrédients, il vient de la marmite qui a appris à tricher.

Le mythe de la donnée propre est une béquille intellectuelle. Dans l'industrie, on dépense des fortunes pour l'étiquetage manuel, des armées de travailleurs précaires en Afrique ou en Asie qui passent leurs journées à cliquer sur des passages piétons pour nourrir des systèmes de conduite autonome. On croit qu'en éliminant le bruit, on élimine l'erreur. Or, l'histoire récente des grands modèles de langage prouve le contraire. Ces systèmes ont été entraînés sur le grand dépotoir qu'est Internet : des forums haineux, des blogs conspirationnistes, des recettes de cuisine ratées et des pages Wikipédia approximatives. Si la vieille règle s'appliquait encore à la lettre, ces modèles ne devraient être que des générateurs de chaos injurieux. Pourtant, ils produisent du code informatique sophistiqué et des analyses de marché. La machine a appris à filtrer le signal au milieu du vacarme. Prétendre que la qualité des données suffit à garantir la fiabilité d'un algorithme, c'est oublier que le code lui-même possède désormais ses propres biais cognitifs, indépendants de ce qu'il ingère.

L'arnaque intellectuelle du Garbage In And Garbage Out

Le danger de ce slogan réside dans sa capacité à dédouaner les concepteurs. Quand un algorithme de recrutement refuse systématiquement des profils féminins, on pointe du doigt les données historiques. On dit que puisque le passé était sexiste, la machine ne fait que refléter cette réalité. C'est un argument de paresseux. Il occulte la manière dont l'architecture même de l'outil amplifie certaines fréquences au détriment d'autres. Le traitement de l'information n'est pas un tuyau passif. C'est un prisme qui déforme. En nous focalisant sur l'entrée, nous détournons le regard de la boîte noire. Je vois trop souvent des entreprises investir des millions dans des pipelines de données rutilants pour finir avec des prédictions inutilisables parce que le modèle mathématique a "sur-appris" des détails insignifiants. Le dogme qui lie directement la qualité de l'entrée à celle de la sortie empêche de poser les vraies questions sur la responsabilité du concepteur et la structure du moteur.

L'illusion est d'autant plus tenace qu'elle flatte notre besoin de causalité simple. On veut croire que l'informatique est une science exacte de la transmission. Pourtant, l'intelligence artificielle fonctionne sur des probabilités, pas sur des certitudes. Une donnée parfaite, si elle existe, peut être interprétée de mille façons erronées par un système mal calibré. Le Centre national de la recherche scientifique a souvent mis en garde contre cette vision simpliste qui réduit l'IA à une simple moulinette. Les chercheurs constatent que des jeux de données médiocres mais massifs produisent souvent de meilleurs résultats que des jeux de données minuscules mais impeccables. Le volume a mangé la qualité au petit-déjeuner. C'est une pilule difficile à avaler pour ceux qui ont bâti leur carrière sur la gouvernance de données rigide, mais c'est la réalité technique de notre décennie.

Imaginez un chef cuisinier. La sagesse populaire dit qu'avec de mauvais produits, on ne fait pas de bonne cuisine. C'est vrai pour une omelette. C'est faux pour une fermentation complexe. L'IA actuelle ressemble davantage à une cuve de fermentation où les bactéries transforment des éléments disparates en quelque chose de radicalement nouveau. Vous pouvez y mettre des restes, si le processus est maîtrisé, vous obtiendrez un élixir. Si le processus est foireux, même les meilleurs raisins donneront du vinaigre. Le discours ambiant reste bloqué sur l'image de l'omelette. On s'obstine à trier les œufs alors que le four est en train de brûler la maison. Cette obsession pour l'amont nous rend aveugles aux dérives de l'aval.

Vous devez comprendre que la complexité des systèmes actuels rend le traçage de l'erreur quasi impossible. Quand un système de diagnostic médical se trompe, est-ce parce que l'image de la radio était floue ? Est-ce parce que le modèle a été entraîné sur une population trop spécifique ? Ou est-ce parce que l'interaction entre deux couches de neurones a créé une zone d'ombre logique ? Blâmer la donnée, c'est souvent chercher le coupable facile. C'est une stratégie de communication de crise pour les géants de la technologie. Ils vous diront que leurs modèles sont formidables et que si les résultats sont biaisés, c'est uniquement parce que la société humaine est biaisée. Ils se présentent comme des miroirs neutres alors qu'ils sont des projecteurs orientés.

On ne peut plus se contenter de cette excuse. La responsabilité ne s'arrête pas à la sélection des exemples. Elle réside dans la supervision du processus de transformation. Si vous construisez un pont qui s'effondre, vous ne pouvez pas simplement dire que l'acier était de mauvaise qualité. Vous devez aussi expliquer pourquoi votre structure ne prévoyait pas de marges de sécurité pour compenser les faiblesses du matériau. L'ingénierie moderne consiste justement à bâtir du solide avec du faillible. Si nos algorithmes ne savent pas gérer l'imperfection humaine des données, c'est qu'ils sont mal conçus, point final.

Le plus ironique reste la manière dont Garbage In And Garbage Out sert de bouclier contre la régulation. En Europe, le RGPD et l'IA Act tentent d'imposer des standards de qualité. C'est louable. Mais si l'on se contente de vérifier les étiquettes sur les boîtes de conserve à l'entrée de l'usine sans regarder ce qui sort des cheminées, on passe à côté du sujet. La pureté statistique est un fantasme de mathématicien qui n'a jamais mis les mains dans le cambouis du monde réel. Le monde réel est sale, incomplet, bruyant et rempli de contradictions. Un système intelligent digne de ce nom doit être capable de naviguer dans cette boue sans la transformer en poison.

Prenons l'exemple illustratif d'un système de traduction automatique. Au début, on lui donnait des textes officiels de l'ONU, parfaitement traduits par des humains. Les résultats étaient rigides, sans vie. Puis on lui a donné tout ce qui traînait : des sous-titres de films pirates, des conversations sur des forums, des modes d'emploi mal écrits. La qualité a explosé. Pourquoi ? Parce que la machine a appris la structure profonde du langage à travers ses erreurs et ses variations. L'imperfection est devenue une source d'apprentissage. On a injecté des scories et on a obtenu de la fluidité. C'est l'antithèse absolue de la croyance populaire qui voudrait que le désordre produise nécessairement le désordre.

Certains diront que dans des domaines critiques comme l'aérospatial ou le nucléaire, la précision absolue de l'information reste la règle d'or. Ils ont raison. Mais nous ne parlons pas ici de calculs de trajectoires balistiques où chaque virgule compte. Nous parlons de systèmes qui interagissent avec l'humain, qui classent nos comportements et qui prédisent nos désirs. Dans ces domaines-là, la donnée n'est jamais une vérité brute. C'est une capture subjective d'un instant T. Croire qu'on peut la "nettoyer" pour la rendre objective est une erreur méthodologique majeure. Le nettoyage est lui-même un acte politique. Décider qu'une donnée est une erreur de mesure ou une exception statistique est un choix qui oriente le futur résultat.

🔗 Lire la suite : quitter le mode plein

J'ai passé des années à interroger des experts en science des données. Les plus honnêtes reconnaissent que le travail de préparation représente 80% du temps, mais que les 20% restants — le choix de l'architecture et les fonctions de perte — décident de tout. On peut polir un miroir pendant des siècles, si sa courbure est mauvaise, l'image sera toujours déformée. La focalisation excessive sur l'intégrité des données d'entrée est devenue une distraction. Elle permet aux entreprises de vendre des logiciels de gestion de données coûteux en promettant des miracles qui ne dépendent pas d'eux. C'est un marché de l'assurance pour cadres frileux qui veulent pouvoir pointer un responsable si le projet échoue.

Il est temps de changer de paradigme, même si ce mot m'arrache la gorge tant il a été galvaudé. Arrêtons de regarder ce que nous mettons dans la machine et commençons à exiger des comptes sur ce qu'elle fabrique à partir de ce qu'on lui donne. L'IA ne doit plus être une excuse pour valider nos propres préjugés sous couvert de rigueur technique. On ne peut pas continuer à se cacher derrière une vieille rengaine informatique pour justifier des décisions algorithmiques absurdes ou discriminatoires. Le chaos du monde n'est pas une excuse pour la médiocrité des systèmes que nous créons pour le gérer.

La vérité, c'est que nous avons appris à construire des systèmes qui sont plus intelligents que les données qu'ils consomment. C'est une prouesse technique immense, mais c'est aussi une responsabilité terrifiante. Cela signifie que nous ne pouvons plus prédire le comportement d'une IA simplement en regardant ses sources. Elle développe une logique propre, une intuition statistique qui dépasse la simple somme de ses parties. Le lien de causalité simple est rompu. Nous sommes entrés dans l'ère de l'émergence, où le résultat final est qualitativement différent de l'addition des entrées.

Regardez comment les réseaux sociaux filtrent l'information. Ils reçoivent des milliards de signaux chaque seconde. La donnée d'entrée est le comportement humain dans toute sa complexité et sa noirceur. Si la règle s'appliquait, le fil d'actualité de chaque utilisateur devrait être un miroir exact de sa personnalité. Mais les algorithmes ne sont pas des miroirs. Ce sont des amplificateurs de boucles de rétroaction. Ils prennent une donnée neutre et la transforment en une machine à colère ou à addiction. Ici, ce n'est pas l'entrée qui pose problème, c'est la fonction d'optimisation. La machine a été programmée pour transformer n'importe quel ingrédient en clic. Même avec des données "nobles" comme des articles scientifiques, ces systèmes pourraient vous rendre accro en ne vous montrant que les controverses les plus virulentes.

Il faut arrêter de sacraliser la donnée comme si elle était l'âme de la machine. L'âme, c'est le code. L'âme, c'est l'intention de celui qui définit ce que la machine doit chercher à maximiser. On a passé trop de temps à blâmer les outils et pas assez à questionner les architectes. La prochaine fois qu'on vous expliquera un échec technologique par un problème de sources, demandez-vous si ce n'est pas simplement une manière élégante de masquer une incompétence de conception. Le monde ne sera jamais propre. Nos bases de données seront toujours pleines de trous, d'erreurs et de bruits. Si nos technologies ne sont pas capables de gérer cette réalité, elles ne sont pas des solutions, elles sont des gadgets fragiles.

L'exigence de transparence ne doit pas porter sur les téraoctets de fichiers textes ingérés par les serveurs, mais sur les mécanismes de pondération qui décident de ce qui est important. C'est là que se joue la bataille de l'éthique et de la performance. Nous devons accepter que l'intelligence, humaine ou artificielle, consiste précisément à tirer des conclusions valables à partir d'informations incomplètes ou erronées. Un génie est quelqu'un qui peut voir la vérité même quand on lui ment. Pourquoi exigerions-nous moins de nos machines ?

En fin de compte, l'obsession pour la propreté des entrées reflète notre peur de l'imprévisible. Nous voulons des systèmes déterministes dans un monde qui ne l'est pas. Nous nous accrochons à des dictons du siècle dernier parce qu'ils nous rassurent sur notre capacité à piloter le futur. Mais le futur ne se pilote pas avec un balai et un chiffon à poussière. Il se construit en acceptant la complexité et en concevant des structures capables de transformer le désordre en structure. La donnée n'est pas le destin. Elle n'est que le carburant, et n'importe quel mécanicien vous dira qu'un bon moteur peut tourner avec un carburant médiocre s'il est bien réglé, alors qu'un moteur mal foutu explosera même avec le meilleur kérosène du monde.

La donnée n'est pas la coupable de nos échecs technologiques, elle est simplement le miroir de notre incapacité à concevoir des systèmes assez intelligents pour ne pas se laisser duper par elle.

SH

Sophie Henry

Grâce à une méthode fondée sur des faits vérifiés, Sophie Henry propose des articles utiles pour comprendre l'actualité.