5 5 5 5 5

5 5 5 5 5

On vous a menti sur la résilience. Dans les centres de données de la Plaine Saint-Denis ou les bureaux feutrés des directeurs de l'informatique à La Défense, on ne jure que par la redondance absolue, cette idée reçue selon laquelle accumuler les couches de sécurité suffit à prévenir l'apocalypse numérique. On imagine souvent que la stabilité d'un réseau repose sur une structure mathématique parfaite, une sorte de suite logique immuable comme le 5 5 5 5 5 qui symboliserait une disponibilité totale. Pourtant, la réalité du terrain montre l'exact opposé. Plus un système devient complexe pour garantir sa propre survie, plus il crée des angles morts invisibles. La croyance populaire veut que la technologie soit une forteresse de certitudes alors qu'elle ressemble davantage à un château de cartes où chaque nouvelle carte, censée renforcer l'édifice, augmente en fait la pression sur la base. Je traite ces sujets depuis assez longtemps pour savoir que le risque zéro n'est pas une cible, c'est une illusion dangereuse qui paralyse l'innovation et prépare les catastrophes de demain.

La fragilité cachée derrière le 5 5 5 5 5

Le concept de haute disponibilité, souvent résumé par la quête des fameux cinq neuf, est devenu le graal des ingénieurs système. On parle ici de viser 99,999 % de temps de fonctionnement. Mais cette obsession pour le 5 5 5 5 5 masque une vérité technique dérangeante : la quête de la perfection logicielle induit une rigidité systémique. Pour atteindre un tel niveau de fiabilité théorique, les entreprises multiplient les réplications de serveurs, les répartiteurs de charge et les protocoles de basculement automatique. Le problème réside dans l'interaction entre ces composants. Une étude de l'Uptime Institute a démontré que la majorité des pannes majeures ces dernières années ne proviennent pas d'une défaillance matérielle isolée, mais de cascades d'erreurs logiques au sein même des mécanismes de protection. C'est l'arroseur arrosé de l'informatique moderne. Vous installez un système pour prévenir une coupure, et c'est ce système qui, par un comportement imprévu en situation de stress, déclenche l'effondrement général de votre infrastructure.

J'ai vu des entreprises dépenser des millions d'euros pour construire des architectures en miroir, pensant que si le site A tombe, le site B prendra le relais sans transition. C'est magnifique sur le papier. En pratique, si le bug qui fait tomber le site A est lié à une corruption de base de données, la réplication instantanée se charge de corrompre le site B en quelques millisecondes. La redondance n'est pas une protection contre l'erreur humaine ou le défaut de conception. Elle est un amplificateur de propagation. On se retrouve face à un paradoxe où l'excès de précautions élimine les petites pannes fréquentes au profit de pannes rares, mais absolument dévastatrices. On a échangé des rhumes contre une pneumonie foudroyante, tout ça pour satisfaire des indicateurs de performance qui rassurent les actionnaires mais ne reflètent en rien la robustesse réelle de l'outil.

L'illusion du contrôle par les chiffres

Cette obsession pour les mesures chiffrées vient d'une incompréhension fondamentale de la nature du logiciel. Un programme n'est pas une pièce d'horlogerie mécanique que l'on peut graisser pour éviter l'usure. C'est une construction logique vivante qui évolue dans un environnement de plus en plus imprévisible. Les partisans de la sécurité par l'accumulation affirment que chaque barrière supplémentaire réduit la probabilité d'incident. C'est l'argument du fromage suisse : on empile les tranches de Gruyère en espérant que les trous ne s'aligneront jamais. Mais dans le monde numérique, les trous bougent tout seuls. Les cyberattaques modernes exploitent justement ces jonctions entre les couches de sécurité. Un attaquant ne cherche pas à briser votre porte blindée, il cherche le moment où le verrou automatique hésite entre deux états parce qu'un capteur lui envoie une information contradictoire.

Quand la simplicité devient l'ultime sophistication technologique

Si vous voulez vraiment un système qui tient la route, il faut arrêter de vouloir tout surveiller et tout automatiser. Les systèmes les plus résilients que j'ai pu observer au cours de ma carrière sont ceux qui acceptent leur propre faillibilité. C'est le principe de la dégradation gracieuse. Au lieu de chercher le 5 5 5 5 5 à tout prix, ces architectures sont conçues pour continuer à fonctionner en mode dégradé. Si le moteur principal lâche, on ne coupe pas tout le courant, on passe en mode manuel ou on limite les fonctions aux services essentiels. C'est une approche humble de l'ingénierie qui reconnaît que l'homme ne peut pas tout anticiper. En France, certains services publics critiques commencent à revenir à des architectures plus monolithiques et isolées pour certaines tâches sensibles, loin de la micro-segmentation à outrance qui promet monts et merveilles mais finit par créer une usine à gaz ingérable.

Les sceptiques vous diront que revenir à plus de simplicité est un aveu d'échec, une régression vers l'informatique des années 1980. Ils prétendent que les besoins actuels de scalabilité imposent cette complexité. C'est une erreur de jugement majeure. La scalabilité ne doit pas se faire au détriment de la compréhension du système par ceux qui le gèrent. Quand une panne survient sur une plateforme moderne ultra-complexe, il faut parfois des heures rien que pour identifier quel service est à l'origine du problème parmi des milliers de conteneurs logiciels qui communiquent entre eux. Le temps moyen de réparation explose alors que le temps moyen entre les pannes diminue. On gagne sur un tableau pour perdre lamentablement sur l'autre. Le coût opérationnel de la maintenance de ces structures devient un gouffre financier qui n'apporte aucune valeur ajoutée à l'utilisateur final.

La leçon des grands réseaux électriques

Regardez comment fonctionne un réseau électrique. Il n'essaie pas d'être parfait partout tout le temps. Il utilise des délestages. Il accepte de sacrifier une zone pour sauver le reste. L'informatique doit apprendre cette leçon de réalisme. La croyance selon laquelle on peut tout interconnecter sans risque est une chimère. On assiste aujourd'hui à une centralisation massive des infrastructures chez quelques géants du cloud. Quand l'un d'eux tousse, c'est la moitié de l'économie mondiale qui s'arrête. Cette interdépendance est le fruit direct de notre refus de la panne. En voulant éliminer les petits incidents locaux, nous avons construit un système où une simple erreur de configuration dans un routeur en Virginie peut empêcher un commerçant de Lyon de traiter un paiement par carte bancaire. C'est une aberration architecturale.

Vers une nouvelle culture de la résilience numérique

Pour sortir de cette impasse, nous devons changer notre rapport à l'erreur. La résilience ne se mesure pas à l'absence de problèmes, mais à la capacité de rebond. Cela demande d'investir dans l'humain plutôt que dans des logiciels de surveillance automatisés qui génèrent des milliers d'alertes inutiles. Un administrateur système qui comprend l'intégralité de sa chaîne de production est mille fois plus précieux qu'un tableau de bord affichant des graphiques verts qui virent au rouge quand il est déjà trop tard. La formation technique de haut niveau, celle qui permet de descendre dans les couches basses du code, est délaissée au profit de certifications sur des outils propriétaires qui changent tous les deux ans. C'est une perte de souveraineté intellectuelle majeure pour nos entreprises.

On ne peut pas non plus ignorer le coût environnemental de cette quête de la disponibilité absolue. Maintenir des serveurs allumés en permanence juste pour qu'ils prennent le relais une fois tous les dix ans est un non-sens écologique. À une époque où la sobriété numérique devient une nécessité, nous devons accepter que certains services ne soient pas disponibles 24 heures sur 24 avec une précision de métronome. Est-il vraiment indispensable que votre application de partage de photos soit accessible à 3 heures du matin avec un temps de réponse de 20 millisecondes si cela nécessite une infrastructure capable d'alimenter une petite ville ? La réponse est non. L'ingénierie responsable consiste à définir le juste niveau de service, pas à viser un idéal mathématique déconnecté des réalités physiques et humaines.

Le véritable danger pour notre futur numérique n'est pas la panne elle-même. C'est notre incapacité à la gérer quand elle survient parce que nous avons délégué toute notre intelligence à des systèmes automatisés que plus personne ne maîtrise vraiment. Nous avons construit des machines si complexes qu'elles sont devenues opaques. Le jour où la grande panne arrivera, et elle arrivera, ce ne sont pas les protocoles de redondance qui nous sauveront. Ce sera la capacité d'une poignée de femmes et d'hommes à reprendre le contrôle manuel, à isoler les segments sains et à reconstruire, brique par brique, une infrastructure plus saine et plus simple. La technologie doit rester un outil au service de l'action, pas une cage dorée dont nous avons perdu la clé.

La sécurité véritable ne réside pas dans la multiplication des verrous, mais dans la connaissance profonde du mécanisme qui permet de les ouvrir quand tout le reste a échoué.

SH

Sophie Henry

Grâce à une méthode fondée sur des faits vérifiés, Sophie Henry propose des articles utiles pour comprendre l'actualité.