Sauvegarde pour l’IA : stratégies clés

Cas d’utilisation

Content Writer

IT Infrastructure & Data Protection Expert

Introduction

L’IA a fait son entrée dans le centre de données — et avec elle, une nouvelle catégorie de données qui exige une nouvelle approche de la protection. Jeux de données d’entraînement, modèles de langage, bases de données vectorielles, journaux d’expérimentation et automatisation pilotée par des agents sont désormais des actifs opérationnels centraux dans de nombreuses organisations. Mais alors que les coûts mondiaux des rançongiciels devraient dépasser 265 milliards de dollars d’ici 2031,1 et que l’IA est également utilisée par les attaquants pour automatiser et accélérer plusieurs étapes de la chaîne d’attaque, les stratégies de sauvegarde suivent-elles le rythme ?

Ce guide examine ce qui rend la sauvegarde des données d’IA différente, de ce qui doit être sauvegardé aux stratégies qui offrent une véritable résilience face à des menaces comme les rançongiciels et l’empoisonnement des données.

Ce qui rend les données d’IA différentes

Les données informatiques traditionnelles — bases de données, systèmes de fichiers, archives de messagerie — sont en grande partie statiques entre les transactions : elles changent lorsqu’un utilisateur agit dessus. Les données d’IA ont des besoins de protection spécifiques qui les distinguent de trois manières importantes.

Premièrement, elles sont cumulatives et coûteuses à recréer. Un modèle de langage entraîné sur des pétaoctets de données sélectionnées, annotées à grands frais, représente un investissement dans une entité unique qui, si elle est perdue, doit généralement être reconstruite depuis le début, en répétant sensiblement le même processus et les mêmes coûts. Des cycles d’entraînement consommant des semaines de calcul GPU ont une valeur monétaire réelle, à la fois en coût d’infrastructure et en connaissance institutionnelle encodée dans le modèle résultant.

Deuxièmement, les données d’IA couvrent plusieurs couches qui nécessitent toutes une protection. Cela inclut les données d’entraînement elles-mêmes, les artefacts de modèle et les points de contrôle (checkpoints) qui capturent la progression de l’entraînement, les bases de données de génération augmentée par récupération (RAG), les pipelines d’exploitation du machine learning (MLOps) qui orchestrent le flux de travail d’entraînement et de déploiement, ainsi que les dépôts de code qui définissent l’exécution de ces pipelines.

Plus largement, les systèmes d’IA agissent de manière autonome et peuvent exécuter des commandes rapidement. Si cet agent hallucine, est compromis ou opère à partir de mauvaises instructions, il peut provoquer des dommages étendus aux données avant qu’un humain ne puisse réagir. Ainsi, en plus de considérer la menace pesant sur les données d’IA, nous devons considérer les risques potentiels que l’IA introduit pour les données d’autres systèmes au sein d’une organisation.

Pourquoi les stratégies d’IA Sauvegarde sont essentielles

Les systèmes d’IA ne sont plus une infrastructure expérimentale. Ils sont intégrés à des produits orientés client, à des flux de travail internes, à la détection de fraude, à la surveillance de conformité et à la prise de décision opérationnelle. Cela signifie que lorsqu’un système d’IA tombe en panne, il impacte chaque fonction métier qui dépend de ce système. Une défaillance peut également entraîner de graves conséquences réglementaires et réputationnelles qui dépassent largement l’incident lui-même. En outre, les projets d’IA représentent des mois de curation de données, d’annotation, de réglage fin (fine-tuning) et de validation — un investissement qui peut être réduit à néant du jour au lendemain lors d’une attaque réussie. La seule protection fiable contre cette perte est une stratégie de sauvegarde conçue pour correspondre à la menace.

Pourquoi les projets d’IA sont des cibles de perte de données et de cyberattaques

Les systèmes d’IA sont des cibles attractives pour deux raisons convergentes : la nouveauté et l’échelle. Dans de nombreux cas, l’infrastructure d’IA est plus récente que les cadres de sécurité conçus pour la défendre. Les modèles interagissent avec des sources de données externes, des outils et des API d’une manière qui introduit des surfaces d’attaque sans précédents clairs dans l’informatique traditionnelle, et les pipelines d’entraînement ingèrent des données provenant de sources qui peuvent elles-mêmes être compromises.

Dans le même temps, les agents d’IA fonctionnent en continu, exécutent des décisions de manière autonome et ont accès aux systèmes de production. Un attaquant qui compromet un agent d’IA au sein d’une organisation peut accéder à tout ce que cet agent est autorisé à toucher. Mais une attaque de compromission d’IA ne se contente pas de débloquer l’accès de l’attaquant à des secrets potentiels comme le ferait une compromission d’identifiants — elle peut aussi détourner l’IA de l’organisation pour l’aider activement à extraire, contextualiser ou corrompre les informations les plus précieuses, voire à dissimuler ses actions pour le compte des attaquants. Elle opère plus vite et plus continûment qu’un attaquant humain utilisant un rançongiciel, et la compromission peut ne pas être journalisée ni auditée de manière exhaustive comme l’est généralement un accès par identifiants. Les acteurs de la menace déploient déjà l’IA pour mener des intrusions : plusieurs agents coordonnés peuvent analyser des environnements, identifier des points faibles et exécuter des attaques avec une direction humaine minimale, en s’adaptant lorsque les vecteurs initiaux sont bloqués. Mais la compromission silencieuse de l’IA propre à une organisation par des attaquants représente une nouvelle menace à l’horizon, combinant les pires attributs des attaques internes avec les impacts destructeurs associés à une longue durée de présence d’attaquants externes.

Pourquoi les données d’entraînement et les modèles d’IA sont des cibles à forte valeur

Un modèle entraîné n’est pas seulement un logiciel — c’est le résultat d’un processus qui a pu consommer des mois de temps de calcul, des téraoctets de données sélectionnées et un investissement d’annotation significatif. Contrairement au code applicatif, il ne peut pas être recréé rapidement à partir des sources. Cela crée un levier pour les attaquants : non seulement les données sont extrêmement précieuses, mais chiffrer ou corrompre les données d’entraînement d’un modèle place une organisation dans une situation où payer une rançon peut coûter moins cher que réentraîner.

Autre possibilité, plus pernicieuse : un attaquant capable de corrompre silencieusement un modèle pendant l’entraînement peut en altérer le comportement en production — en décalant les sorties de manière ciblée tandis que l’organisation croit que le système fonctionne toujours correctement. Les bases de données RAG qui étendent les connaissances d’un modèle déployé à l’exécution constituent un point d’entrée particulièrement accessible : elles sont mises à jour plus fréquemment que les modèles de base, connectées à des sources de données en direct et interrogées dynamiquement, ce qui signifie que corrompre l’une d’elles ne nécessite pas d’accéder aux poids du modèle — seulement d’accéder aux données auxquelles le modèle fait confiance. Bien qu’il s’agisse d’une attaque beaucoup plus subtile, l’impact dans le temps peut être très significatif si le modèle joue un rôle important dans les processus décisionnels d’une organisation, en particulier s’il continue d’être considéré comme fiable alors qu’il est sous le contrôle de l’attaquant.

Pourquoi les environnements d’IA et de ML sont particulièrement vulnérables

Les environnements d’IA nécessitent souvent, par conception, des autorisations élevées. Les pipelines d’entraînement ont besoin d’un accès en lecture à de grands jeux de données, d’un accès en écriture aux checkpoints et de droits d’exécution sur l’infrastructure de calcul, ce qui rend le principe du moindre privilège réellement plus difficile à appliquer que dans un environnement applicatif standard.

La surface d’intégration est également plus large : les systèmes d’IA se connectent à des sources de données externes, des registres de modèles, des plateformes de suivi d’expériences, des feature stores et des API d’outils, chacun constituant un point d’entrée potentiel. Les modèles et jeux de données open source introduisent un risque de chaîne d’approvisionnement — un modèle téléchargé depuis un registre public peut avoir été altéré avant d’arriver. Les dommages se propagent aussi plus loin dans les environnements d’IA : des données d’entraînement corrompues affectent chaque modèle entraîné dessus, chaque déploiement dérivé de ce modèle et chaque décision en aval influencée par ce modèle. La portée d’un point unique de corruption est bien plus grande que dans l’informatique traditionnelle, et les dégâts ne sont souvent visibles qu’une fois le modèle en production.

Menaces de rançongiciels dans les environnements d’IA et de ML

Les rançongiciels restent la menace principale pour les données d’IA. Les opérateurs de rançongiciels modernes ne se contentent plus de chiffrer les données de production — ils ciblent d’abord l’infrastructure de sauvegarde, éliminant le chemin de restauration avant que l’exigence d’extorsion ne tombe. Face aux environnements d’entraînement d’IA en particulier, le levier est considérable : le coût de réentraîner un modèle compromis signifie que, pour les plus grands modèles fondamentaux, payer une rançon peut coûter moins cher que de repartir de zéro.

Cette menace est aggravée par un sous-ensemble croissant d’attaques qui utilisent désormais l’IA comme mécanisme de livraison. Les attaquants commencent à l’utiliser pour paralléliser les intrusions initiales, automatiser l’analyse de vulnérabilités et dissimuler l’activité une fois à l’intérieur. L’IA agentique — des systèmes composés de plusieurs agents coordonnés — peut exécuter de manière autonome la reconnaissance et mener des intrusions avec une supervision humaine minimale, en prenant des décisions contextuelles et en s’adaptant lorsque les vecteurs initiaux sont bloqués. Les malwares polymorphes propulsés par l’IA réécrivent en continu leur propre code pour échapper aux défenses basées sur les signatures, certaines souches restant dormantes dans des bacs à sable de sécurité jusqu’à atteindre un système en production. CrowdStrike a signalé une hausse de 442 % du hameçonnage vocal entre la première et la seconde moitié de 2024 — un indicateur de la rapidité avec laquelle l’IA amplifie l’ampleur de l’ingénierie sociale en parallèle des intrusions techniques.

Cependant, tous les incidents liés aux données d’IA ne sont pas malveillants. En juillet 2025, un assistant IA chez Replit a mal interprété une requête pendant un gel du code et a supprimé l’intégralité de la base de données de production — des enregistrements concernant plus de 1 200 dirigeants et 1 200 entreprises. Il a ensuite tenté de dissimuler l’action et n’a pas été en mesure de récupérer les données. Aucune sauvegarde immuable n’était en place, et la perte a été définitive.3 Des agents d’IA disposant d’un accès administratif à la production ou aux systèmes de sauvegarde peuvent causer des dommages significatifs par hallucination ou mauvaise interprétation des instructions — sans aucun attaquant impliqué, et à une vitesse qu’aucun opérateur humain ne pourrait égaler.

Le rôle des sauvegardes immuables dans la protection des données d’IA

Les sauvegardes immuables sont des copies de données en écriture unique, lecture multiple (WORM) qui ne peuvent pas être modifiées, chiffrées ou supprimées — quel que soit qui ou quoi tente de le faire. Elles ne reposent pas sur la détection ou le confinement. Elles garantissent l’existence d’une version saine et restaurable des données, quelle que soit la manière dont une attaque se déroule — qu’il s’agisse d’un opérateur de rançongiciel ayant éliminé le chemin de restauration, d’une menace propulsée par l’IA ayant contourné tous les outils de détection, ou d’un agent ayant agi sur de mauvaises instructions.

Dans les environnements d’IA en particulier, où les menaces opèrent à la vitesse machine et où les agents peuvent détenir des identifiants à privilèges élevés, l’argument en faveur de l’immutabilité est plus urgent que dans l’informatique traditionnelle. Un environnement de sauvegarde qui peut être atteint, modifié ou supprimé par un environnement d’entraînement compromis n’offre aucune protection.

Empoisonnement des données et corruption silencieuse — le risque IA négligé

L’empoisonnement des données est une forme d’attaque adversariale dans laquelle des acteurs malveillants corrompent intentionnellement les données d’entraînement utilisées pour construire des modèles de machine learning. Comme les modèles d’IA reposent sur la qualité et la précision de leurs données d’entraînement, même de petites manipulations peuvent modifier significativement leur comportement. L’objectif est de dégrader les performances du modèle, d’introduire des biais ou de créer des vulnérabilités cachées pouvant être exploitées ultérieurement.

Les méthodes d’attaque spécifiques incluent :

Inversion d’étiquettes : remplacer des étiquettes correctes par des étiquettes incorrectes, provoquant des erreurs de classification.

Injection de données : ajouter des points de données fabriqués ou trompeurs afin d’orienter le comportement du modèle dans une direction spécifique.

Attaques par porte dérobée : intégrer des déclencheurs cachés qui amènent le modèle à se comporter de manière malveillante uniquement dans certaines conditions.

Attaques à étiquette propre : des modifications qui paraissent entièrement légitimes, ce qui les rend difficiles à détecter avec des outils de validation standard.

Des recherches ont montré que modifier seulement 0,1 % des données d’entraînement peut provoquer une mauvaise classification ciblée dans des contextes spécifiques, tandis que le modèle continue de fonctionner normalement dans tous les autres. Un empoisonnement survenu des semaines ou des mois avant sa découverte ne peut pas être corrigé sans revenir à un jeu de données sain et réentraîner à partir de ce point.

Comment les systèmes immuables aident

Comme les données empoisonnées peuvent passer inaperçues pendant de longues périodes, la capacité à revenir à un état sain vérifié est la seule voie de remédiation fiable. Des sauvegardes immuables des données d’entraînement, prises à chaque étape du processus d’entraînement, préservent cet état sain независимоamment du moment où l’empoisonnement est découvert. Les politiques de rétention doivent remonter suffisamment loin pour précéder toute corruption qui aurait pu passer inaperçue — et les versions conservées doivent elles-mêmes être immuables, afin que les copies historiques ne puissent pas être supprimées ou écrasées pour éliminer les preuves d’une attaque.

Ce qui doit être sauvegardé dans les projets d’IA

Les environnements d’IA couvrent une gamme de types de données plus large que l’infrastructure informatique traditionnelle. Une stratégie de sauvegarde complète doit traiter chacune des catégories suivantes :

Jeux de données d’entraînement des modèles d’IA (bruts et traités) : à la fois les données sources brutes et les versions nettoyées, étiquetées et traitées. Les données brutes assurent la traçabilité ; les données traitées contiennent le travail d’annotation. La perte de l’une ou l’autre peut imposer des mois de reprise. Des sauvegardes doivent être réalisées à chaque étape de traitement afin de permettre un retour arrière jusqu’au point immédiatement antérieur à toute contamination ou corruption.

Artefacts de modèle et points de contrôle : des instantanés incrémentaux des poids du modèle enregistrés pendant l’entraînement, servant de points de restauration si l’entraînement est interrompu ou si un modèle doit être rétabli à une version antérieure. Les artefacts finaux entraînés — poids, définitions d’architecture et fichiers de configuration — doivent également être sauvegardés et protégés contre toute altération.

Bases de données RAG et magasins de vecteurs : des bases de connaissances externes rattachées aux modèles déployés, pouvant contenir de la documentation propriétaire ou des connaissances métier encodées sous forme d’embeddings vectoriels. Les sauvegardes doivent capturer la base de données à intervalles réguliers avec un historique de versions suffisant pour revenir à un état sain.

Feature stores et métadonnées : des représentations de caractéristiques prétraitées prêtes pour le ML, ainsi que les enregistrements de lignée des données, les informations de versioning et les journaux de transformation qui fournissent la piste d’audit pour la conformité et le débogage. La perte de l’un ou l’autre peut rendre les défaillances de modèle impossibles à diagnostiquer.

Journaux d’expérimentation et données de lignée : configurations d’hyperparamètres, métriques des exécutions d’entraînement, résultats d’évaluation et enregistrements de lignée reliant les jeux de données aux versions de modèles. La perte des données de lignée peut rendre impossible de déterminer si un modèle en production a été entraîné sur des données compromises.

Pipelines MLOps et scripts d’automatisation : le code et la configuration qui orchestrent le flux de travail ML. La perte des définitions de pipeline peut rendre impossible la reproduction d’une exécution d’entraînement même lorsque les données sous-jacentes sont intactes.

Systèmes en aval manipulés par des agents d’IA : lorsque des agents d’IA disposent d’un accès opérationnel à des bases de données, des dépôts de documents ou des interfaces de gestion des sauvegardes, la couverture de sauvegarde doit s’étendre à tout ce qui se trouve dans le périmètre opérationnel de l’agent, et pas uniquement à l’infrastructure d’IA elle-même.

Sauvegarde Stratégies pour les données de projets d’IA

Si les principes standard de la sauvegarde d’entreprise s’appliquent toujours aux environnements d’IA, les enjeux sont plus élevés, les volumes de données plus importants et la surface de menace plus large. Les stratégies suivantes couvrent les décisions organisationnelles et opérationnelles relevant de l’équipe responsable de la protection des données d’IA. Les exigences relatives à la solution de stockage de sauvegarde elle-même sont abordées dans la section suivante.

Versioning complet des données et des modèles : chaque révision significative de jeu de données, chaque point de contrôle de modèle et chaque mise à jour de base de données RAG doivent être versionnés et conservés. Pour les systèmes RAG, cela inclut le versioning des index de documents, des modèles d’embeddings et des configurations de découpage (chunking). Les politiques de conservation des versions doivent remonter suffisamment loin pour précéder toute contamination des données qui aurait pu passer inaperçue pendant une période prolongée.
Sauvegardes incrémentielles pour les grands jeux de données d’IA : des sauvegardes complètes de jeux de données d’entraînement à l’échelle du pétaoctet sont impraticables à une fréquence élevée. Les approches de sauvegarde incrémentielle ne capturent que les données modifiées, réduisant les fenêtres de sauvegarde et la surcharge de stockage tout en maintenant une granularité de restauration. La compression delta et la déduplication peuvent réduire significativement les besoins de stockage.
Suivi automatisé de la lignée des données : le suivi de lignée, maintenu dans le cadre du flux de travail MLOps, crée un enregistrement auditable de l’origine des données, des transformations appliquées et des versions de modèles entraînées dessus — permettant d’identifier précisément quand et où la corruption a été introduite.
Définition des RPO et RTO pour les charges de travail d’IA : le Recovery Point Objective (RPO) et le Recovery Time Objective (RTO) doivent être définis spécifiquement pour les charges de travail d’IA, en tenant compte des coûts de réentraînement. Une base de données RAG au service d’un système en production peut exiger un RPO bien plus court qu’un jeu de données d’entraînement hors ligne. Les objectifs de RTO doivent intégrer le temps nécessaire pour valider qu’un modèle restauré n’a pas été corrompu silencieusement avant de le remettre en production.

Choisir une solution Sauvegarde pour les données d’IA et de ML

Toutes les solutions de sauvegarde ne sont pas adaptées aux exigences spécifiques des environnements d’IA. Les capacités suivantes sont essentielles pour toute solution évaluée pour la protection des charges de travail d’IA.

Immuabilité absolue

De nombreux fournisseurs prétendent proposer un stockage sauvegarde immuable, mais ce qu’ils fournissent généralement, c’est une immutabilité basée sur des politiques — un paramètre de configuration qui peut encore être modifié, contourné ou désactivé par des administrateurs ou des attaquants disposant de privilèges élevés.

L’Immuabilité absolue est différente. Elle signifie l’accès zéro aux actions destructrices. Personne — même l’administrateur le plus privilégié ou un attaquant ayant accès au stockage de sauvegarde — ne peut modifier ou supprimer des données.

La mise en œuvre pratique de l’Immuabilité absolue exige le respect de trois principes fondamentaux :

Stockage objet S3 : une norme ouverte, entièrement documentée, avec une immutabilité native intégrée, permettant des tests d’intrusion et une vérification indépendants.

Immutabilité instantanée : les données Sauvegarde doivent être immuables dès l’instant où elles sont écrites.

Appliance de stockage cible : une appliance de stockage cible dédiée segmente de manière sécurisée le stockage du logiciel de sauvegarde et élimine les risques associés à un stockage de sauvegarde auto-géré en mode bricolage pendant l’exploitation — en particulier lors de l’installation, des mises à jour et de la maintenance. Elle requiert peu ou pas d’expertise en sécurité côté client et transfère l’entière responsabilité au fournisseur.

Les affirmations d’immutabilité ne suffisent pas : tous les piliers de l’Immuabilité absolue doivent être vérifiés de manière indépendante via des tests de sécurité réalisés par des tiers.

Pour les environnements d’IA en particulier, l’Immuabilité absolue est indispensable. Les agents d’IA peuvent détenir des identifiants à privilèges élevés leur donnant accès à des données sensibles. En cas de compromission, la contamination des données qui en résulte peut passer inaperçue pendant des mois. Une solution qui propose l’immutabilité de nom mais pas en pratique échouera précisément lorsque les enjeux sont les plus élevés.

Évolutivité et performances

Le stockage Sauvegarde pour les charges de travail d’IA doit évoluer pour suivre les volumes de données sans devenir un goulot d’étranglement pour la sauvegarde ou la restauration. Le stockage d'objets natif S3 fournit une base architecturale avec laquelle les outils d’IA s’intègrent facilement, en gérant une ingestion à haut débit pendant la sauvegarde et une restauration rapide quand cela compte le plus. À mesure que les charges de travail d’IA augmentent, cette architecture évolue avec l’entreprise sans nécessiter de réarchitecture ni de complexité supplémentaire.

Architecture Zero Trust

Le stockage Sauvegarde doit être construit sur une architecture Zero Trust : aucune confiance implicite, vérification continue et hypothèse qu’une compromission a déjà eu lieu. En pratique, cela signifie que l’infrastructure de sauvegarde fonctionne en isolation réseau, accessible uniquement via des interfaces strictement contrôlées et inatteignable depuis les environnements qu’elle protège. Un agent d’IA compromis ou dysfonctionnel ne doit disposer d’aucun chemin vers l’infrastructure de sauvegarde, quels que soient les accès dont il dispose ailleurs. « Assume Breach » n’est pas une mesure de secours — c’est le principe de conception. La résilience doit être intégrée, pas ajoutée a posteriori.

Simplicité et Sécurité par défaut

La complexité des outils de sécurité est en soi un risque. Une solution qui exige une expertise Linux approfondie, une configuration manuelle continue ou des connaissances spécialisées en sécurité pour fonctionner correctement introduira, avec le temps, des incohérences et des erreurs. La bonne solution de stockage de sauvegarde doit être sécurisée par défaut dès son déploiement — suffisamment simple pour que la protection soit automatique et immuable dès le premier jour, sans dépendre de l’expertise de la personne qui l’administre à un instant donné. Une sécurité testée et vérifiée par des tiers apporte l’assurance que la protection tient indépendamment des affirmations du fournisseur.

Pourquoi Object First ?

Des volumes de données plus élevés, des exigences de conservation plus longues et une surface d’attaque élargie — incluant tout, des modèles aux pipelines et aux agents — imposent des stratégies qui prennent en compte la manière dont la corruption se propage, combien de temps elle peut rester indétectée et combien une restauration peut coûter — ainsi qu’un stockage de sauvegarde garantissant que les données restent absolument immuables tout au long de leur cycle de vie.

Quand — et non si — un rançongiciel frappe, l’avenir de votre entreprise est en jeu. À cet instant, la restauration est primordiale — redémarrer le plus vite possible, sans complexité inutile.

Nous simplifions la cyber-résilience avec un stockage de sauvegarde absolument immuable et conçu spécifiquement pour Veeam. C’est votre défense ultime contre les rançongiciels.

Object First s’appuie sur les meilleures pratiques Zero Trust et est testé et vérifié par des tiers pour garantir sa sécurité. Il est simple à déployer et à administrer, sans expertise en sécurité requise, et suffisamment puissant pour des sauvegardes ultra-rapides et une restauration instantanée suralimentée, afin d’évoluer avec votre entreprise.

Quand le stockage de sauvegarde est à ce point sécurisé, simple et puissant, vous et votre organisation êtes Simply Resilient.