Neu

Schutz von Backups vor Datenvergiftung

5 Minuten
Technisch
Sophia Barnett FotoSB
Sophia Barnett

Technical Marketing Writer


Da KI zunehmend in kritische Systeme eingebettet wird, untergräbt eine neue Bedrohung still und leise ihre Zuverlässigkeit: Datenvergiftung. Im Gegensatz zu klassischen Cyberangriffen, die Systeme direkt ins Visier nehmen, greift Datenvergiftung das Fundament von KI an – ihre Trainingsdaten.

Diese FAQ erläutert, was Datenvergiftung ist, wie sie funktioniert und warum sie für Organisationen, die auf KI und maschinelles Lernen setzen, zu einem wachsenden Risiko wird.

Was ist Datenvergiftung?

Datenvergiftung ist eine Form eines adversarialen Angriffs, bei dem böswillige Akteure die Trainingsdaten, mit denen KI- und Machine-Learning-Modelle erstellt werden, gezielt manipulieren. Diese Modelle sind auf saubere, präzise Daten angewiesen, um korrekt zu funktionieren. Schon kleine Veränderungen können Fehler, Verzerrungen oder versteckte Schwachstellen einschleusen. Ziel der Datenvergiftung ist es, die Modellleistung zu verschlechtern, Bias zu erzeugen oder verdeckte Verwundbarkeiten zu schaffen, die später ausgenutzt werden können.

Besonders gefährlich ist das in Umgebungen mit hohen Risiken wie Gesundheitswesen, Finanzsektor und Systemen des öffentlichen Sektors, in denen KI-Entscheidungen reale Konsequenzen haben.

Was sind gängige Angriffsvektoren für Datenvergiftung?

Angreifer nutzen mehrere Techniken, um Daten zu vergiften:

  • Label-Flipping: Korrekte Labels werden in falsche geändert, was zu Fehlklassifizierungen führt.
  • Dateninjektion: Hinzufügen gefälschter oder irreführender Daten, um das Modellverhalten zu verzerren.
  • Backdoor-Angriffe: Einbetten versteckter Trigger, die unter bestimmten Bedingungen bösartiges Verhalten aktivieren.
  • Clean-Label-Angriffe: Subtile Manipulationen, die legitim wirken und daher schwer zu erkennen sind.

Diese Methoden werden häufig in großen, komplexen Datensätzen versteckt, wodurch sie für klassische Validierungswerkzeuge nahezu unsichtbar sind.

Gibt es Beispiele für Datenvergiftung aus der Praxis?

Ja. Während Wahlen in Südasien imitierten KI-generierte Audioclips politische Führungspersonen, um falsche Botschaften zu verbreiten und Verwirrung zu stiften. In einem anderen Fall führte ein von einem Large Language Model erzeugtes, frei erfundenes Gerücht über die Insolvenz eines Technologieunternehmens zu einem starken Einbruch des Aktienkurses.

Auch Regierungen haben Datenvergiftung eingesetzt, um öffentliche Narrative zu manipulieren. Indem KI-Modelle mit zensierten oder umgeschriebenen historischen Daten trainiert wurden, haben autoritäre Regime Propaganda verstärkt und Dissens unterdrückt.

Datenvergiftung ist eine unsichtbare Bedrohung mit der Fähigkeit, politische und finanzielle Sektoren aus der Ferne zum Einsturz zu bringen.

Warum ist Datenvergiftung für Backup-Datenspeicherung relevant?

Wenn Produktionsdaten vergiftet werden, ist die Integrität Ihrer Systeme kompromittiert. Sind auch Ihre Backups angreifbar, wird eine Wiederherstellung unmöglich. Deshalb sollten unveränderliche Backups, die weder verändert noch gelöscht werden können, die letzte Verteidigungslinie Ihrer Backup- und Recovery-Strategie sein.

Resilienz muss bei den Daten selbst beginnen – mit der Sicherstellung, dass saubere, unveränderliche Quellen jederzeit verfügbar sind, unabhängig davon, wie subtil oder wie gezielt der Angriff ist.

Indem Sie sicherstellen, dass Ihre Backup-Daten vor Manipulation geschützt sind, behalten Sie einen vertrauenswürdigen Wiederherstellungspunkt – selbst wenn Ihre KI-Systeme kompromittiert wurden.

Um zu erfahren, wie Sie Ihre KI-Systeme und Daten vor unsichtbarer Manipulation schützen, laden Sie das vollständige Whitepaper herunter: Wie KI die Regeln des Datenschutzes neu schreibt.