Daten-Governance nach Art. 10: Trainingsdaten richtig managen
Art. 10 verlangt für Hochrisiko-KI, dass Trainings-, Validierungs- und Testdaten relevant, hinreichend repräsentativ, möglichst fehlerfrei und vollständig sind. Provider müssen Datenherkunft und -aufbereitung dokumentieren, mögliche Bias untersuchen und Lücken adressieren. Für die Bias-Erkennung erlaubt Art. 10(5) ausnahmsweise die Verarbeitung besonderer Datenkategorien, soweit unbedingt erforderlich. Schlechte Daten sind die häufigste Ursache diskriminierender KI.
Daten als Wurzel von Qualität und Diskriminierung
Die meisten Probleme von Hochrisiko-KI — Diskriminierung, Fehlklassifikation, mangelnde Robustheit — wurzeln in den Daten. Art. 10 zieht daraus die Konsequenz und stellt strenge Anforderungen an die Daten-Governance. Behörden schauen erfahrungsgemäß genau auf diesen Teil der technischen Dokumentation.
Die Kernanforderungen
Für Hochrisiko-Systeme, die mit Daten trainiert werden, müssen Trainings-, Validierungs- und Testdatensätze geeigneten Daten-Governance- und Managementpraktiken unterliegen. Die Datensätze müssen:
- relevant, hinreichend repräsentativ und im Hinblick auf den Verwendungszweck so weit wie möglich fehlerfrei und vollständig sein;
- die geeigneten statistischen Eigenschaften aufweisen, auch in Bezug auf die Personengruppen, bei denen das System eingesetzt werden soll;
- die spezifischen geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Besonderheiten des Einsatzumfelds berücksichtigen.
Was die Governance dokumentieren muss
Die Praktiken müssen unter anderem umfassen: Designentscheidungen zu den Daten, Datenerhebung und Herkunft, Aufbereitung (Annotation, Bereinigung, Aggregation), Annahmen über die Daten, Bewertung der Verfügbarkeit und Eignung sowie die Untersuchung auf mögliche Bias, die Gesundheit, Sicherheit oder Grundrechte beeinträchtigen oder zu Diskriminierung führen könnten — und Maßnahmen zu deren Behebung.
Die Bias-Ausnahme: Art. 10(5)
Ein bemerkenswerter Punkt: Um Bias überhaupt erkennen und korrigieren zu können, erlaubt Art. 10(5) ausnahmsweise die Verarbeitung besonderer Kategorien personenbezogener Daten (z. B. ethnische Herkunft) — aber nur, soweit dies unbedingt erforderlich ist und unter strengen Schutzvorkehrungen. Der Digital Omnibus hält ausdrücklich am strengen Maßstab "unbedingt erforderlich" fest, statt ihn zur bloßen "Erforderlichkeit" aufzuweichen. Diese Brücke zur DSGVO ist eng und gut zu dokumentieren.
Schritt für Schritt zu sauberer Daten-Governance
1. Datenherkunft erfassen: Woher stammen die Daten, wie wurden sie erhoben, welche Rechte bestehen? 2. Repräsentativität prüfen: Decken die Daten die Zielpopulation und das Einsatzumfeld ab? Wo sind Lücken? 3. Aufbereitung dokumentieren: Annotation, Bereinigung, Umgang mit fehlenden Werten — nachvollziehbar festhalten. 4. Bias untersuchen: Systematisch auf Verzerrungen entlang geschützter Merkmale testen; Befunde und Gegenmaßnahmen dokumentieren. 5. Validierung und Test trennen: Saubere Trennung der Datensätze, um Overfitting und Scheinleistung zu vermeiden. 6. Aktuell halten: Bei Datendrift oder neuen Einsatzkontexten nachsteuern.
Verhältnis zur DSGVO
Daten-Governance nach Art. 10 und Datenschutz nach DSGVO greifen ineinander, sind aber nicht identisch. Art. 10 zielt auf Datenqualität und Diskriminierungsfreiheit, die DSGVO auf Rechtmäßigkeit und Schutz der Verarbeitung. Wer personenbezogene Trainingsdaten nutzt, muss beides erfüllen — Rechtsgrundlage und Qualitätsanforderung.
Fazit
Art. 10 ist die Vorschrift, die KI fair und verlässlich machen soll. Gute Daten-Governance ist aufwändig, aber sie ist zugleich die wirksamste Prävention gegen diskriminierende oder fehleranfällige KI — und damit gegen Haftung und Reputationsschäden. Wer hier sauber arbeitet, baut nicht nur compliant, sondern besser.
Häufig gestellte Fragen
Welche Datenqualität verlangt Art. 10?+
Trainings-, Validierungs- und Testdaten müssen relevant, hinreichend repräsentativ und im Hinblick auf den Zweck so weit wie möglich fehlerfrei und vollständig sein, geeignete statistische Eigenschaften aufweisen und die Besonderheiten des Einsatzumfelds berücksichtigen.
Darf ich sensible Daten zur Bias-Prüfung verarbeiten?+
Ja, ausnahmsweise. Art. 10(5) erlaubt die Verarbeitung besonderer Datenkategorien zur Bias-Erkennung und -Korrektur, aber nur soweit unbedingt erforderlich und unter strengen Schutzvorkehrungen. Der Digital Omnibus hält am strengen Maßstab "unbedingt erforderlich" fest.
Was muss ich zu den Daten dokumentieren?+
Datenherkunft und -erhebung, Aufbereitung (Annotation, Bereinigung), Annahmen, Repräsentativitäts- und Eignungsbewertung sowie die Untersuchung auf mögliche Bias und die Gegenmaßnahmen. Dieser Teil der technischen Dokumentation wird von Behörden besonders geprüft.
Ersetzt Art. 10 die DSGVO bei Trainingsdaten?+
Nein. Art. 10 zielt auf Datenqualität und Diskriminierungsfreiheit, die DSGVO auf Rechtmäßigkeit und Schutz der Verarbeitung. Wer personenbezogene Trainingsdaten nutzt, muss beide Anforderungen erfüllen.
Direkt prüfen — kostenlos
Prüfe in 5 Minuten ob deine KI-Systeme unter den EU AI Act fallen — mit sofortigem Ergebnis.
Kostenloser EU AI Act Check →Dieser Artikel basiert auf der Verordnung (EU) 2024/1689 (EUR-Lex Originaltext) und EU-AI-Office-Guidelines. Wird monatlich aktualisiert. Hinweis: Technische Orientierung — kein Ersatz für Rechtsberatung.
Zuletzt aktualisiert: Juni 2026