Wie unsere Engine funktioniert
Transparenz ist Compliance. Hier erklären wir präzise wie ai-risk-check dein KI-System klassifiziert, welche Regeln angewendet werden und wie wir unsere Zuverlässigkeit verifizieren.
Warum wir Transparenz über die Engine-Architektur publizieren
Compliance-Tools sind in der Regel Black Boxes. Du gibst Antworten ein, bekommst ein Ergebnis, und musst darauf vertrauen dass die Rechts-Logik korrekt ist. Das ist für Compliance-Entscheidungen nicht gut genug — deshalb legen wir offen welche Regeln in welcher Reihenfolge greifen.
Wenn du oder dein Anwalt eine Engine-Entscheidung anzweifelt, kannst du den Reasoning-Trail jeder Klassifizierung nachvollziehen. Jede Regel hat Artikel-Referenzen. Jede Pflicht ist versionsverankert. Das ist die Grundlage auf der Compliance-Vertrauen entsteht.
Die 6-stufige Klassifikations-Pipeline
Jedes Assessment läuft durch diese Stages — in genau dieser Reihenfolge. Jeder Stage kann die Klassifizierung eskalieren, deeskalieren oder präzisieren. Die Reihenfolge spiegelt die hierarchische Struktur des AI Act wider.
Preflight Validator
30+ Konsistenz-Checks laufen BEVOR die Klassifikation startet. Definitional unmögliche Antwort-Kombinationen werden als hard_error blockiert, unplausible Kombinationen als soft_warning markiert. Beispiel: "Biometrische Identifikation ohne biometrische Daten" wird hier gefangen.
Eigenentwicklung nach Kommissions-Guidelines
Art. 2 Ausschlüsse
Prüfung ob das System überhaupt unter den AI Act fällt. Militärische Nutzung, nicht-berufliche Personalnutzung, R&D vor Markteintritt, öffentliche Behörden in internationaler Kooperation — diese sind von Anfang an out-of-scope.
Art. 2 Abs. 1-12 EU AI Act
Art. 5 verbotene Praktiken
Prüfung der 8 prohibited practices mit allen Qualifikations-Kaskaden. Subliminale Manipulation, Ausnutzung von Vulnerabilitäten, Social Scoring, Predictive Policing, ungezieltes Scraping, Emotionserkennung am Arbeitsplatz, Biometric Categorization, Echtzeit-Fernidentifikation.
Art. 5 Abs. 1 lit. a-h EU AI Act
Annex I & III Pfad-Routing
Ist das System eine Sicherheitskomponente unter bestehender Produktregulierung (MDR, Type-Approval, Aufzugsrichtlinie)? Falls ja: Annex I Pfad. Andernfalls: Prüfung der 18 Annex III Sub-Items. Annex I hat Priorität wenn beide greifen.
Art. 6 Abs. 1-2 + Annex I, III
Art. 6(3) Ausnahme-Prüfung
Die vier Ausnahmen (narrow purpose, improves human work, detects patterns only, preparatory task) werden geprüft. Profiling-Bar blockiert alle Ausnahmen. Downgrade von high_risk auf limited ist möglich.
Art. 6 Abs. 3 EU AI Act
Rollen-Bestimmung + GPAI-Overlay
Provider vs. Deployer vs. Importer vs. Distributor nach Art. 25. Bei GPAI-Nutzung wird Art. 50/53 overlay auf das Ergebnis gelegt. Bei systemic risk (≥10^25 FLOPs) kommt Art. 55 dazu.
Art. 3(3)+(4), 25, 50, 53, 55
Pflichten-Generierung + Reasoning Trail
Auf Basis der Klassifizierung werden die konkret anwendbaren Pflichten aus einem Katalog von 53 kodifizierten Obligations gezogen. Jede Pflicht hat Artikel-Referenz, Deadline und Rolle-Zuordnung. Der Reasoning Trail dokumentiert jeden Schritt.
Art. 16-28, 50-55 + Pflichtenkatalog
Unsere Test-Coverage: 332 automatisierte Tests
Die Engine wird kontinuierlich gegen 5 Test-Suiten validiert. Jede Änderung am Regel-Code läuft durch alle Suiten. 100% Pass-Rate ist Voraussetzung für jeden Release.
| Test-Suite | Anzahl | Was wird geprüft |
|---|---|---|
| Original Golden Set | 19 | Grundlegende Regel-Pfade mit klaren Erwartungen |
| Extended Golden Set | 73 | Systematische Coverage aller 18 Annex III Sub-Items + 9 Art. 5 Praktiken + 4 Art. 6(3) Exemptions + Scope-Exclusions |
| Persona Library | 100 | Realistische End-to-End-Szenarien aus 40 DACH-Industrien (Finanz, Gesundheit, Verwaltung, Bildung, Industrie, etc.) |
| Adversarial Suite | 60 | Bypass-Angriffe in 10 Kategorien (Exemption, Role, GPAI, Prohibited, Swiss, Temporal, Research, OSS, Obfuscation) |
| Cross-Product Matrix | 80 | Systematische Dimensions-Kombinationen (Role × Region × GPAI × Temporal × Exemption) |
| GESAMT | 332 | 100% Pass-Rate als Release-Kriterium |
Zwei Konfidenz-Dimensionen
Ein einzelner Prozent-Wert für "wie sicher ist die Engine" ist nicht ehrlich. Wir trennen zwei unterschiedliche Dimensionen:
Confidence Score
"Wie sicher ist die Engine bei deinen Antworten?"
Misst wie eindeutig die Regel-Kaskade die Klassifizierung herleitet. Hoch wenn alle Qualifier eindeutig 'yes' oder 'no' sind, niedrig bei mehreren 'unsure'-Antworten oder Grenzfällen. Dreistufige Bänder: high / medium / low.
Plausibility Score
"Wie konsistent sind deine Antworten intern?"
Misst ob die Input-Kombination in sich widerspruchsfrei ist. Wird aus Preflight-Findings berechnet. Ein HR-Bot der sich als Medical Emotion Recognition ausgibt hat hohe Confidence aber niedrige Plausibility — die Engine klassifiziert, was du sagst, aber was du sagst ergibt keinen Sinn.
Die Kombination der beiden Scores ist die ehrliche Antwort auf "kann ich diesem Ergebnis vertrauen?"
Preflight Validator + AI Co-Pilot
Zwei Schutz-Ebenen gegen Fehl-Klassifizierungen durch inkonsistente Inputs:
Preflight Validator (30+ Checks)
Läuft VOR jeder Klassifizierung. Drei Severity-Stufen:
- Hard Errors: Definitional unmögliche Kombinationen (z.B. "HR-System ohne Personen-Daten"). Blockiert die Klassifizierung bis explizit durchgewinkt.
- Soft Warnings: Unplausible Kombinationen (z.B. "alle 4 Art. 6(3) Exemptions gleichzeitig"). Führt zu Konfidenz-Penalty.
- Info Notes: Hinweise ohne Impact (z.B. CH-spezifische Anmerkungen).
AI Co-Pilot (35+ Heuristische Patterns)
Läuft NACH jeder Klassifizierung. Prüft das Ergebnis gegen Plausibilitäts-Patterns:
- • Name-vs-Use-Case-Mismatches ("HR Bot" mit biometric_emotion Use-Case)
- • Autonomie-Widersprüche (automatisiert + beratend gleichzeitig)
- • Profiling-Use-Case-Missachtung (HR/Credit ohne profiling gemeldet)
- • GPAI-Hiding (System-Name "GPT" aber gpai_model=none)
- • Sektorale Hinweise (Credit-Scoring + FINMA/EBA Relevanz)
- • Art. 6(3) Ausnahme bei hoch-sensiblen Annex-III-Kategorien
40 DACH-Industrien end-to-end validiert
Jede dieser Industrien ist mit mindestens einer realen Business-Persona gegen die Engine getestet. Das bedeutet: wenn dein System in einer dieser Kategorien fällt, hat ein vergleichbares Szenario bereits die volle Klassifizierungs-Kette durchlaufen und korrekte Pflichten erzeugt.
Versionierung & Reproduzierbarkeit
Jedes Assessment-Ergebnis ist versioniert. Die Engine-Version und das Rule-Set-Datum werden mit jedem Assessment gespeichert. Auch in zwei Jahren kannst du nachvollziehen nach welchem Rechtsstand und welcher Engine-Logik ein Assessment durchgeführt wurde.
Versions-Semantik: v<major>.<minor>.<patch>. Patch-Bumps bei Bugfixes. Minor-Bumps wenn neue Kommissions-Guidelines integriert werden. Major-Bumps nur bei architekturellen Änderungen (etwa neue Risiko-Kategorie).
Was wir NICHT sind
Transparenz bedeutet auch ehrlich zu sein was wir nicht leisten können:
- •Kein Anwalts-Ersatz. Die Engine kodifiziert Best-Practice-Auslegung des AI Act. Für verbindliche Rechts-Beurteilung — insbesondere bei Grenzfällen — ist eine qualifizierte Kanzlei notwendig. Wir unterstützen Anwälte, wir ersetzen sie nicht.
- •Keine Vorhersage von CJEU-Rechtsprechung. Der AI Act hat strukturelle Ambiguitäten (z.B. Art. 25 "wesentliche Modifikation", Art. 5(1)(c) "detrimental treatment") die noch keine Rechtsprechung haben. Die Engine wendet die wahrscheinlichste Auslegung an, aber Einzelfälle können abweichen.
- •Keine Behörden-Zertifizierung. Wir sind keine benannte Stelle nach Art. 43. Wenn dein System eine Notified-Body-Konformitätsbewertung benötigt, zeigen wir dir dass sie nötig ist — aber wir führen sie nicht durch.
Primärquellen die wir kodifizieren
- • EU AI Act — Regulation (EU) 2024/1689 (vollständig, 113 Artikel + 13 Annexe)
- • Erwägungsgründe — 180 Recitals mit Auslegungshilfen
- • Kommissions-Guidelines — laufend integriert sobald publiziert
- • DSGVO — Art. 22 (automatisierte Einzelfall-Entscheidung), Art. 9 (besondere Daten), Art. 8 (Kinder)
- • Schweizer nDSG — Art. 21 (automatisierte Einzelfall), EDÖB-Merkblätter
- • Sektorale Regelungen — MDR (Medical Devices), Type-Approval (Fahrzeuge), Aufzugsrichtlinie, FINMA-Rundschreiben, DORA
Jetzt kostenlos testen
Das kostenlose Assessment dauert 5 Minuten und liefert dir eine vollständig begründete Klassifizierung inklusive Reasoning-Trail, Pflichten-Liste und FRIA-Check.
Assessment starten