Back to all essays
    AI-Engineering-Realität

    Ein öffentliches Engineering-Experiment: Aufbau eines Open-Source-GAMP-5-Trainingsdatensatzes

    Ich veröffentliche einen ersten Korpus von 50 URS + 50 FS + 50 DS als offenen, CC-BY-SA-lizenzierten, synthetisch erzeugten GAMP-konformen Datensatz — inklusive detaillierter Beschreibungen nicht-konformer Szenarien, damit ein Modell auch aus Negativbeispielen lernt — und versuche anschließend, Qwen 3 (7B) darauf zu finetunen. Public Engineering in Echtzeit, inklusive der Misserfolge.

    Also available in English

    Viele in der Pharma-IT diskutieren derzeit das Potenzial von KI für die GxP-Dokumentation. Um diese Technologie wirksam zu nutzen, braucht es jedoch ein finegetuntes Modell, das den SDLC tatsächlich versteht und strikte SOPs befolgt, um compliance-konforme Artefakte zu erzeugen. Ein solches Modell zu finetunen setzt jedoch etwas voraus, das im öffentlichen Raum bisher nicht existiert: einen hochwertigen, GAMP-konformen Trainingskorpus.

    In den nächsten 30 Tagen führe ich genau dieses Experiment öffentlich durch.

    Heute veröffentliche ich einen ersten synthetisch erzeugten Open-Source-Datensatz auf meiner Seite und in meinem GitHub-Konto, mit:

    • 50 User Requirements Specifications (URS)
    • 50 Functional Specifications (FS)
    • 50 Design Specifications (DS)

    Pharma-Organisationen, die 2026 Hochrisiko-KI einsetzen, benötigen dringend GAMP-konforme Trainingsdaten, um ihre Pflichten zur technischen Dokumentation und Daten-Governance zu erfüllen (etwa Art. 10 und Art. 11 der EU-KI-VO). Heute gibt es dafür keinen öffentlichen Korpus, gegen den man fundiert anstarten könnte. Ich weiß das, weil ich gesucht habe.

    Zur Herkunft, vollständig transparent: Jedes Dokument in diesem Korpus ist ausschließlich synthetisch aus regulatorischen Primärquellen erzeugt (FDA-Guidance, ISPE GAMP 5, ICH, ISO 13485). Es enthält keine anonymisierten Kundendaten aus früheren Validierungsprojekten.

    In den nächsten Wochen wird das Repository um weitere Dokumenttypen aus diesem internen Bestand erweitert — darunter Validierungspläne (VP), Validierungsberichte (VR), Testpläne (TP), Testberichte (TR), Risikoanalysen (RA), IQ/OQ/PQ-Protokolle und Traceability-Matrizen.

    Doch hier ist die Kernthese dieses Experiments: Hochwertige Trainingsdaten sind nicht einfach eine Sammlung perfekter Dokumente. Nach aktueller KI-Forschung kann ein Modell Compliance nicht wirklich verstehen, wenn es ausschließlich den „Happy Path" sieht. Um die Rubrik einer menschlichen QA-Prüfung zu bestehen, muss das Modell explizit auch aus Negativbeispielen lernen.

    Deshalb deckt dieser Korpus eine breite Themenpalette ab und enthält ausführliche Schilderungen nicht-konformer Szenarien. Konkret konstruieren wir typische CSV-Befunde (Computer System Validation) und Abweichungen. Der Datensatz zeigt nicht nur den Fehler — er trainiert das Modell darauf, wie diese Fehler entdeckt werden, warum sie eine Compliance-Verletzung darstellen und wie sie behoben werden.

    Hochwertige Trainingsdaten sollten kein proprietärer Engpass sein, sondern geteilte Infrastruktur. Ich veröffentliche diesen Korpus, um eine verlässliche Grundlage bereitzustellen, sodass wir uns auf die eigentliche Engineering-Herausforderung konzentrieren können.

    Sobald der Datensatz vollständig öffentlich ist, beginnt die nächste Phase: der Versuch, ein Qwen-3-(7B)-Modell ausschließlich auf diesem regulatorischen Korpus zu finetunen.

    Ich bin von Anfang an offen: Ein LLM zuverlässig dazu zu bringen, Compliance-Anforderungen zu navigieren und die Rubrik einer menschlichen QA-Prüfung zu bestehen, ist kein triviales Wochenend-Fine-Tuning. Es wird strenge Tests, kontinuierliche Iteration und wahrscheinlich auch Rückschläge brauchen. Ich werde diesen Prozess transparent dokumentieren, während er passiert.

    Ich kenne noch nicht alle Antworten — aber ich werde die Evaluationsergebnisse teilen, sobald wir dort sind.


    Wo Sie den Korpus finden