Der OpenEDC Assistent

Der OpenEDC Assistent ist ein datenschutzorientiertes KI-Unterstützungssystem, bei dem jeder Vorschlag durch einen Menschen geprüft und akzeptiert werden muss.

Leonard Greulich

Leonard Greulich

Co-Founder / CEO

Menschliche Aufsicht und Datenschutz

1. Eigenschaften einer medizinischen KI-Assistenz

Medizinische Forschung – und ganz besonders klinische Studien – sind hochsensible und stark regulierte Bereiche, in denen jede Bearbeitung von Daten höchste Vorsicht bedarf. So schreibt die Good Clinical Practice (GCP) zum Beispiel vor, dass Computersysteme für die Verwendung in einer Studie validiert werden. Zusätzlich muss ein Audit Trail existieren, der jede Änderung protokolliert und somit nachvollziehbar macht.

Aus einer ganz anderen Perspektive bieten KI-Systeme heutzutage ein enormes Potenzial, repetitive Prozesse effizienter zu gestalten und das Risiko von menschlichen Fehlern zu reduzieren. Jeder, der einmal ChatGPT oder Gemini verwendet hat, weiß um die beeindruckenden Fähigkeiten dieser scheinbar allwissenden Technologie.

Dennoch besitzen KI-Systeme einige Eigenschaften, die ihre Nutzung in klinischen Studien auf den ersten Blick unmöglich erscheinen lassen. Zum Beispiel halluzinieren sie regelmäßig und erfinden Antworten, die zwar plausibel klingen, aber nicht der Wahrheit entsprechen. Außerdem wandern potenziell hochsensible Daten häufig zu internationalen Cloud-Anbietern und werden dort auf intransparente Weise verarbeitet und gespeichert.

Wir bei OpenEDC Health haben ein medizinisches KI-Assistenzsystem entwickelt, welches die Vorteile von KI der medizinischen Forschung zugänglich macht und dabei den Risiken bestmöglich entgegenwirkt – nachprüfbar, transparent und europäisch.

1.1. Menschliche Aufsicht

Obwohl man Halluzinationen der sogenannten Large Language Models (LLMs) vermutlich nie komplett verhindern kann, ist es möglich, menschliche Kontrollmechanismen zu integrieren. In OpenEDC kann der KI-Assistent niemals eigenständig Änderungen an Formularen oder klinischen Daten vornehmen. Stattdessen macht er Vorschläge, die von Menschen geprüft und akzeptiert werden müssen, um den Weg in die Datenbank zu finden.

Diesen manuellen Kontrollmechanismus gestalten wir so einfach wie möglich, indem das System den aktuellen Stand der Datenbank dem neuen Vorschlag visuell gegenüberstellt. So sind Änderungen sofort ersichtlich und können intuitiv verglichen werden.

Wird ein Vorschlag akzeptiert, umgeht er natürlich nicht den Audit Trail – alle Anpassungen werden wie zuvor protokolliert. Somit lassen sich auch akzeptierte Änderungen zu einem späteren Zeitpunkt rückgängig machen und stets nachvollziehen. Dies stellt außerdem sicher, dass der Mensch weiterhin die Verantwortung trägt.

1.2. Datenschutzorientiert

Ein weiteres großes Problem heutiger KI-Systeme ist der intransparente Datenschutz. Informationen werden häufig zu internationalen Cloud-Anbietern übertragen und werden dort auf kaum nachvollziehbare Weise verarbeitet und gespeichert. Gerade bei hochsensiblen Patientendaten aus der medizinischen Forschung ist das sehr gefährlich und stellt für uns keine Option dar.

Stattdessen arbeiten wir mit der Telekom zusammen. Neben allen unseren Datenbanken werden somit auch die KI-Modelle in deutschen Rechenzentren von einem mehrfach zertifizierten deutschen Anbieter betrieben. Selbstverständlich werden Daten niemals protokolliert, gespeichert oder zum Training verwendet.

Zusätzlich bieten wir die Möglichkeit an, lokale KI-Modelle auf dem eigenen Computer zu integrieren. So können beispielsweise strukturierte, pseudonymisierte Informationen aus Arztbriefen extrahiert werden, ohne dass die Quelldaten den aktuellen Computer oder das Netzwerk verlassen. Ebenfalls ist es möglich, dass Kliniken und Unternehmen eigene, gegebenenfalls spezialisierte LLMs verwenden.

Formulare erstellen, Daten extrahieren, Dokumente lektorieren

2. Die Fähigkeiten des OpenEDC Assistenten

Selbst wenn ein KI-System nachvollziehbar und sicher ist, muss es außerdem hilfreich sein, um Anwendung zu finden. Ein KI-Assistent ist kein Selbstzweck (wie man häufig annehmen könnte), sondern bietet nur einen Mehrwert, wenn er repetitive und zeitintensive Prozesse effizienter gestaltet oder die Datenqualität erhöht.

Derzeit konzentrieren wir uns auf drei Anwendungsfälle, die wir nachfolgend kurz vorstellen möchten. Für die ersten beiden Anwendungsfälle haben wir Videos erstellt, wovon das erste Video zu Beginn des Artikels verlinkt wurde und das zweite Video unten folgt.

2.1. Formulare erstellen und bearbeiten

Es gibt sehr viele Electronic Data Capture (EDC) Systeme und jedes funktioniert anders. Wir haben gelernt, dass ein großer Schmerzpunkt die Erstellung von hochwertigen elektronischen Case Report Forms (eCRFs) beziehungsweise Formularen ist. Unseren Formulareditor haben wir daher um KI-Funktionalitäten erweitert, um die repetitive Erstellung und Bearbeitung von Formularen zu vereinfachen.

Nachfolgend stellen wir kurz vier typische Anwendungsfälle vor.

2.1.1. Formulare erstellen

Einer der primären Anwendungsfälle, wie er auch im Video oben vorgestellt wurde, ist das Erstellen von neuen eCRFs. Durch multimodale Eigenschaften des OpenEDC Assistenten können sogar PDFs oder eingescannte Dokumente direkt in digitale Formulare im CDISC-ODM-Standard konvertiert werden. Dies kann die Überführung von selbsterstellten oder standardisierten Formularen vereinfachen und Zeit sparen. Jeder Entwurf vom Assistenten kann nach der Übertragung vollständig angepasst und erweitert werden.

2.1.2. Formulare erweitern

Auch die Erweiterung von bestehenden eCRFs kann mithilfe des Assistenten vereinfacht werden. Soll beispielsweise ein neuer Abschnitt hinzugefügt werden, reicht es, die Felder kurz und knapp per natürlicher Sprache zu beschreiben und der Assistent erstellt dann einen ersten Entwurf des neuen Abschnitts.

2.1.3. Variablennamen vergeben

Jeder, der schon einmal umfangreiche eCRFs für klinische Studien erstellt hat, weiß, wie repetitiv die Vergabe von Variablennamen sein kann. Häufig werden dabei anhand vorher definierter Muster kurze Namen wie zum Beispiel “body_height” für das Feld Körpergröße vergeben. Auch hier kann der OpenEDC Assistent sehr helfen: Das gesamte Formular kann zunächst schnell und einfach ohne Variablennamen erstellt werden. Danach überträgt man die Aufgabe für die Erstellung der Variablennamen dem Assistenten, der das gesamte Formular auf einmal bearbeiten kann und sich dabei an vorgegebene Muster hält.

2.1.4. Übersetzungen hinzufügen

Ebenfalls im Video oben gezeigt ist die Erstellung von Übersetzungen eines Formulars in weitere Sprachen. Hier bietet der Assistent native Unterstützung, um ein bestehendes Formular in wenigen Sekunden in eine weitere Sprache zu übersetzen. Das übersetzte Formular kann selbstverständlich danach bearbeitet werden, um kleine Korrekturen oder präferierte Terminologien einzuarbeiten.

2.2. Klinische Daten aus unstrukturierten Eingaben extrahieren

Historisch gesehen ist die Übertragung von un- oder semi-strukturierten Daten in eine Datenbank einer der Kernaufgaben von EDC Systemen. Quelldaten wie Laborberichte oder händisch ausgefüllte Formulare wurden so digitalisiert, strukturiert gespeichert und anschließend statistisch ausgewertet. Heutzutage werden Daten zunehmend digital erhoben, wobei die manuelle Übertragung immer noch weit verbreitet ist.

Durch den OpenEDC Assistenten können solche Aufgaben beschleunigt werden. PDFs, eingescannte Dokumente oder Freitexte können importiert und automatisch strukturiert werden. Dabei muss ein Mensch weiterhin alle extrahierten Daten prüfen und akzeptieren. Nachfolgend stellen wir typische Anwendungsfälle kurz vor.

2.2.1. Strukturierte Daten aus Freitext

Der einfachste Anwendungsfall ist die Extraktion von strukturierten Daten aus Freitext. Hierzu kann der vorhandene Text an den Assistenten übergeben werden, der diesen nach den gesuchten Informationen durchsucht und seine Ergebnisse dann zur Prüfung vorschlägt. Nach einer menschlichen Prüfung können diese dann übernommen und gespeichert werden.

2.2.2. Strukturierte Daten aus Dokumenten und Scans

Wie im Video gezeigt, können statt Freitext auch Dateien hinzugefügt werden. Unterstützte Dateiformate sind PDFs und Bilder. Somit können mehrseitige Dokumente oder Scans mit wenigen Klicks in strukturierte Daten überführt werden.

2.2.3. Strukturierte Daten aus gesprochener Sprache

Zukünftig wird es mit dem OpenEDC Assistenten auch möglich sein, gesprochene Sprache zu analysieren. Die Anwendungsfälle sind auch hier vielfältig: Zum Beispiel können unstrukturierte Daten vorgelesen und so extrahiert, Arztgespräche aufgezeichnet und dokumentiert, oder Visiten übersichtlich protokolliert werden.

2.3. Dokumente lektorieren und übersetzen

OpenEDC bietet viele Funktionen an, mit denen Dokumente für Einwilligungserklärungen, Studienprotokolle oder Standard Operating Procedures (SOPs) erstellt, bearbeitet, versioniert und geteilt werden können. Der Assistent kann hier dabei helfen, diese Dokumente Korrektur zu lesen, Vorschläge für verständlichere Formulierungen zu finden und sogar ganze Dokumente zu übersetzen.

Lokal oder vernetzt

Verfügbare Modelle

Wir legen größten Wert auf Datenschutz und Datensicherheit. Daher haben Sie die Auswahl, mit welchem Large Language Model (LLM) Ihre Daten verarbeitet werden sollen. Wichtig ist zudem, dass der Assistent für jede Studie von der Projektbesitzerin oder dem Projektbesitzer zunächst in den Einstellungen aktiviert werden muss, bevor er in diesem Projekt verwendet werden kann.

OpenEDC Cloud

Wir bieten allen Kunden von OpenEDC kostenlosen Zugriff auf ein Modell in der Telekom Cloud. Dieses wird somit nicht nur lokal gehostet, sondern auch von einem lokalen Anbieter betrieben. Daten werden niemals protokolliert, gespeichert oder zum Training verwendet. Dieses Modell kann unmittelbar für jedes Projekt in den Einstellungen aktiviert werden.

Eigenes Modell

Als Alternative zu unserem Modell in der Telekom Cloud können Sie auch Ihr eigenes Modell konfigurieren, wenn Sie eines haben. Dies kann zum Beispiel hilfreich sein, wenn Sie für bestimmte medizinische Domänen ein eigenes Modell trainiert haben.

Gemini Nano

Sie können ebenfalls Modelle verwenden, die vollständig offline auf Ihrem eigenen Computer ausgeführt werden. Dafür haben wir unter anderem Gemini Nano integriert, welches in Google Chrome verfügbar ist. Auch dieses Modell ist multimodal und kann somit neben Text auch PDFs und Bilder verarbeiten. Dies kann zum Beispiel sinnvoll sein, wenn Sie PDFs auslesen, auf denen identifizierende Patientendaten enthalten sind. Diese PDFs verlassen dann niemals Ihren Computer, denn gespeichert werden nur die erfolgreich extrahierten pseudonymisierten Daten.

Der Anfang ist gemacht

Ein Blick in die Zukunft

Der Anfang ist gemacht und wir haben einen erweiterbaren, multimodalen Assistenten in OpenEDC integriert – der auf geführte und sichere Art und Weise arbeitet. Drei bereits verfügbare Anwendungsfälle haben wir Ihnen oben vorgestellt.

In Zukunft werden wir uns auf weitere Fähigkeiten des Assistenten konzentrieren. Themen, die wir weiter erforschen möchten, sind unter anderem:

  • Geschriebene Fragen im Hilfsmodul: Das Hilfsmodul von OpenEDC bietet bereits viele Artikel in geschriebener Form an. Hier könnte es hilfreich sein, wenn Nutzer ihre Fragen in natürlicher Sprache stellen können und dann individuelle Antworten erhalten.
  • Automatische Queries: Der Assistent könnte im Hintergrund regelmäßig neue Daten prüfen und bei Auffälligkeiten automatisch Queries erstellen. Diese sind dann gekennzeichnet als Candidate Queries, die von einer KI erstellt wurden.
  • Sprach- bzw. Audioeingaben: Die multimodalen Fähigkeiten (Text, PDF und Bild) möchten wir zukünftig noch um gesprochene Sprache erweitern. Diesen Anwendungsfall haben wir bereits oben kurz skizziert.

Vielen Dank für das Lesen dieses langen Artikels. Wir sind sehr gespannt auf Ihre Erfahrungen. Wenn Sie Fragen haben oder unser System kostenlos ausprobieren möchten, melden Sie sich gerne jederzeit bei uns.