SOOFI soll Europas KI-Lücke schließen

Im Rennen um die KI-Vormachtstellung spielt Europa aktuell oft nicht in der Top-Liga. Zugleich lechzt die Wirtschaft nach vertrauenswürdigen, offenen und leistungsstarken KI-Systemen. Ein BHT-Team arbeitet im Projekt SOOFI nun an einem solchen Modell.

Beispielcode für ein KI-basiertes großes Sprachmodell (LLM), darauf das Logo des soofi-Projektes
Bild: soofi/jamie – stock.adobe.com / Collage: BHT

Während Europa bei der Regulierung Künstlicher Intelligenz Maßstäbe setzt, entstehen die leistungsfähigsten Modelle bislang vor allem in den USA und China. Tech-Konzerne wie Alphabet, OpenAI oder Alibaba und Baidu investieren Milliarden. Mit ihren geschlossenen großen Sprachmodellen (Large Language Models, kurz: LLM) teilen sie den Markt unter sich auf.

Auch Large-Reasoning-Modelle (LRM), die durch strukturiertes Vorgehen komplexe Aufgaben lösen können, stammen kaum aus europäischer Entwicklung. Entsprechend groß ist auf dem Kontinent der Bedarf an vertrauenswürdigen, leistungsstarken und wirtschaftlich einsetzbaren KI-Lösungen.

Offenes KI-System für Datenhoheit und Transparenz

Im Forschungsprojekt SOOFI (Sovereign Open Source Foundation Models) entwickelt ein Konsortium aus Deutschland, darunter die Berliner Hochschule für Technik (BHT), ein offenes KI-System, das Datenhoheit und Transparenz bieten soll. So werden die Quellen der Trainingsdaten nachvollziehbar und öffentlich zugänglich sein. Zugleich soll sich das Modell für verschiedene Branchen, etwa das Gesundheitswesen, anpassen lassen.

SOOFI, das vom Bundesministerium für Wirtschaft und Energie gefördert wird, besteht aus zwei Komponenten: Neben der Entwicklung eines Basis-LLMs soll auch ein LRM entstehen. Für Letzteres ist ein BHT-Team aus dem Forschungsverbund Data Science +X zuständig.

Von Allgemein- zu Spezialwissen

Die Entwicklung eines Large Language Models beginnt mit den Trainingsdaten. Anhand dieser lernt das Sprachmodell, welche Wörter sehr wahrscheinlich aufeinanderfolgen.

Im sogenannten Pretraining erhält das Modell zunächst Allgemeinwissen als Grundlage. Im darauffolgenden Finetuning wird es Schritt für Schritt mit einfachen Instruktionen trainiert.

„Oft geht es darum, einfache Aufgaben zu erledigen, etwa einen Text zu lesen oder zusammenzufassen, wobei wir das Resultat anschließend überprüfen“, sagt Prof. Dr. Alexander Löser, der im Teilprojekt am Fachbereich VI gemeinsam mit Prof. Dr. Felix Gers, Tom Röhr und Sebastian von Rohrscheidt arbeitet.

Im nächsten Entwicklungsschritt, dem Post-Training, lernt das Modell, wie es bestimmte Aufgaben bearbeiten kann. Innerhalb dessen soll es über logisches Schlussfolgern (Reasoning) auch anspruchsvolle, mehrgliedrige Aufgaben bearbeiten können.

In SOOFI stehen für die BHT vor allem Anwendungsfälle aus der Medizin im Fokus. „Die Trainingsdaten bestehen aus Antworten auf Anweisungen, die wir selbst erzeugen oder die aus öffentlich zugänglichen Quellen stammen“, erklärt Löser.

Lernen mit Belohnungen

Im Anschluss folgt das Reinforcement Learning with Verified Rewards (RLVR). Dabei wird das Modell belohnt, wenn es Aufgaben korrekt löst. In diesem Verfahren verarbeitet das System mehrschrittige Instruktionen.

Dieser Ansatz ist zum Beispiel in der Medizin wichtig, wenn die KI bei Diagnosen eigenständig unterstützen soll. Dazu recherchiert das Modell, liest Texte, prüft Informationen, gleicht Erkenntnisse ab und erstellt schließlich Diagnosen. Die dafür notwendigen Quellen stammen aus Gesprächen zwischen medizinischem Personal und Patient*innen sowie aus Fachliteratur.

Beim Training überprüfen Ärzt*innen die Ergebnisse der KI und spiegeln dem Modell ihre Einschätzung. Auf diese Weise lernt das System den richtigen Verarbeitungspfad und kann ihn bei zukünftigen Aufgaben abrufen.

Herausforderung: Übersetzung und Kontext-Speicher

Eine Herausforderung bei der Entwicklung des LRMs in SOOFI sieht das BHT-Team in der Nutzung der deutschen Sprache. „Direkte Übersetzungen sind nicht immer möglich. Und selbst wenn das Modell auf Deutsch antwortet, bezieht es sich häufig auf die englische Sprache“, schildert der Professor.

Ein weiteres Problem bestehe darin, leistungsfähige Kontextspeicher zu entwickeln. Diese sollen es KI-Systemen ermöglichen, eigenständig länger (Minuten und Stunden) laufende, komplexe Unteraufgaben einer Gesamtaufgabe zu lösen und sich dabei gegenseitig zu kontrollieren.

Insgesamt markiere das auf ein Jahr angelegte Forschungsprojekt SOOFI den Auftakt einer größeren Entwicklung in der KI-Branche, sagt Alexander Löser. Die gewonnenen Erkenntnisse sollen deshalb in Folgeprojekte für das Programm IPCEI-AI des BMWE einfließen.

Das Forschungsprojekt SOOFI

Zurück