SOOFI

Sovereign Open Source Foundation Models

In Europa ist der Bedarf nach vertrauenswürdigen, leistungsfähigen und wirtschaftlich einsetzbaren KI-Lösungen hoch. Doch im Bereich großer Sprachmodelle (Large Language Models, kurz: LLM) dominieren derzeit außereuropäische Anbieter und deren geschlossene Systeme. Auch sogenannte Large-Reasoning-Modelle (LRM), die durch strukturiertes Vorgehen komplexe Aufgaben lösen können, sind bisher kaum aus europäischer Hand verfügbar. Im Projekt „SOOFI“ entwickelt ein großes Konsortium aus Deutschland deshalb ein offenes KI-System, das internationalen Standards entsprechen und unter vollständiger Datenhoheit, Transparenz und Offenheit operieren soll. Das bedeutet, das System ist offen, die Quellen der Trainingsdaten sind nachvollziehbar und öffentlich zugänglich. Zugleich soll das entwickelte Modell sich branchenspezifisch einsetzen und anpassen lassen, etwa für das Gesundheitswesen.

Spezialwissen für Spezialfälle

Während im ersten Teilprojekt ein leistungsfähiges Sprachmodell (LLM) entstehen soll, entwickelt das Forschungsteam der BHT im zweiten Teilprojekt ein Large-Reasoning-Model (LRM), das logisch schlussfolgern und komplexe Aufgaben lösen können soll.

Aller Anfang sind auch hier die Trainingsdaten. Mit ihrer Hilfe lernt das Sprachmodell, welche Wörter sehr wahrscheinlich aufeinanderfolgen. Im Fachjargon nennt man diesen Schritt Pretraining. Dabei erhält das Modell Allgemeinwissen als solide Basis, um weiter ausgebildet zu werden. Anschließend folgt das Instruction-Finetuning. Schritt für Schritt erhält das Modell dabei einfache Instruktionen, um sich weiter an die Anwendungsfälle anzupassen. Oft geht es dabei darum, einfache Fragen zu beantworten, wobei die Antworten von den Forschenden verifiziert werden: Also lies, suche, fasse zusammen, extrahiere etc. Im Projekt setzt das Team auf Daten und Modelle vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS Teuken sowie von Schweizer Forschenden und deren APERTUS-Modell.

Der nächste Ausbildungsschritt, das Post-Training, bereitet ein Modell für spezifische Anwendungsfälle vor, die in mehreren Schritten erledigt werden sollen: das Reasoning. Im Fall von SOOFI sind das vor allem Anwendungsfälle aus der Medizin. Die Trainingsdaten bestehen nun aus Folgen von Anweisungen, die eigens vom Forschungsteam produziert werden sowie aus öffentlich zugänglichen Quellen stammen, die das Forschungsteam, wenn nötig, ins Deutsche übersetzt.

Selbstverstärktes Lernen mit verifizierten Belohnungen

Weiter geht die Ausbildung des Modells, diesmal in Form von Reinforcement Learning with Verified Rewards (RLVR). Dies schließt an die Vorarbeiten an, ist jedoch weitaus komplexer. Das Modell soll nun mehrschrittige Instruktionen verarbeiten. Das wird beispielsweise im medizinischen Bereich wichtig, wenn das Modell bei einer Diagnose unterstützen soll. Dafür agiert es selbstständig: Es recherchiert, liest, prüft, gleicht die gewonnenen Erkenntnisse ab und schlägt mögliche Diagnosen vor. Die Quellen sind Informationen aus Arzt-Patient*innengesprächen oder medizinische Literatur. Die Ergebnisse werden im human-in-the-loop-Ansatz geprüft: Ärzt*innen schauen sich die Lösungspfade und Diagnose-Vorschläge an, bewerten die einzelnen Schritte, verifizieren die richtigen Ergebnisse und geben alles wieder an das Modell zurück. Im Reinforcement-Learning wird das Modell also belohnt, wenn es etwas richtig gemacht hat. So merkt es sich den eingeschlagenen Pfad und erinnert sich an ihn, sobald es eine neue Aufgabe bekommt.

Für die Entwicklung des LRM setzen die Forschenden neben Reinforcement-Learning auch auf das Test-Time-Compute-Verfahren. Dabei erhält das Modell mit einer gestellten Aufgabe zusätzliches Wissen. Dieses Wissen kann das Modell mit seinem schon vorhandenen Wissen verknüpfen, während es die Aufgabe löst.

Herausforderungen liegen aktuell unter anderem in der Nutzung der deutschen Sprache: Eins-zu-eins-Übersetzungen sind nicht immer möglich. Und selbst wenn das Modell auf Deutsch antwortet, bezieht es sich oft auf die englische Sprache. Fragt man dann beispielsweise danach, wie viele r in Erdbeere stecken, landet das Modell bei drei – weil es die Antwort von strawberry ableitet. Eine weitere Herausforderung besteht darin, leistungsfähige Kontextspeicher zu entwickeln. Sie würden ermöglichen, dass einzelne KI-Systeme eigenständig komplexe Unteraufgaben einer riesigen Aufgabe lösen und sich dabei gegenseitig kontrollieren können. Insgesamt ist SOOFI also nur der Anfang. Die gewonnenen Erkenntnisse sollen in weitere Folgeprojekte fließen.

Laufzeit

11.2025 - 11.2026

Mittelgeber

Bundesministerium für Wirtschaft und Energie / Europäische Union

Projektkoordination

Bundesverband der Unternehmen der Künstlichen Intelligenz in Deutschland e. V. (KIBV)