Mit MÖVE das passende Sprachmodell finden
MÖVE ist der erste ganzheitliche KI-Modell-Vergleich der Bundesdruckerei GmbH, der speziell für die Anforderungen des öffentlichen Sektors entwickelt wurde. Es unterstützt Behörden und öffentliche Einrichtungen dabei, Entscheidungen für den verantwortungsvollen Einsatz von Künstlicher Intelligenz zu treffen.
Daten & Fakten im Überblick
Projektname
Modelle für die öffentliche Verwaltung evaluieren (kurz „MÖVE“)
Laufzeit
Seit 01/2025
Fördergeber
Bundesdruckerei-eigenes Forschungs- und Innovationsprojekt
Partner
- Bundesamt für Sicherheit in der Informationstechnik (BSI)
- Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC)
Projektziel
MÖVE bewertet Sprachmodelle (LLMs) systematisch und schafft so Orientierung bei der Auswahl geeigneter KI-Modelle, damit öffentliche Verwaltungen und staatliche Institutionen diese verantwortungsvoll, sicher und wirkungsvoll einsetzen können
Themenschwerpunkt
- Künstliche Intelligenz
- KI-Governance
- Trustworthy AI
- Evaluierung von Large Language Models (Sprachmodelle)
Eingebrachte Kompetenzbereiche
- KI-Forschung und -Evaluation
- Entwicklung von Bewertungs- und Governance-Frameworks
- Public-Sector-Expertise
- Benchmarking
- Regulatorische Einordnung (z. B. EU AI Act)
- Innovationsentwicklung im öffentlichen Sektor
- Wissenstransfer
KI-Wildwuchs als Herausforderung für die öffentliche Verwaltung
Jede Woche erscheinen neue Sprachmodelle (LLMs). Jedes beansprucht für sich, leistungsfähiger, sicherer oder effizienter zu sein als die Konkurrenz. KI-Tools bergen enormes Potenzial, um die öffentliche Verwaltung bürgernäher und zukunftsfähiger zu gestalten. Für Entscheidungstragende im öffentlichen Sektor entsteht daraus jedoch ein neues Problem: Die KI-Landschaft entwickelt sich schneller, als belastbare Bewertungsgrundlagen entstehen. Die zentrale Frage lautet deshalb nicht, welches Modell allgemein als „bestes“ gilt. Entscheidend ist, welches Modell zu den konkreten Anforderungen einer Behörde passt.
Genau hier stoßen viele KI-Modell-Vergleiche an ihre Grenzen. Denn sie messen Fähigkeiten, wie englisches Textverständnis, mathematische Aufgaben oder allgemeines Weltwissen. Kaum berücksichtigt wird dagegen, was im Behördenalltag viel wichtiger ist, zum Beispiel ob ein Sprachmodell bei Bürgeranfragen halluziniert. Oder ob der Anbieter transparent dokumentiert, womit das Modell trainiert wurde.
MÖVE – Vergleichsmaßstab für KI-Modelle in der öffentlichen Verwaltung
Die Bundesdruckerei GmbH hat mit MÖVE (Kurzform für „Modelle für die öffentliche Verwaltung evaluieren“) einen Bewertungsrahmen geschaffen, der erstmals technische Leistung und Governance-Anforderungen in einem System vereint. Dadurch entsteht eine vergleichbare und praxisnahe Orientierung für die Auswahl geeigneter KI-Modelle.
Bewertungsverfahren auf Basis einer praxisnahen Datengrundlage
Fachexperten und Fachexpertinnen haben neun Testdatensätze entwickelt, die reale Anwendungsfälle aus dem deutschen Verwaltungskontext abbilden. Anstatt abstrakter Fragen werden etwa juristische Texte, interne Verwaltungsdokumente und Publikationen von Bundesministerien genutzt.
Mehrere dieser Datensätze wurden intern von Hand erstellt (Gold-Standard), andere aus öffentlichen Verwaltungsquellen kuratiert (Silver-Standard). Es werden keine Details zu den verwendeten Daten veröffentlicht, damit Ergebnisse vor Verfälschung durch vortrainierte Modelle geschützt sind.
Evaluierungskriterien von KI-Modellen mit MÖVE
Auf dieser Datengrundlage durchläuft jedes Modell eine automatisierte Bewertung anhand von sieben Kriterien.
Performance – was kann das Modell?
Governance – wie verantwortungsvoll agiert das Modell?
Weitere Kriterien sind in der Entwicklung. Insbesondere Übersetzen, soziale Fairness und Sicherheit (Letzteres gemeinsam mit dem BSI).
Was mit den Ergebnissen möglich ist
Alle Bewertungen fließen in den interaktiven Modellvergleich ein. Dort stehen die Ergebnisse von über 40 evaluierten Sprachmodellen zur Verfügung. Einzelne Kriterien lassen sich ein- oder ausblenden. Der Gesamtwert wird auf Basis der Auswahl automatisch neu berechnet. So lässt sich schneller erkennen, welches Modell zu den eigenen Anforderungen passt.
Vergleichbare Ergebnisse für gute Entscheidungen
Wer den Einsatz von KI in einer Behörde verantwortet, benötigt keine pauschale Modellempfehlung, sondern eine belastbare Entscheidungsgrundlage. MÖVE liefert dafür eine unabhängige und systematische Bewertung relevanter Sprachmodelle. Bewertet wird anhand von Kriterien, die für den öffentlichen Sektor und dessen Vertretern und Vertreterinnen des öffentlichen Sektors definiert werden.
Diese Partner stehen hinter MÖVE
Die Evaluierung von KI-Systemen für den staatlichen Einsatz erfordert höchste Standards in den Bereichen Sicherheit, Methodik und regulatorische Konformität. Deshalb ist MÖVE keine Einzelinitiative. Als Forschungsprojekt der Bundesdruckerei GmbH entsteht der Bewertungsrahmen in Zusammenarbeit mit führenden deutschen Institutionen und wird kontinuierlich wissenschaftlich weiterentwickelt.
Die Zusammenarbeit mit dem Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC) fokussiert sich auf die wissenschaftlich-methodische Weiterentwicklung der Sicherheits-Evaluierungskriterien. Neue Erkenntnisse fließen dabei schrittweise in den MÖVE-Bewertungsrahmen ein.
In Kooperation mit dem Bundesamt für Sicherheit in der Informationstechnik (BSI) werden Bewertungsansätze in den Bereichen Cybersicherheit, Robustheit und Faktentreue weiterentwickelt.
FAQ: Häufig gestellte Fragen
Die Auswahl der evaluierten Sprachmodelle folgt klar definierten Kriterien. Ziel ist ein möglichst praxisnaher und relevanter Vergleich für den Einsatz im öffentlichen Sektor.
Berücksichtigt werden unter anderem:
- Open-Weight-Modelle mit öffentlich verfügbaren Gewichten, die sich on-premises betreiben lassen
- Modelle, die bereits in Behördenumgebungen im Einsatz sind (z. B. KIPITZ des ITZBund)
- Small Language Models mit weniger als rund 12 Milliarden Parametern für ressourcenschonende lokale Ausführung
- Deutschsprachig optimierte oder feinjustierte Modelle wie SauerkrautLM oder Teuken
- Proprietäre Referenzmodelle wie GPT-4o oder GPT-4o-mini als technologischer Vergleichsmaßstab
Die Liste wird kontinuierlich erweitert. Vorschläge werden gern entgegengenommen.
Für die Ergebnisse aus MÖVE wird eine Genauigkeitsanalyse des Bewertungsrahmens durchgeführt. Dabei werden Bootstrap-95-Prozent-Konfidenzintervalle für die Bewertungswerte der einzelnen Modelle berechnet.
Zusätzlich erfolgt eine mehrstufige Analyse zur Qualitätssicherung:
- Interne Konsistenzprüfung
Geprüft wird, ob das Bewertungsmodell über mehrere Durchläufe hinweg zu stabilen und reproduzierbaren Ergebnissen kommt. - Abgleich mit anderen Bewertern
Die Ergebnisse werden mit unabhängigen Bewertungsmodellen verglichen, um die Bewertungen extern zu validieren und methodisch abzusichern. - Prüfung auf systematische Verzerrung (Bias)
Analysiert wird außerdem, ob einzelne KI-Modelle dazu neigen, eigene Formulierungen oder bekannte Antwortmuster systematisch zu bevorzugen.
Die berechneten Konfidenzintervalle sollen künftig transparent auf der Website dargestellt und zusätzlich in einer separaten Veröffentlichung dokumentiert werden.
Die Testaufgaben in MÖVE orientieren sich bewusst an realen Anforderungen aus dem Verwaltungsalltag. Im Mittelpunkt stehen Tätigkeiten, die in Behörden regelmäßig anfallen und bei denen Sprachmodelle künftig unterstützen können. Dazu gehört unter anderem die präzise Zusammenfassung komplexer Fachtexte wie Beschlüsse, Urteile oder interne Verwaltungsdokumente.
Ebenso wird geprüft, wie zuverlässig ein Modell Anfragen beantwortet, wenn ausschließlich Informationen aus vorgegebenen Quellen wie Gesetzestexten oder Richtlinien genutzt werden dürfen. Dadurch lässt sich bewerten, wie gut ein Modell faktenbasiert arbeitet und ob das Risiko sogenannter Halluzinationen reduziert wird. Darüber hinaus analysiert MÖVE, wie exakt Dokumente kategorisiert und passenden Themen oder Schlagwörtern zugeordnet werden.
Für eine faire Gegenüberstellung werden alle Sprachmodelle unter vergleichbaren Bedingungen getestet. Jedes Modell läuft mit den offiziell empfohlenen Einstellungen des jeweiligen Herstellers und auf standardisierter Hardware.
Im Mittelpunkt steht dabei nicht ein einzelner Bestwert oder ein technisch optimiertes Einzelergebnis. Bewertet wird vielmehr die typische Leistung, die ein Modell im praktischen Alltag tatsächlich zeigt. Deshalb wird bewusst darauf verzichtet, Antworten durch zusätzliche technische Eingriffe künstlich zu stabilisieren oder zu reproduzieren.
Um Data Contamination auszuschließen. Wären die Daten öffentlich, könnten Modelle darauf trainiert werden und Ergebnisse wären entsprechend nicht mehr aussagekräftig.