MÖVE: KI-Modelle für die Verwaltung evaluieren

Daten & Fakten im Überblick

Projektname

Modelle für die öffentliche Verwaltung evaluieren (kurz „MÖVE“)

Laufzeit

Seit 01/2025

Fördergeber

Bundesdruckerei-eigenes Forschungs- und Innovationsprojekt

Partner

Bundesamt für Sicherheit in der Informationstechnik (BSI)
Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC)

Projektziel

MÖVE bewertet Sprachmodelle (LLMs) systematisch und schafft so Orientierung bei der Auswahl geeigneter KI-Modelle, damit öffentliche Verwaltungen und staatliche Institutionen diese verantwortungsvoll, sicher und wirkungsvoll einsetzen können

Themenschwerpunkt

Künstliche Intelligenz
KI-Governance
Trustworthy AI
Evaluierung von Large Language Models (Sprachmodelle)

Eingebrachte Kompetenzbereiche

KI-Forschung und -Evaluation
Entwicklung von Bewertungs- und Governance-Frameworks
Public-Sector-Expertise
Benchmarking
Regulatorische Einordnung (z. B. EU AI Act)
Innovationsentwicklung im öffentlichen Sektor
Wissenstransfer

KI-Wildwuchs als Herausforderung für die öffentliche Verwaltung

Jede Woche erscheinen neue Sprachmodelle (LLMs). Jedes beansprucht für sich, leistungsfähiger, sicherer oder effizienter zu sein als die Konkurrenz. KI-Tools bergen enormes Potenzial, um die öffentliche Verwaltung bürgernäher und zukunftsfähiger zu gestalten. Für Entscheidungstragende im öffentlichen Sektor entsteht daraus jedoch ein neues Problem: Die KI-Landschaft entwickelt sich schneller, als belastbare Bewertungsgrundlagen entstehen. Die zentrale Frage lautet deshalb nicht, welches Modell allgemein als „bestes“ gilt. Entscheidend ist, welches Modell zu den konkreten Anforderungen einer Behörde passt.

Genau hier stoßen viele KI-Modell-Vergleiche an ihre Grenzen. Denn sie messen Fähigkeiten, wie englisches Textverständnis, mathematische Aufgaben oder allgemeines Weltwissen. Kaum berücksichtigt wird dagegen, was im Behördenalltag viel wichtiger ist, zum Beispiel ob ein Sprachmodell bei Bürgeranfragen halluziniert. Oder ob der Anbieter transparent dokumentiert, womit das Modell trainiert wurde.

MÖVE – Vergleichsmaßstab für KI-Modelle in der öffentlichen Verwaltung

Die Bundesdruckerei GmbH hat mit MÖVE (Kurzform für „Modelle für die öffentliche Verwaltung evaluieren“) einen Bewertungsrahmen geschaffen, der erstmals technische Leistung und Governance-Anforderungen in einem System vereint. Dadurch entsteht eine vergleichbare und praxisnahe Orientierung für die Auswahl geeigneter KI-Modelle.

Praxisnahe Evaluierung

Alle Modelle werden anhand eigener, deutschsprachiger Datensätze aus dem Verwaltungskontext getestet. Dazu gehören unter anderem die Zusammenfassung von Fachtexten oder die Beantwortung von Fragen.

Ganzheitliche Bewertung

Es wird nicht nur die reine Modellleistung (Performance) gemessen. Die Kriterien umfassen auch Governance-Aspekte wie Sicherheit, Transparenz, Nachhaltigkeit und die Einhaltung demokratischer Werte.

Fundierte Entscheidungen

Die Ergebnisse schaffen eine verlässliche Datengrundlage für die Auswahl passender KI-Modelle und unterstützen einen verantwortungsvollen Einsatz Künstlicher Intelligenz im öffentlichen Sektor.

„MÖVE ist der erste holistische KI-Benchmark für die öffentliche Verwaltung und macht Deutschland zum Vorreiter in der verantwortungsvollen Nutzung von Sprachmodellen im öffentlichen Sektor.“

Dr. Thilo Michael, Technische Leitung MÖVE

Dieses Video wird über den YouTube-Kanal der Bundesdruckerei Gruppe GmbH zur Verfügung gestellt. Nähere Informationen finden Sie in der Datenschutzerklärung.

In diesem Video spricht Thilo Michael über das Projekt MÖVE. MÖVE bewertet Sprachmodelle speziell für die öffentliche Verwaltung. Dabei werden Kriterien wie Fairness, Sicherheit, Halluzinationen und rechtliche Vorgaben berücksichtigt. Das Ziel ist, Behörden bei der Auswahl passender Sprachmodelle zu unterstützen.

Bewertungsverfahren auf Basis einer praxisnahen Datengrundlage

Fachexperten und Fachexpertinnen haben neun Testdatensätze entwickelt, die reale Anwendungsfälle aus dem deutschen Verwaltungskontext abbilden. Anstatt abstrakter Fragen werden etwa juristische Texte, interne Verwaltungsdokumente und Publikationen von Bundesministerien genutzt.

Mehrere dieser Datensätze wurden intern von Hand erstellt (Gold-Standard), andere aus öffentlichen Verwaltungsquellen kuratiert (Silver-Standard). Es werden keine Details zu den verwendeten Daten veröffentlicht, damit Ergebnisse vor Verfälschung durch vortrainierte Modelle geschützt sind.

Evaluierungskriterien von KI-Modellen mit MÖVE

Auf dieser Datengrundlage durchläuft jedes Modell eine automatisierte Bewertung anhand von sieben Kriterien.

Performance – was kann das Modell?

Kriterium	Was bewertet wird
Zusammenfassen	Qualität der Zusammenfassung von Beschlüssen, Urteilen, Fachtexten
Fragen beantworten	Präzise Antworten auf Basis vorgegebener Dokumente (RAG-Szenario)
Themen extrahieren	Dokumente kategorisieren und verschlagworten

Governance – wie verantwortungsvoll agiert das Modell?

Kriterium	Was bewertet wird
Halluzinationen	Wie oft das Modell Inhalte erfindet, die nicht in der Quelle stehen
Politik & Werte	Vereinbarkeit der Antworten mit demokratischen Grundwerten
Nachhaltigkeit	Effizienz im Umgang mit Rechenressourcen
Transparenz	Wie offen der Anbieter Trainingsdaten, Architektur und Nutzungsbedingungen dokumentiert

Weitere Kriterien sind in der Entwicklung. Insbesondere Übersetzen, soziale Fairness und Sicherheit (Letzteres gemeinsam mit dem BSI).

Was mit den Ergebnissen möglich ist

Alle Bewertungen fließen in den interaktiven Modellvergleich ein. Dort stehen die Ergebnisse verschiedener evaluierter Sprachmodelle zur Verfügung. Einzelne Kriterien lassen sich ein- oder ausblenden. Der Gesamtwert wird auf Basis der Auswahl automatisch neu berechnet. So lässt sich schneller erkennen, welches Modell zu den eigenen Anforderungen passt.

Vergleichbare Ergebnisse für gute Entscheidungen

Wer den Einsatz von KI in einer Behörde verantwortet, benötigt keine pauschale Modellempfehlung, sondern eine belastbare Entscheidungsgrundlage. MÖVE liefert dafür eine unabhängige und systematische Bewertung relevanter Sprachmodelle. Bewertet wird anhand von Kriterien, die für den öffentlichen Sektor und dessen Vertretern und Vertreterinnen des öffentlichen Sektors definiert werden.

Diese Partner stehen hinter MÖVE

Die Evaluierung von KI-Systemen für den staatlichen Einsatz erfordert höchste Standards in den Bereichen Sicherheit, Methodik und regulatorische Konformität. Deshalb ist MÖVE keine Einzelinitiative. Als Forschungsprojekt der Bundesdruckerei GmbH entsteht der Bewertungsrahmen in Zusammenarbeit mit führenden deutschen Institutionen und wird kontinuierlich wissenschaftlich weiterentwickelt.

Die Zusammenarbeit mit dem Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC) fokussiert sich auf die wissenschaftlich-methodische Weiterentwicklung der Sicherheits-Evaluierungskriterien. Neue Erkenntnisse fließen dabei schrittweise in den MÖVE-Bewertungsrahmen ein.

In Kooperation mit dem Bundesamt für Sicherheit in der Informationstechnik (BSI) werden Bewertungsansätze in den Bereichen Cybersicherheit, Robustheit und Faktentreue weiterentwickelt.

„Die generative KI stellt uns vor große Herausforderungen, aber wir werden sie vertrauenswürdig machen! MÖVE als ein holistisches KI-Benchmark-Tool für LLMs, gerade mit dem Fokus auf die deutsche Sprache, ist dazu ein ganz wichtiger Baustein.“

Gerhard Wunder, Head of Department Cognitive Security Technologies | Fraunhofer Institute for Applied and Integrated Security (AISEC)

Aktuelle Ergebnisse des MÖVE-Modellvergleichs

Mit MÖVE erhalten Sie einen schnellen Überblick über KI-Sprachmodelle im Vergleich. Die Ergebnisse werden fortlaufend auf der MÖVE-Projektwebsite veröffentlicht.

Zum MÖVE-Sprachmodellvergleich

MÖVE-Framework als Open Source verfügbar

Das MÖVE-Framework ist im Open Source Repository verfügbar für alle Interessierten, die die Bewertungsmethodik nachzuvollziehen wollen.

Zum Open Source Repository

FAQ: Häufig gestellte Fragen

Die Auswahl der evaluierten Sprachmodelle folgt klar definierten Kriterien. Ziel ist ein möglichst praxisnaher und relevanter Vergleich für den Einsatz im öffentlichen Sektor.

Berücksichtigt werden unter anderem:

Open-Weight-Modelle mit öffentlich verfügbaren Gewichten, die sich on-premises betreiben lassen
Modelle, die bereits in Behördenumgebungen im Einsatz sind (z. B. KIPITZ des ITZBund)
Small Language Models mit weniger als rund 12 Milliarden Parametern für ressourcenschonende lokale Ausführung
Deutschsprachig optimierte oder feinjustierte Modelle wie SauerkrautLM oder Teuken
Proprietäre Referenzmodelle wie GPT-4o oder GPT-4o-mini als technologischer Vergleichsmaßstab

Die Liste wird kontinuierlich erweitert. Vorschläge werden gern entgegengenommen.

Für die Ergebnisse aus MÖVE wird eine Genauigkeitsanalyse des Bewertungsrahmens durchgeführt. Dabei werden Bootstrap-95-Prozent-Konfidenzintervalle für die Bewertungswerte der einzelnen Modelle berechnet.

Zusätzlich erfolgt eine mehrstufige Analyse zur Qualitätssicherung:

Interne Konsistenzprüfung
Geprüft wird, ob das Bewertungsmodell über mehrere Durchläufe hinweg zu stabilen und reproduzierbaren Ergebnissen kommt.
Abgleich mit anderen Bewertern
Die Ergebnisse werden mit unabhängigen Bewertungsmodellen verglichen, um die Bewertungen extern zu validieren und methodisch abzusichern.
Prüfung auf systematische Verzerrung (Bias)
Analysiert wird außerdem, ob einzelne KI-Modelle dazu neigen, eigene Formulierungen oder bekannte Antwortmuster systematisch zu bevorzugen.

Die berechneten Konfidenzintervalle sollen künftig transparent auf der Website dargestellt und zusätzlich in einer separaten Veröffentlichung dokumentiert werden.

Die Testaufgaben in MÖVE orientieren sich bewusst an realen Anforderungen aus dem Verwaltungsalltag. Im Mittelpunkt stehen Tätigkeiten, die in Behörden regelmäßig anfallen und bei denen Sprachmodelle künftig unterstützen können. Dazu gehört unter anderem die präzise Zusammenfassung komplexer Fachtexte wie Beschlüsse, Urteile oder interne Verwaltungsdokumente.

Ebenso wird geprüft, wie zuverlässig ein Modell Anfragen beantwortet, wenn ausschließlich Informationen aus vorgegebenen Quellen wie Gesetzestexten oder Richtlinien genutzt werden dürfen. Dadurch lässt sich bewerten, wie gut ein Modell faktenbasiert arbeitet und ob das Risiko sogenannter Halluzinationen reduziert wird. Darüber hinaus analysiert MÖVE, wie exakt Dokumente kategorisiert und passenden Themen oder Schlagwörtern zugeordnet werden.

Für eine faire Gegenüberstellung werden alle Sprachmodelle unter vergleichbaren Bedingungen getestet. Jedes Modell läuft mit den offiziell empfohlenen Einstellungen des jeweiligen Herstellers und auf standardisierter Hardware.

Im Mittelpunkt steht dabei nicht ein einzelner Bestwert oder ein technisch optimiertes Einzelergebnis. Bewertet wird vielmehr die typische Leistung, die ein Modell im praktischen Alltag tatsächlich zeigt. Deshalb wird bewusst darauf verzichtet, Antworten durch zusätzliche technische Eingriffe künstlich zu stabilisieren oder zu reproduzieren.

Um Data Contamination auszuschließen. Wären die Daten öffentlich, könnten Modelle darauf trainiert werden und Ergebnisse wären entsprechend nicht mehr aussagekräftig.

Eigenes Modell einreichen

Möchten Sie Ihr eigenes Sprachmodell evaluieren lassen? Dann reichen Sie uns gerne Ihr Modell ein - per E-Mail an: kontakt-kikc@bdr.de

Für alle Modelle gelten dieselben Bedingungen:

Die Ergebnisse werden veröffentlicht, unabhängig vom Abschneiden des Modells
Jedes Modell durchläuft denselben Evaluierungsprozess

Sie haben Fragen oder Feedback zu MÖVE? Kontaktieren Sie uns.

Camilla Dalerci
Stv. Leiterin KI-KC und Projektleitung MÖVE
E-Mail: camilla.dalerci@bdr.de

Mit MÖVE das passende Sprachmodell finden

Daten & Fakten im Überblick

KI-Wildwuchs als Herausforderung für die öffentliche Verwaltung

MÖVE – Vergleichsmaßstab für KI-Modelle in der öffentlichen Verwaltung

Bewertungsverfahren auf Basis einer praxisnahen Datengrundlage

Evaluierungskriterien von KI-Modellen mit MÖVE

Performance – was kann das Modell?

Governance – wie verantwortungsvoll agiert das Modell?

Was mit den Ergebnissen möglich ist

Vergleichbare Ergebnisse für gute Entscheidungen

Diese Partner stehen hinter MÖVE

Aktuelle Ergebnisse des MÖVE-Modellvergleichs

MÖVE-Framework als Open Source verfügbar

FAQ: Häufig gestellte Fragen

Eigenes Modell einreichen

Sie haben Fragen oder Feedback zu MÖVE? Kontaktieren Sie uns.

Wir beraten Sie gern:

Mit MÖVE das passende Sprachmodell finden

Daten & Fakten im Überblick

KI-Wildwuchs als Herausforderung für die öffentliche Verwaltung

MÖVE – Vergleichsmaßstab für KI-Modelle in der öffentlichen Verwaltung

Bewertungsverfahren auf Basis einer praxisnahen Datengrundlage

Evaluierungskriterien von KI-Modellen mit MÖVE

Performance – was kann das Modell?

Governance – wie verantwortungsvoll agiert das Modell?

Was mit den Ergebnissen möglich ist

Vergleichbare Ergebnisse für gute Entscheidungen

Diese Partner stehen hinter MÖVE

Aktuelle Ergebnisse des MÖVE-Modellvergleichs

MÖVE-Framework als Open Source verfügbar

FAQ: Häufig gestellte Fragen

Warum genau diese Modelle?

Wie verlässlich sind die Ergebnisse aus MÖVE?

Wie praxisrelevant sind die Testaufgaben?

Wie werden reproduzierbare Ergebnisse sichergestellt?

Warum sind die internen Datensätze nicht öffentlich?

Eigenes Modell einreichen

Sie haben Fragen oder Feedback zu MÖVE? Kontaktieren Sie uns.

Ganz einfach und schnell informiert bleiben