Mann sitzt am Computer in einem Büro und schaut auf den Monitor während er auf der Tastatur tippt.
Projekt

Mit MÖVE das passende Sprachmodell finden

MÖVE ist der erste ganzheitliche KI-Modell-Vergleich der Bundesdruckerei GmbH, der speziell für die Anforderungen des öffentlichen Sektors entwickelt wurde. Es unterstützt Behörden und öffentliche Einrichtungen dabei, Entscheidungen für den verantwortungsvollen Einsatz von Künstlicher Intelligenz zu treffen.

Daten & Fakten im Überblick

Projektname

Modelle für die öffentliche Verwaltung evaluieren (kurz „MÖVE“)

Laufzeit

Seit 01/2025

Fördergeber

Bundesdruckerei-eigenes Forschungs- und Innovationsprojekt

Partner

  • Bundesamt für Sicherheit in der Informationstechnik (BSI)
  • Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC)

Projektziel

MÖVE bewertet Sprachmodelle (LLMs) systematisch und schafft so Orientierung bei der Auswahl geeigneter KI-Modelle, damit öffentliche Verwaltungen und staatliche Institutionen diese verantwortungsvoll, sicher und wirkungsvoll einsetzen können

Themenschwerpunkt

  • Künstliche Intelligenz
  • KI-Governance
  • Trustworthy AI
  • Evaluierung von Large Language Models (Sprachmodelle)

Eingebrachte Kompetenzbereiche

  • KI-Forschung und -Evaluation
  • Entwicklung von Bewertungs- und Governance-Frameworks
  • Public-Sector-Expertise
  • Benchmarking
  • Regulatorische Einordnung (z. B. EU AI Act)
  • Innovationsentwicklung im öffentlichen Sektor
  • Wissenstransfer

KI-Wildwuchs als Herausforderung für die öffentliche Verwaltung

Jede Woche erscheinen neue Sprachmodelle (LLMs). Jedes beansprucht für sich, leistungsfähiger, sicherer oder effizienter zu sein als die Konkurrenz. KI-Tools bergen enormes Potenzial, um die öffentliche Verwaltung bürgernäher und zukunftsfähiger zu gestalten. Für Entscheidungstragende im öffentlichen Sektor entsteht daraus jedoch ein neues Problem: Die KI-Landschaft entwickelt sich schneller, als belastbare Bewertungsgrundlagen entstehen. Die zentrale Frage lautet deshalb nicht, welches Modell allgemein als „bestes“ gilt. Entscheidend ist, welches Modell zu den konkreten Anforderungen einer Behörde passt.

Genau hier stoßen viele KI-Modell-Vergleiche an ihre Grenzen. Denn sie messen Fähigkeiten, wie englisches Textverständnis, mathematische Aufgaben oder allgemeines Weltwissen. Kaum berücksichtigt wird dagegen, was im Behördenalltag viel wichtiger ist, zum Beispiel ob ein Sprachmodell bei Bürgeranfragen halluziniert. Oder ob der Anbieter transparent dokumentiert, womit das Modell trainiert wurde.

MÖVE – Vergleichsmaßstab für KI-Modelle in der öffentlichen Verwaltung

Die Bundesdruckerei GmbH hat mit MÖVE (Kurzform für „Modelle für die öffentliche Verwaltung evaluieren“) einen Bewertungsrahmen geschaffen, der erstmals technische Leistung und Governance-Anforderungen in einem System vereint. Dadurch entsteht eine vergleichbare und praxisnahe Orientierung für die Auswahl geeigneter KI-Modelle.

Dokument mit einer Lupe

Praxisnahe Evaluierung

Alle Modelle werden anhand eigener, deutschsprachiger Datensätze aus dem Verwaltungskontext getestet. Dazu gehören unter anderem die Zusammenfassung von Fachtexten oder die Beantwortung von Fragen.

Piktogramm Schild mit Haken

Ganzheitliche Bewertung

Es wird nicht nur die reine Modellleistung (Performance) gemessen. Die Kriterien umfassen auch Governance-Aspekte wie Sicherheit, Transparenz, Nachhaltigkeit und die Einhaltung demokratischer Werte.

Piktogramm Balkendiagramm

Fundierte Entscheidungen

Die Ergebnisse schaffen eine verlässliche Datengrundlage für die Auswahl passender KI-Modelle und unterstützen einen verantwortungsvollen Einsatz Künstlicher Intelligenz im öffentlichen Sektor.

„MÖVE ist der erste holistische KI-Benchmark für die öffentliche Verwaltung und macht Deutschland zum Vorreiter in der verantwortungsvollen Nutzung von Sprachmodellen im öffentlichen Sektor.“

Dr. Thilo Michael, Technische Leitung MÖVE

Bewertungsverfahren auf Basis einer praxisnahen Datengrundlage

Fachexperten und Fachexpertinnen haben neun Testdatensätze entwickelt, die reale Anwendungsfälle aus dem deutschen Verwaltungskontext abbilden. Anstatt abstrakter Fragen werden etwa juristische Texte, interne Verwaltungsdokumente und Publikationen von Bundesministerien genutzt.

Mehrere dieser Datensätze wurden intern von Hand erstellt (Gold-Standard), andere aus öffentlichen Verwaltungsquellen kuratiert (Silver-Standard). Es werden keine Details zu den verwendeten Daten veröffentlicht, damit Ergebnisse vor Verfälschung durch vortrainierte Modelle geschützt sind.

Evaluierungskriterien von KI-Modellen mit MÖVE

Auf dieser Datengrundlage durchläuft jedes Modell eine automatisierte Bewertung anhand von sieben Kriterien.

Performance – was kann das Modell?

Kriterium Was bewertet wird
Zusammenfassen Qualität der Zusammenfassung von Beschlüssen, Urteilen, Fachtexten
Fragen beantworten Präzise Antworten auf Basis vorgegebener Dokumente (RAG-Szenario)
Themen extrahieren Dokumente kategorisieren und verschlagworten

Governance – wie verantwortungsvoll agiert das Modell?

Kriterium Was bewertet wird
Halluzinationen Wie oft das Modell Inhalte erfindet, die nicht in der Quelle stehen
Politik & Werte Vereinbarkeit der Antworten mit demokratischen Grundwerten
Nachhaltigkeit Effizienz im Umgang mit Rechenressourcen
Transparenz Wie offen der Anbieter Trainingsdaten, Architektur und Nutzungsbedingungen dokumentiert

Weitere Kriterien sind in der Entwicklung. Insbesondere Übersetzen, soziale Fairness und Sicherheit (Letzteres gemeinsam mit dem BSI).

Was mit den Ergebnissen möglich ist

Alle Bewertungen fließen in den interaktiven Modellvergleich ein. Dort stehen die Ergebnisse von über 40 evaluierten Sprachmodellen zur Verfügung. Einzelne Kriterien lassen sich ein- oder ausblenden. Der Gesamtwert wird auf Basis der Auswahl automatisch neu berechnet. So lässt sich schneller erkennen, welches Modell zu den eigenen Anforderungen passt.

Vergleichbare Ergebnisse für gute Entscheidungen

Wer den Einsatz von KI in einer Behörde verantwortet, benötigt keine pauschale Modellempfehlung, sondern eine belastbare Entscheidungsgrundlage. MÖVE liefert dafür eine unabhängige und systematische Bewertung relevanter Sprachmodelle. Bewertet wird anhand von Kriterien, die für den öffentlichen Sektor und dessen Vertretern und Vertreterinnen des öffentlichen Sektors definiert werden.

Diese Partner stehen hinter MÖVE

Die Evaluierung von KI-Systemen für den staatlichen Einsatz erfordert höchste Standards in den Bereichen Sicherheit, Methodik und regulatorische Konformität. Deshalb ist MÖVE keine Einzelinitiative. Als Forschungsprojekt der Bundesdruckerei GmbH entsteht der Bewertungsrahmen in Zusammenarbeit mit führenden deutschen Institutionen und wird kontinuierlich wissenschaftlich weiterentwickelt.

Logo des Bundesamt für Sicherheit in der Informationstechnik

Die Zusammenarbeit mit dem Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC) fokussiert sich auf die wissenschaftlich-methodische Weiterentwicklung der Sicherheits-Evaluierungskriterien. Neue Erkenntnisse fließen dabei schrittweise in den MÖVE-Bewertungsrahmen ein.

Logo des Fraunhofer AISEC

In Kooperation mit dem Bundesamt für Sicherheit in der Informationstechnik (BSI) werden Bewertungsansätze in den Bereichen Cybersicherheit, Robustheit und Faktentreue weiterentwickelt.

„Die generative KI stellt uns vor große Herausforderungen, aber wir werden sie vertrauenswürdig machen! MÖVE als ein holistisches KI-Benchmark-Tool für LLMs, gerade mit dem Fokus auf die deutsche Sprache, ist dazu ein ganz wichtiger Baustein.“

Gerhard Wunder, Head of Department Cognitive Security Technologies | Fraunhofer Institute for Applied and Integrated Security (AISEC)
Möve

Aktuelle Ergebnisse des MÖVE-Modellvergleichs 

Mit MÖVE erhalten Sie einen schnellen Überblick über KI-Sprachmodelle im Vergleich. Die Ergebnisse werden fortlaufend auf der MÖVE-Projektwebsite veröffentlicht.

Werkzeuge

MÖVE-Framework als Open Source verfügbar

Das MÖVE-Framework ist im Open Source Repository verfügbar für alle Interessierten, die die Bewertungsmethodik nachzuvollziehen wollen.

FAQ: Häufig gestellte Fragen

Die Auswahl der evaluierten Sprachmodelle folgt klar definierten Kriterien. Ziel ist ein möglichst praxisnaher und relevanter Vergleich für den Einsatz im öffentlichen Sektor.

Berücksichtigt werden unter anderem:

  1. Open-Weight-Modelle mit öffentlich verfügbaren Gewichten, die sich on-premises betreiben lassen
  2. Modelle, die bereits in Behördenumgebungen im Einsatz sind (z. B. KIPITZ des ITZBund)
  3. Small Language Models mit weniger als rund 12 Milliarden Parametern für ressourcenschonende lokale Ausführung
  4. Deutschsprachig optimierte oder feinjustierte Modelle wie SauerkrautLM oder Teuken
  5. Proprietäre Referenzmodelle wie GPT-4o oder GPT-4o-mini als technologischer Vergleichsmaßstab

Die Liste wird kontinuierlich erweitert. Vorschläge werden gern entgegengenommen.

Für die Ergebnisse aus MÖVE wird eine Genauigkeitsanalyse des Bewertungsrahmens durchgeführt. Dabei werden Bootstrap-95-Prozent-Konfidenzintervalle für die Bewertungswerte der einzelnen Modelle berechnet.

Zusätzlich erfolgt eine mehrstufige Analyse zur Qualitätssicherung:

  • Interne Konsistenzprüfung
    Geprüft wird, ob das Bewertungsmodell über mehrere Durchläufe hinweg zu stabilen und reproduzierbaren Ergebnissen kommt.
  • Abgleich mit anderen Bewertern
    Die Ergebnisse werden mit unabhängigen Bewertungsmodellen verglichen, um die Bewertungen extern zu validieren und methodisch abzusichern.
  • Prüfung auf systematische Verzerrung (Bias)
    Analysiert wird außerdem, ob einzelne KI-Modelle dazu neigen, eigene Formulierungen oder bekannte Antwortmuster systematisch zu bevorzugen.

Die berechneten Konfidenzintervalle sollen künftig transparent auf der Website dargestellt und zusätzlich in einer separaten Veröffentlichung dokumentiert werden.

Die Testaufgaben in MÖVE orientieren sich bewusst an realen Anforderungen aus dem Verwaltungsalltag. Im Mittelpunkt stehen Tätigkeiten, die in Behörden regelmäßig anfallen und bei denen Sprachmodelle künftig unterstützen können. Dazu gehört unter anderem die präzise Zusammenfassung komplexer Fachtexte wie Beschlüsse, Urteile oder interne Verwaltungsdokumente.

Ebenso wird geprüft, wie zuverlässig ein Modell Anfragen beantwortet, wenn ausschließlich Informationen aus vorgegebenen Quellen wie Gesetzestexten oder Richtlinien genutzt werden dürfen. Dadurch lässt sich bewerten, wie gut ein Modell faktenbasiert arbeitet und ob das Risiko sogenannter Halluzinationen reduziert wird. Darüber hinaus analysiert MÖVE, wie exakt Dokumente kategorisiert und passenden Themen oder Schlagwörtern zugeordnet werden.

Für eine faire Gegenüberstellung werden alle Sprachmodelle unter vergleichbaren Bedingungen getestet. Jedes Modell läuft mit den offiziell empfohlenen Einstellungen des jeweiligen Herstellers und auf standardisierter Hardware.

Im Mittelpunkt steht dabei nicht ein einzelner Bestwert oder ein technisch optimiertes Einzelergebnis. Bewertet wird vielmehr die typische Leistung, die ein Modell im praktischen Alltag tatsächlich zeigt. Deshalb wird bewusst darauf verzichtet, Antworten durch zusätzliche technische Eingriffe künstlich zu stabilisieren oder zu reproduzieren.

Um Data Contamination auszuschließen. Wären die Daten öffentlich, könnten Modelle darauf trainiert werden und Ergebnisse wären entsprechend nicht mehr aussagekräftig.

Eigenes Modell einreichen

Möchten Sie Ihr eigenes Sprachmodell evaluieren lassen? Dann reichen Sie uns gerne Ihr Modell ein - per E-Mail an: kontakt-kikc@bdr.de 

Für alle Modelle gelten dieselben Bedingungen: 

  • Die Ergebnisse werden veröffentlicht, unabhängig vom Abschneiden des Modells
  • Jedes Modell durchläuft denselben Evaluierungsprozess

Sie haben Fragen oder Feedback zu MÖVE? Kontaktieren Sie uns.

Camilla Dalerci
Stv. Leiterin KI-KC und Projektleitung MÖVE
E-Mail: camilla.dalerci@bdr.de