Large Language Modelle (LLMs) verändern die Art und Weise, wie wir mit Technologie interagieren – doch wie gut funktionieren sie auf Deutsch? Während Englisch oft im Fokus steht, bleibt die deutsche Sprache in vielen Modellen hinter ihren Möglichkeiten zurück. Was bedeutet das für Unternehmen, Verwaltung und Open-Source-Alternativen? Unser Prototyping Teamlead Ingo Hinterding geht in diesem Deep Dive auf die Herausforderungen und Chancen deutschsprachiger KI-Modelle ein.
Ist die deutsche Sprache ein Standortnachteil?
Large Language Modelle (LLMs) werden mit enormen Datenmengen trainiert. Ein Großteil dieser Datensätze liegt in englischer Sprache vor – einerseits, weil Englisch weltweit zu den am häufigsten gesprochenen und digital verfügbaren Sprachen gehört, andererseits, weil die Wissenschaft ihre Ergebnisse überwiegend in Englisch kommuniziert. Das Training eines sogenannten „Frontier Models“ kostet heute bereits dutzende Millionen Dollar. Angesichts dieser enormen Investitionen liegt der Fokus fast immer auf der hohen Sprachqualität in Englisch. Andere Sprachen, darunter Deutsch, werden dabei oftmals vernachlässigt und sind in den Trainingsdaten unterrepräsentiert.
Wer die aktuellen kommerziellen Angebote von OpenAI (z.B. GPT-4), Mistral oder Anthropic (z.B. Claude) nutzt, bemerkt diesen Nachteil in der Praxis kaum noch. Viele dieser Modelle liefern mittlerweile ebenso hochwertige Ergebnisse auf Deutsch wie auf Englisch.
Open Source, Open Weights & On Premise
In einigen Bereichen können oder dürfen kommerzielle Cloud-Angebote jedoch nicht genutzt werden – vor allem, wenn personenbezogene Daten verarbeitet werden müssen oder wenn es aus Prinzip um die Hoheit über eigene Daten geht (etwa bei staatlichen Behörden). Zwar bieten große Cloud-Anbieter wie Microsoft (über Azure) DSGVO-konforme Varianten kommerzieller Modelle an, doch bei besonders sensiblen Daten oder grundsätzlichem Misstrauen gegenüber externen Diensten setzen Unternehmen und Institutionen häufig auf eine „on-premise“-Lösung, also den Einsatz in lokaler Umgebung ohne Verbindung zum Internet.
Hier kommen meist Open Source-Modelle – genauer gesagt Modelle mit „Open Weights“ – zum Einsatz. Der Begriff „Open Source“ kann irreführend sein, weil bei vielen Angeboten nicht die kompletten Trainingsdaten offengelegt werden. Die Modelle sind jedoch so verfügbar, dass man sie lokal mit geeigneter Hardware (beispielsweise einer leistungsfähigen NVIDIA-Grafikkarte) betreiben kann.
Sprachqualität am Beispiel von Llama3.1
Nachdem das technische Setup für den lokalen Betrieb abgeschlossen ist, zeigt sich bei der Verwendung von Open Source-Modellen (Open Weights) häufig Ernüchterung. Diese Modelle erreichen in vielen Fällen nicht die Qualität kommerzieller Alternativen. So erzeugt beispielsweise Llama 3.1 in englischer Sprache zwar sehr hochwertige Texte, weist jedoch in deutscher Sprache deutliche Schwächen auf. Um dies zu veranschaulichen, betrachten wir zunächst eine auf Englisch formulierte Anfrage:
Nutzer:in
If everything is made of atoms, what are thoughts made of? Answer in five sentences or fewer that rhyme.
Llama3.1
Thoughts are a puzzle, hard to define,
They’re not like matter, nor atoms aligned.
Some say they’re energy, in a special place,
Generated by neurons, with their electrical pace.
But ultimately, the answer remains unclear and divine.
Ein nachdenklicher Reim über die mysteriöse Natur der Gedanken und ihre Abgrenzung von der materiellen Welt im Reimschema AABBC. Nun die gleiche Frage auf Deutsch:
Nutzer:in
Wenn alles aus Atomen besteht, woraus sind Gedanken gemacht? Antworte in fünf Sätzen oder weniger, die sich reimen.
Llama3.1
Gedanken sind ein Geheimnis, schwer zu enthüllen,
Sie bestehen nicht aus Atomen, sondern haben eine eigene Wellen.
Einige sagen, sie sind Energie, frei und leicht fließend,
Erzeugt durch Neuronen, mit ihren elektrischen Wesen.
Aber ihre Natur bleibt uns immer noch verborgen bleibend.
Zwar ist der erzeugte Text inhaltlich nachvollziehbar, dennoch enthält er grammatikalische Mängel und folgt keinem Reimschema. Letzteres ist bei der Erstellung eines KI-unterstützten Wohngeldbescheides zwar eher irrelevant (wenn auch bedauerlich), doch die Grammatikfehler sind ein starkes Argument gegen den Einsatz des kleinen Llama 3.1 Modells mit 8 Milliarden Parametern für offizielle Dokumente. Anders sieht es freilich bei den größeren Modellen mit 70 oder 405 Milliarden Parametern aus, diese sind aber deutlich leistungshungriger im Betrieb und laufen nicht ohne weiteres auf „consumer-level“ Hardware, etwa einem Apple Mac.
Korrekturversuch durch das Modell selbst
Wir können das Modell nun auffordern, seine eigene Ausgabe in einem zweiten Durchgang zu korrigieren. Damit erhöht sich jedoch die Antwortzeit, was in manchen Fällen vertretbar sein kann:
[vorheriges Ergebnis]
Nutzer:in
Korrigiere diesen Reim auf grammatikalische Richtigkeit und Reim.
Llama3.1
Gedanken sind ein Geheimnis, schwer zu enthüllen,
Sie bestehen nicht aus Atomen, sondern haben eineeigene Schwingen.
Einige sagen, sie sind Energie, frei und leicht fließend,
Erzeugt durch Neuronen, mit ihren elektrischen Wesen.
Aber ihre Natur bleibt uns immer noch verborgen bleiben.
Ich habe die folgenden Änderungen vorgenommen:
- “eigene Wellen” zu “eigene Schwingen”, um den Reim auf “Wesen” beizubehalten
- “verborgen bleibend” zu “verborgen bleiben”, um den Reim auf “entthüllen” und “Schwingen” beizubehalten
Hier zeigt sich, dass das Modell offenbar weder in der Lage ist, seine grammatikalischen Fehler zu beheben, noch sie zu erkennen. Auffällig ist zudem, dass die Wörter, die für die Einhaltung eines Reimschemas ausgetauscht wurden, sich ebenfalls nicht reimen. Ein häufig geäußerter Erklärungsversuch ist, dass die Modelle ihre Antworten zuerst in englischer Sprache entwickeln und diese danach erst in die gewünschte Sprache übersetzen. Dabei ginge das Reimschema des Originals verloren. Befragen wir dazu mal ein LLM selbst, z.B. gpt-o1:
Nutzer:in
Wenn Du auf Deutsch antwortest, werden Deine Antworten zuvor in englischer Sprache formuliert und anschliessend übersetzt?
OpenAI o1
Nein, das Modell „denkt“ nicht zuerst auf Englisch und übersetzt anschließend ins Deutsche. Stattdessen greift es auf ein gemeinsames Sprachmodell zurück, das auf riesigen Textmengen in unterschiedlichen Sprachen trainiert wurde. Wenn du eine Frage auf Deutsch stellst und eine deutsche Antwort erhältst, basiert diese auf dem in der Modellarchitektur verankerten Verständnis der deutschen Sprache. Es handelt sich also nicht um eine einfache „Englisch-zu-Deutsch“-Übersetzung, sondern um eine direkte Generierung auf Deutsch.
Zum Vergleich hier noch die Antwort von OpenAIs gpt-4o-mini Modell mit der gleichen Aufgabenstellung:
OpenAI gpt-4o-mini
Gedanken weben sich aus feinen Teilchen,
Im Gehirn sie leise beginnen zu eilen.
Elektronen tanzen, Neuronen singen,
Ideen in synaptischen Ringen.
So entstehen Träume, die wir fühlen.
Inhaltlich vielleicht weniger Bezug nehmend auf die Frage, dafür grammatikalisch korrekt. Ein gpt-goethe war hier aber auch nicht am Werk.
Frei verfügbare Modelle im Vergleich
Die Eignung verschiedener Large Language Models (LLMs) für deutschsprachige Texte hängt stark vom Anwendungszweck ab. Bei längeren Texten wie Berichten oder redaktionellen Artikeln ist eine korrekte Grammatik besonders wichtig. Nutzt man die Modelle hingegen als Support-Chatbot, rückt die Reaktionszeit (gemessen in Token pro Sekunde) in den Vordergrund, da hier vor allem schnelle, verständliche Antworten gefragt sind. Um das am besten geeignete Modell für einen bestimmten Einsatzzweck zu finden, empfiehlt es sich daher, verschiedene LLMs anhand klar definierter Testaufgaben zu evaluieren.
Die hier aufgeführten Modelle sind kostenlos verfügbar und eignen sich für den lokalen Einsatz („on-premise“). Die Liste ist weder vollständig noch objektiv, da die Bewertung der Antwortqualität subjektiven Kriterien unterliegt.
Testablauf
Alle Modelle werden mit den unten aufgeführten Prompts befragt und ihre Antworten anschließend auf inhaltliche und sprachliche Richtigkeit geprüft. Hierbei handelt es sich um sogenannte „Zero-Shot“-Prompts, das heißt, es werden keine Beispielantworten vorgegeben, die dem Modell ermöglichen, dessen Reaktionen gezielt anzupassen. Jeder Prompt wird dreimal gestellt, wobei jedes Mal ein neuer Chat-Kontext eröffnet wird, um den Zugriff auf vorherige Antworten auszuschließen.
Es ist wichtig anzumerken, dass bei diesem Vergleichstest bewusst kein Prompt-Refinement angewandt wurde. Zwar könnten durch individuelle Anpassungen bessere Ergebnisse erzielt werden, doch uns war wichtig, dass die Prompts möglichst einfach gehalten sind und minimale Erfahrung im Umgang mit Large Language Modellen voraussetzen.
Das kommerzielle Reasoning-Modell o1 von OpenAI dient in den Testergebnissen als Referenz, wird bei der Platzierung aber nicht berücksichtigt.
Alle Modelle testen wir auf einem Apple Mac mini mit Apple Silicon der vierten Generation (M4) und 16 GB RAM. Modelle, die mehr als 16 Billionen Parametern umfassen, scheiden für diese Betrachtung aus. Als lokale Hosting-Lösung dient Ollama, während Open WebUI als Frontend eingesetzt wird. Beide Tools sind kostenlos verfügbar.
Die Modelle müssen sich bei folgenden Testaufgaben bewähren:
- Ein Gedicht über Gedanken und Atome verfassen
- Einen englischen Text in deutsche Sprache übersetzen
- Eine förmliche Mail verfassen
Dabei überprüfen wir die sprachliche Qualität (Grammatik und Formulierungen) sowie die inhaltliche Richtigkeit der Antworten.
Getestete Open Source Large Language Modelle
Entwickler | Parameter | Kontextgröße | Veröffentlichung | |
deepseek-r1 | DeepSeek | 14b | 128k | 01/2025 |
dolphin3 | basiert auf Llama | 8b | 128k | 01/2025 |
gemma3 | 12b | 128k | 03/2025 | |
llama3.1 | Meta | 8b | 128k | 07/2024 |
marco-o1 | Alibaba | 7b | 32k | 11/2024 |
mistral-nemo | Mistral | 12b | 128k | 07/2024 |
mistral-small | Mistral | 24b | 32k | 01/2025 |
olmo2 | Ai2 | 13b | 4k | 11/2024 |
phi4 | Microsoft | 14b | 16k | 12/2024 |
qwen2.5 | Alibaba | 7b | 128k | 10/2024 |
Übersicht der Testergebnisse
Gedicht schreiben | Text übersetzen | E-Mail schreiben | Gesamtwertung | |
openai o1 | ● ● ● ● ● | ● ● ● ● ● | ● ● ● ● ● | ● ● ● ● ● |
deepseek-r1 | ○ ○ ○ ○ ○ | ○ ○ ○ ○ ○ | ○ ○ ○ ○ ○ | ○ ○ ○ ○ ○ |
dolphin3 | ● ● ● ○ ○ | ● ○ ○ ○ ○ | ● ● ● ○ ○ | ● ● ● ○ ○ |
gemma3 | ● ○ ○ ○ ○ | ● ● ● ○ ○ | ● ● ● ○ ○ | ● ● ● ○ ○ |
llama3.1 | ● ● ○ ○ ○ | ● ○ ○ ○ ○ | ○ ○ ○ ○ ○ | ● ○ ○ ○ ○ |
marco-o1 | ○ ○ ○ ○ ○ | ● ○ ○ ○ ○ | ● ● ● ○ ○ | ● ● ○ ○ ○ |
mistral-nemo | ● ● ● ○ ○ | ● ● ● ○ ○ | ● ● ● ● ○ | ● ● ● ○ ○ |
mistral-small | ● ● ● ○ ○ | ● ● ● ○ ○ | ● ● ● ● ○ | ● ● ● ● ○ |
olmo2 | ○ ○ ○ ○ ○ | ○ ○ ○ ○ ○ | ○ ○ ○ ○ ○ | ○ ○ ○ ○ ○ |
phi4 | ● ○ ○ ○ ○ | ● ● ● ● ○ | ● ● ● ● ○ | ● ● ● ○ ○ |
qwen2.5 | ● ○ ○ ○ ○ | ○ ○ ○ ○ ○ | ● ● ○ ○ ○ | ● ○ ○ ○ ○ |
Ein Gedicht schreiben
Wenn alles aus Atomen besteht, woraus sind Gedanken gemacht? Antworte in fünf Sätzen oder weniger, die sich reimen.
🏆 Gesamtsieger: mistral-nemo
Als einziges Modell erfüllt mistral-nemo alle gestellten Anforderungen: es versucht, die Fragestellung zu beantworten, es macht keine formalen Fehler und die Antwort ist zumindest in Teilen in Reimform verfasst. Alle anderen Modelle schneiden hier deutlich schlechter ab, keines erfüllt alle gestellten Anforderungen. dolphin3 liefert recht plausible Erklärungsversuche, phi4 hingegen kann mit einem umfangreichen Vokabular und fehlerfreier Grammatik punkten.
⭐️ Bestes Einzelergebnis: mistral-nemo
Gedanken können nicht aus Atomen bestehen,
denn sie sind nur im Geist zu sehen.
Sie sind Produkte unserer Fantasie,
die uns helfen, die Welt zu verstehen.
Doch sie hinterlassen keine Spuren Materie.
Einen englischen Text in deutsche Sprache übersetzen
Übersetze den folgenden Text in deutsche Sprache:
Here's to the crazy ones. The misfits. The rebels. The troublemakers. The round pegs in the square holes. The ones who see things differently. They're not fond of rules. And they have no respect for the status quo. You can quote them, disagree with them, glorify or vilify them. About the only thing you can't do is ignore them. Because they change things. They push the human race forward. And while some may see them as the crazy ones, we see genius. Because the people who are crazy enough to think they can change the world, are the ones who do.
🏆 Gesamtsieger: phi4
Der berühmte Text aus der “Think Different”-Kampagne kurz nach der Rückkehr von Steve Jobs zu Apple im Jahr 1997. Ein durchaus anspruchsvoller Text, dessen Feinheiten leicht durch ungenaue Übersetzung verloren gehen können.
Fast alle Modelle scheitern am Eingangssatz “Here’s to the crazy ones” (übrigens selbst OpenAI’s o1 verstolpert sich hier mitunter mit der allzu wortwörtlichen Übersetzung “Hier ist für die Verrückten”). Lediglich phi4 erkennt hier den angedeuteten Trinkspruch und bietet mit “Hier ein Toast auf die verrückten Menschen.” eine ansprechende Übersetzung. Mit dem übrigen Text kommen alle Modelle immerhin soweit klar, dass der Grundtenor des Textes erhalten bleibt.
phi4 übersetzt insgesamt am ausgewogensten, mistral-nemo leistet sich im dritten Durchgang mit “Übersetzt mit DeepL Translator” einen peinlichen Aussetzer. Schlusslicht bildet erneut qwen2.5 mit Wortneuschöpfungen wie “Störantermine”, “redegeldlos” und “Kreisloch-Pfähle”. Immerhin wollen die “crazy ones” hier gleich das ganze Weltall verändern. Kommt einem auch irgendwie bekannt vor.
⭐️ Bestes Einzelergebnis: phi4
Hier ein Toast auf die verrückten Menschen. Die Außenseiter. Die Rebellen. Die Störenfriede. Die runden Pfähle in den quadratischen Löchern. Diejenigen, die Dinge anders sehen. Sie mögen Regeln nicht besonders und respektieren den Status quo nicht. Man kann sie zitieren, mit ihnen streiten, sie glorifizieren oder verunglimpfen. Das Einzige, was man nicht tun kann, ist sie zu ignorieren. Denn sie bewirken Veränderungen. Sie treiben die Menschheit voran. Und während einige sie als die Verrückten sehen mögen, erkennen wir Genie darin. Denn diejenigen, die verrückt genug sind zu glauben, dass sie die Welt verändern können, sind es auch, die dies tun.
Eine seriöse E-Mail an eine vorgesetzte Person formulieren
Schreibe eine förmliche E-Mail für mich an meine Vorgesetzte, Frau Musterfrau, in der ich erkläre, warum ich in den letzen zwei Wochen nicht zur Arbeit erscheinen konnte. Die Mail soll überzeugend sein und mich vor Konsequenzen bewahren. Erwähne nicht, dass ich vierzehn Tage lang auf einer Südseeinsel Cocktails getrunken habe.
🏆 Gesamtsieger: mistral-small, phi4 & mistral-nemo
Diese Aufgabe stellt die Modelle vor die geringste Herausforderung, alle liefern passable Ausreden, sofern man mehrere Anläufe in Kauf nimmt. Lediglich llama3.1 verweigert zweimal die Kooperation, um anschliessend doch die Meinung zu ändern. Insgesamt kann das Modell aber nicht überzeugen. marco-o1 patzt lediglich mit einem Schlusssatz in chinesischer Sprache (übersetzt: “Vereinbaren Sie ein Treffen, um zu besprechen, was ich versäumt habe und wie ich es nachholen kann”). qwen2.5 kann bei dieser Aufgabe erstmalig überzeugen, zwar sind die Antworten etwas ausladend und reich an leicht wiederlegbaren Unwahrheiten, die formale Richtigkeit (Rechtschreibung und Grammatik) ist aber anstandslos.
mistral-small steht hier dem Referenzmodell in keinem Punkt nach. Alle E-Mails sind glaubwürdig formuliert, vermeiden inhaltliche Patzer (von einem erfundenen Attest abgesehen) und halten sich einer E-Mail angemessen kurz. mistral-nemo schreibt recht glaubwürdige E-Mails. Das Modell vermeidet es, allzu große Lügen zu erfinden und leistet sich nur im ersten Fall einen formalen Fehler (“ich möchte mich bei Ihnen für meine Abwesenheit in den letzten beiden Wochen entschuldigen und die Gründe dafür Explain.”). phi4 schreibt etwas förmlich und ausschweifend, kann aber ansonsten mit gut formulierten E-Mails überzeugen, das gleiche trifft auch auf dolphin3 zu, welches mit ein wenig Korrektur sehr ansehnliche E-Mails formulieren kann.
⭐️ Bestes Einzelergebnis: mistral-nemo
Sehr geehrte Frau Musterfrau,
ich hoffe, es geht Ihnen gut. Ich schreibe Ihnen heute, um mein Fernbleiben in den letzten beiden Wochen zu erklären und um Entschuldigung zu bitten. Leider habe ich in dieser Zeit mit einigen persönlichen Herausforderungen zu kämpfen gehabt, die meine Anwesenheit im Büro verhindert haben. Es war notwendig, dass ich mich für einige Tage von der Arbeit befreien lasse, um diese Angelegenheiten zu klären.
Ich verstehe, dass mein Fernbleiben unbequem sein kann und bitte um Entschuldigung für eventuelle Unannehmlichkeiten, die ich verursacht habe. Ich möchte jedoch betonen, dass ich immer mein Bestes gebe, um meine Arbeit pünktlich und gewissenhaft auszuführen.
In Zukunft werde ich sicherstellen, dass ich solche Situationen im Voraus melde und dass ich mich schnellstmöglich wieder der Arbeit widme. Ich bin dankbar für Ihre Verständnis und Unterstützung in dieser Zeit.
Mit freundlichen Grüßen,
[Dein Name]
Vorläufiges Fazit
Keines der bisher getesteten Sprachmodelle kann aktuell als vollwertige Alternative zu den kommerziellen Angeboten dienen. Die Qualitätsunterschiede sind schlichtweg zu groß, und die Ergebnisse oft zu unberechenbar. Wer bereits mit einem kommerziellen LLM – etwa über bereitgestellte APIs oder im direkten Chat – gearbeitet hat und nun auf vergleichbare Resultate in einem Open Source-Modell hofft, wird leider enttäuscht.
Dennoch ist eine deutliche Entwicklung hin zu immer leistungsfähigeren, frei verfügbaren Sprachmodellen erkennbar. Während man vor einem Jahr deutsche Texte aus Open Source-Modellen häufig noch als unbrauchbar einstufen musste, lassen sich heute bereits sehr ansprechende Ergebnisse erzielen – vorausgesetzt, man investiert etwas mehr Aufwand in die Gestaltung der Prompts und nimmt bei der Auswertung eine höhere Fehlertoleranz in Kauf. Hinzu kommt, dass die hier getesteten LLMs vergleichsweise wenige Parameter benötigen: Mit ausreichend leistungsfähigen GPUs und RAM lassen sich deutlich stärkere Modelle nutzen, deren Qualität auf dem Niveau der kommerziellen Angebote liegt, dafür sind die Anschaffungs- und Betriebskosten entsprechend höher.