Mir wird öfter geschrieben, welches KI-Modell ich eigentlich so verwende. Antwort: DeepSeek V4 Flash, über Ollama. Hab das Teil jetzt seit ein paar Wochen im täglichen Einsatz und bin ehrlich überrascht, wie gut das Ding ist. Also, hier die Details.


🤔 Was ist DeepSeek V4 Flash?

Ein Sprachmodell von DeepSeek, rausgekommen am 24. April 2026. Die schlankere, günstigere Version von V4 Pro.

Die Architektur ist Mixture-of-Experts (MoE). Heißt: Von 284 Milliarden Parametern sind pro Anfrage nur 13 Milliarden aktiv. Spart ne Menge Rechenleistung, ohne dass die Qualität groß drunter leidet.

Die harten Fakten:

Eigenschaft Wert
Parameter (gesamt) 284 Milliarden
Aktiv pro Token 13 Milliarden
Kontextfenster 1 Million Token
Architektur Mixture-of-Experts (MoE)
Lizenz MIT – komplett offen
Veröffentlichung 24. April 2026
Denkmodi Non-Think / Medium / High / Max
Ollama-Tag deepseek-v4-flash:cloud
Betrieb Docker + Ollama Cloud

🧠 Benchmarks – die nackten Zahlen

Alle Werte hier im Max-Modus (höchste Denkstufe):

Benchmark V4 Flash Max V4 Pro Max Was das bedeutet
MMLU-Pro 86,2% 87,5% Allgemeinwissen – quasi gleichauf
GPQA Diamond 88,1% 90,1% PhD-Level-Wissen
LiveCodeBench 91,6% 93,5% Code-Aufgaben
Codeforces Rating 3052 3206 Wettkampf-Coden – absolute Spitze
SWE-bench Verified 79,0% 80,6% Echte Software-Bugs lösen
IMOAnswerBench 88,4% 89,8% Mathe-Olympiade
HMMT 2026 Feb 94,8% 95,2% Harvard-MIT Mathe-Turnier
MRCR 1M 78,7% 83,5% Langtext bei 1M Token verstehen
BrowseComp 73,2% Recherche im Web

Flash liegt praktisch überall nur 1-3 Punkte hinter Pro. Kostet aber nur einen Bruchteil der Rechenleistung.


⚡ Denkmodi – und was „adaptive“ bedeutet

DeepSeek V4 Flash hat drei Denkmodi (Non-Think, High, Max) – plus Medium als Zwischenstufe über Ollama. Gesteuert wird das über den think-Parameter in der API:

Modus Ollama-Parameter Wann?
Non-Think think: false Schnelle, einfache Antworten
Low think: "low" Minimales Nachdenken
Medium think: "medium" Leichte Analyse, Zusammenfassen
High (Standard) think: true oder think: "high" Normalfall – Code, Texte
Max options.think: "max" Harte Nüsse, Mathe-Beweise

Ollama akzeptiert auf oberster Ebene: true, false, "low", "medium", "high". Wer "max" will, muss es in options.think setzen – das wird direkt an DeepSeek durchgereicht. Ein GitHub-Issue (#15831) schlägt vor, "max" auch auf oberster Ebene zu erlauben, aktuell geht das aber nur über den Umweg.

Thinking adaptive – was ist das genau? Es ist kein nativer Ollama-Parameter, sondern eine Konfiguration in der JSON-Payload. Das Modell bekommt Thinking aktiviert (think: true), und DeepSeek entscheidet dann selbstständig, wie tief es nachdenken muss. Bei einfachen Fragen reicht ein kurzer Gedankengang (Low bis Medium), bei komplexen Problemen wird gründlicher nachgedacht (High).

Praktisch: Für 90% aller Anfragen reicht der adaptive Modus völlig. Nur bei Mathe-Olympiade-Niveau oder Architektur-Entscheidungen schalte ich manuell auf Max.


🎯 Warum ich’s empfehle

1. Leistung für den Alltag top. 90% der Performance von V4 Pro für einen Bruchteil der Kosten. Für Coding, Texten, Recherche – völlig ausreichend.

2. 1M Token Kontext. Eine ganze Codebase, dicke Dokus, kompletter Projekt-Kontext – alles in einem Durchlauf. Hört sich nach Spielerei an, ist im Alltag aber richtig nützlich.

3. MIT-Lizenz. Offen. Kein Vendor-Lock-In. Wer Bock und Hardware hat, hostet selbst. Code und Gewichte liegen auf Hugging Face.


🖥️ Unser Setup

Läuft bei mir über Docker mit Ollama Cloud – das Modell deepseek-v4-flash:cloud. Die Rechenarbeit machen NVIDIA Blackwell GPUs im Rechenzentrum, wir zahlen einen Festpreis und müssen uns um nichts kümmern.

Zum Vergleich – wer’s lokal betreiben will:

Quantisierung VRAM Hardware
4-Bit (stark) ~33 GB 1× RTX 6000 Ada oder 2× RTX 4090
FP8 ~80 GB 1× H100 80 GB
Volle Gewichte ~170 GB 2× H200 + KV-Cache

Lokal ist also eher was für Leute mit fetten GPUs. Für den Rest reicht die Cloud-Version völlig.


📉 Wo’s hakt

Fair bleiben:

  • Agentische Workflows (mehrere Tools nacheinander): 7-10 Punkte hinter Pro
  • Non-Think-Modus halluziniert deutlich mehr
  • Chinesische Muttersprache – Englisch/Deutsch sind top, aber manche Formulierungen fühlen sich übersetzt an

🔮 Fazit

DeepSeek V4 Flash ist aktuell mein Go-to-Modell. Es liefert 90% von dem, was die absoluten Top-Modelle können, ist komplett offen und bei uns via Docker + Ollama Cloud im Einsatz.

Wer ein gutes, günstiges, offenes KI-Modell für den Alltag sucht: Das ist es.

🔗 https://ollama.com/library/deepseek-v4-flash