Mir wird öfter geschrieben, welches KI-Modell ich eigentlich so verwende. Antwort: DeepSeek V4 Flash, über Ollama. Hab das Teil jetzt seit ein paar Wochen im täglichen Einsatz und bin ehrlich überrascht, wie gut das Ding ist. Also, hier die Details.
🤔 Was ist DeepSeek V4 Flash?
Ein Sprachmodell von DeepSeek, rausgekommen am 24. April 2026. Die schlankere, günstigere Version von V4 Pro.
Die Architektur ist Mixture-of-Experts (MoE). Heißt: Von 284 Milliarden Parametern sind pro Anfrage nur 13 Milliarden aktiv. Spart ne Menge Rechenleistung, ohne dass die Qualität groß drunter leidet.
Die harten Fakten:
| Eigenschaft | Wert |
|---|---|
| Parameter (gesamt) | 284 Milliarden |
| Aktiv pro Token | 13 Milliarden |
| Kontextfenster | 1 Million Token |
| Architektur | Mixture-of-Experts (MoE) |
| Lizenz | MIT – komplett offen |
| Veröffentlichung | 24. April 2026 |
| Denkmodi | Non-Think / Medium / High / Max |
| Ollama-Tag | deepseek-v4-flash:cloud |
| Betrieb | Docker + Ollama Cloud |
🧠 Benchmarks – die nackten Zahlen
Alle Werte hier im Max-Modus (höchste Denkstufe):
| Benchmark | V4 Flash Max | V4 Pro Max | Was das bedeutet |
|---|---|---|---|
| MMLU-Pro | 86,2% | 87,5% | Allgemeinwissen – quasi gleichauf |
| GPQA Diamond | 88,1% | 90,1% | PhD-Level-Wissen |
| LiveCodeBench | 91,6% | 93,5% | Code-Aufgaben |
| Codeforces Rating | 3052 | 3206 | Wettkampf-Coden – absolute Spitze |
| SWE-bench Verified | 79,0% | 80,6% | Echte Software-Bugs lösen |
| IMOAnswerBench | 88,4% | 89,8% | Mathe-Olympiade |
| HMMT 2026 Feb | 94,8% | 95,2% | Harvard-MIT Mathe-Turnier |
| MRCR 1M | 78,7% | 83,5% | Langtext bei 1M Token verstehen |
| BrowseComp | 73,2% | – | Recherche im Web |
Flash liegt praktisch überall nur 1-3 Punkte hinter Pro. Kostet aber nur einen Bruchteil der Rechenleistung.
⚡ Denkmodi – und was „adaptive“ bedeutet
DeepSeek V4 Flash hat drei Denkmodi (Non-Think, High, Max) – plus Medium als Zwischenstufe über Ollama. Gesteuert wird das über den think-Parameter in der API:
| Modus | Ollama-Parameter | Wann? |
|---|---|---|
| Non-Think | think: false |
Schnelle, einfache Antworten |
| Low | think: "low" |
Minimales Nachdenken |
| Medium | think: "medium" |
Leichte Analyse, Zusammenfassen |
| High (Standard) | think: true oder think: "high" |
Normalfall – Code, Texte |
| Max | options.think: "max" |
Harte Nüsse, Mathe-Beweise |
Ollama akzeptiert auf oberster Ebene: true, false, "low", "medium", "high". Wer "max" will, muss es in options.think setzen – das wird direkt an DeepSeek durchgereicht. Ein GitHub-Issue (#15831) schlägt vor, "max" auch auf oberster Ebene zu erlauben, aktuell geht das aber nur über den Umweg.
Thinking adaptive – was ist das genau? Es ist kein nativer Ollama-Parameter, sondern eine Konfiguration in der JSON-Payload. Das Modell bekommt Thinking aktiviert (think: true), und DeepSeek entscheidet dann selbstständig, wie tief es nachdenken muss. Bei einfachen Fragen reicht ein kurzer Gedankengang (Low bis Medium), bei komplexen Problemen wird gründlicher nachgedacht (High).
Praktisch: Für 90% aller Anfragen reicht der adaptive Modus völlig. Nur bei Mathe-Olympiade-Niveau oder Architektur-Entscheidungen schalte ich manuell auf Max.
🎯 Warum ich’s empfehle
1. Leistung für den Alltag top. 90% der Performance von V4 Pro für einen Bruchteil der Kosten. Für Coding, Texten, Recherche – völlig ausreichend.
2. 1M Token Kontext. Eine ganze Codebase, dicke Dokus, kompletter Projekt-Kontext – alles in einem Durchlauf. Hört sich nach Spielerei an, ist im Alltag aber richtig nützlich.
3. MIT-Lizenz. Offen. Kein Vendor-Lock-In. Wer Bock und Hardware hat, hostet selbst. Code und Gewichte liegen auf Hugging Face.
🖥️ Unser Setup
Läuft bei mir über Docker mit Ollama Cloud – das Modell deepseek-v4-flash:cloud. Die Rechenarbeit machen NVIDIA Blackwell GPUs im Rechenzentrum, wir zahlen einen Festpreis und müssen uns um nichts kümmern.
Zum Vergleich – wer’s lokal betreiben will:
| Quantisierung | VRAM | Hardware |
|---|---|---|
| 4-Bit (stark) | ~33 GB | 1× RTX 6000 Ada oder 2× RTX 4090 |
| FP8 | ~80 GB | 1× H100 80 GB |
| Volle Gewichte | ~170 GB | 2× H200 + KV-Cache |
Lokal ist also eher was für Leute mit fetten GPUs. Für den Rest reicht die Cloud-Version völlig.
📉 Wo’s hakt
Fair bleiben:
- Agentische Workflows (mehrere Tools nacheinander): 7-10 Punkte hinter Pro
- Non-Think-Modus halluziniert deutlich mehr
- Chinesische Muttersprache – Englisch/Deutsch sind top, aber manche Formulierungen fühlen sich übersetzt an
🔮 Fazit
DeepSeek V4 Flash ist aktuell mein Go-to-Modell. Es liefert 90% von dem, was die absoluten Top-Modelle können, ist komplett offen und bei uns via Docker + Ollama Cloud im Einsatz.
Wer ein gutes, günstiges, offenes KI-Modell für den Alltag sucht: Das ist es.