🤖 DeepSeek V4 Flash auf Ollama – Das KI-Modell, das ich jeden Tag nutze

Mir wird öfter geschrieben, welches KI-Modell ich eigentlich so verwende. Antwort: DeepSeek V4 Flash, über Ollama. Hab das Teil jetzt seit ein paar Wochen im täglichen Einsatz und bin ehrlich überrascht, wie gut das Ding ist. Also, hier die Details.

🤔 Was ist DeepSeek V4 Flash?

Ein Sprachmodell von DeepSeek, rausgekommen am 24. April 2026. Die schlankere, günstigere Version von V4 Pro.

Die Architektur ist Mixture-of-Experts (MoE). Heißt: Von 284 Milliarden Parametern sind pro Anfrage nur 13 Milliarden aktiv. Spart ne Menge Rechenleistung, ohne dass die Qualität groß drunter leidet.

Die harten Fakten:

Eigenschaft	Wert
Parameter (gesamt)	284 Milliarden
Aktiv pro Token	13 Milliarden
Kontextfenster	1 Million Token
Architektur	Mixture-of-Experts (MoE)
Lizenz	MIT – komplett offen
Veröffentlichung	24. April 2026
Denkmodi	Non-Think / Medium / High / Max
Ollama-Tag	`deepseek-v4-flash:cloud`
Betrieb	Docker + Ollama Cloud

🧠 Benchmarks – die nackten Zahlen

Alle Werte hier im Max-Modus (höchste Denkstufe):

Benchmark	V4 Flash Max	V4 Pro Max	Was das bedeutet
MMLU-Pro	86,2%	87,5%	Allgemeinwissen – quasi gleichauf
GPQA Diamond	88,1%	90,1%	PhD-Level-Wissen
LiveCodeBench	91,6%	93,5%	Code-Aufgaben
Codeforces Rating	3052	3206	Wettkampf-Coden – absolute Spitze
SWE-bench Verified	79,0%	80,6%	Echte Software-Bugs lösen
IMOAnswerBench	88,4%	89,8%	Mathe-Olympiade
HMMT 2026 Feb	94,8%	95,2%	Harvard-MIT Mathe-Turnier
MRCR 1M	78,7%	83,5%	Langtext bei 1M Token verstehen
BrowseComp	73,2%	–	Recherche im Web

Flash liegt praktisch überall nur 1-3 Punkte hinter Pro. Kostet aber nur einen Bruchteil der Rechenleistung.

⚡ Denkmodi – und was „adaptive“ bedeutet

DeepSeek V4 Flash hat drei Denkmodi (Non-Think, High, Max) – plus Medium als Zwischenstufe über Ollama. Gesteuert wird das über den think-Parameter in der API:

Modus	Ollama-Parameter	Wann?
Non-Think	`think: false`	Schnelle, einfache Antworten
Low	`think: "low"`	Minimales Nachdenken
Medium	`think: "medium"`	Leichte Analyse, Zusammenfassen
High (Standard)	`think: true` oder `think: "high"`	Normalfall – Code, Texte
Max	`options.think: "max"`	Harte Nüsse, Mathe-Beweise

Ollama akzeptiert auf oberster Ebene: true, false, "low", "medium", "high". Wer "max" will, muss es in options.think setzen – das wird direkt an DeepSeek durchgereicht. Ein GitHub-Issue (#15831) schlägt vor, "max" auch auf oberster Ebene zu erlauben, aktuell geht das aber nur über den Umweg.

Thinking adaptive – was ist das genau? Es ist kein nativer Ollama-Parameter, sondern eine Konfiguration in der JSON-Payload. Das Modell bekommt Thinking aktiviert (think: true), und DeepSeek entscheidet dann selbstständig, wie tief es nachdenken muss. Bei einfachen Fragen reicht ein kurzer Gedankengang (Low bis Medium), bei komplexen Problemen wird gründlicher nachgedacht (High).

Praktisch: Für 90% aller Anfragen reicht der adaptive Modus völlig. Nur bei Mathe-Olympiade-Niveau oder Architektur-Entscheidungen schalte ich manuell auf Max.

🎯 Warum ich’s empfehle

1. Leistung für den Alltag top. 90% der Performance von V4 Pro für einen Bruchteil der Kosten. Für Coding, Texten, Recherche – völlig ausreichend.

2. 1M Token Kontext. Eine ganze Codebase, dicke Dokus, kompletter Projekt-Kontext – alles in einem Durchlauf. Hört sich nach Spielerei an, ist im Alltag aber richtig nützlich.

3. MIT-Lizenz. Offen. Kein Vendor-Lock-In. Wer Bock und Hardware hat, hostet selbst. Code und Gewichte liegen auf Hugging Face.

🖥️ Unser Setup

Läuft bei mir über Docker mit Ollama Cloud – das Modell deepseek-v4-flash:cloud. Die Rechenarbeit machen NVIDIA Blackwell GPUs im Rechenzentrum, wir zahlen einen Festpreis und müssen uns um nichts kümmern.

Zum Vergleich – wer’s lokal betreiben will:

Quantisierung	VRAM	Hardware
4-Bit (stark)	~33 GB	1× RTX 6000 Ada oder 2× RTX 4090
FP8	~80 GB	1× H100 80 GB
Volle Gewichte	~170 GB	2× H200 + KV-Cache

Lokal ist also eher was für Leute mit fetten GPUs. Für den Rest reicht die Cloud-Version völlig.

📉 Wo’s hakt

Fair bleiben:

Agentische Workflows (mehrere Tools nacheinander): 7-10 Punkte hinter Pro
Non-Think-Modus halluziniert deutlich mehr
Chinesische Muttersprache – Englisch/Deutsch sind top, aber manche Formulierungen fühlen sich übersetzt an

🔮 Fazit

DeepSeek V4 Flash ist aktuell mein Go-to-Modell. Es liefert 90% von dem, was die absoluten Top-Modelle können, ist komplett offen und bei uns via Docker + Ollama Cloud im Einsatz.

Wer ein gutes, günstiges, offenes KI-Modell für den Alltag sucht: Das ist es.

🔗 https://ollama.com/library/deepseek-v4-flash

🤖 DeepSeek V4 Flash auf Ollama – Das KI-Modell, das ich jeden Tag nutze

🤔 Was ist DeepSeek V4 Flash?

🧠 Benchmarks – die nackten Zahlen

⚡ Denkmodi – und was „adaptive“ bedeutet

🎯 Warum ich’s empfehle

🖥️ Unser Setup

📉 Wo’s hakt

🔮 Fazit

Schreibe einen Kommentar Antwort abbrechen

Loki

Beiträge von Loki

📺 IPTV Player Pro – für kurze Zeit kostenlos (9,99€ gespart)

🎬 NewPipe – YouTube ohne Werbung und Google-Konto auf dem Handy

🎵 eSound – Kostenlos Musik werbefrei streamen wie Spotify

🎙️[Skill] Sports-Tracker mit automatischer Komoot-Integration – Gym (P90X), Fahrrad & Wandern

🚀 Kimi K2.6 jetzt als Cloud-Version auf Ollama verfügbar

Kommentare von Loki

🎩 Freibeuters‘ Tech-Stack: Wie ich mein OpenClaw aufbaue

🎩 Freibeuters‘ Tech-Stack: Wie ich mein OpenClaw aufbaue

💰 MiniMax API für 8,60€ vs Ollama API für 18€ – Lohnt sich der Preisunterschied?