DeepSeek: Open-Source Performance für alle

Stand: Januar 2026 | Autor: Steffen Quievreux - KI Berater

DeepSeek hat sich in wenigen Jahren von einem chinesischen Forschungsprojekt zu einem der wichtigsten Open-Weight-Anbieter für Hochleistungs-LLMs entwickelt – mit Modellen wie DeepSeek-V3 und DeepSeek-V3.2 im allgemeinen Reasoning sowie DeepSeek-Coder im Coding-Bereich, die leistungsmäßig in die Nähe von GPT‑4o, Claude 3.5/3.7 und teilweise GPT‑5 kommen, aber zu einem Bruchteil der Kosten selbst gehostet oder über günstige APIs betrieben werden können.¹²³

Im Folgenden ein systematischer Überblick über Historie, Technik, Benchmarks, Datenschutz, Kosten und die Einordnung gegenüber GPT‑4o und Claude.

Überblick und Historie

Hintergrund

Anbieter: DeepSeek ist ein chinesisches KI-Unternehmen mit Fokus auf kosteneffiziente, hochskalierende LLMs und Open-Weight-Veröffentlichungen.¹²³
Entwicklungsteam: Das Kernteam firmiert unter DeepSeek AI (häufig als „DeepSeek-AI“ in Repos und Model Cards geführt) und arbeitet eng mit chinesischen Forschungspartnern und Cloud-Anbietern zusammen.⁴⁵
Erstveröffentlichung: Die erste weithin beachtete Open-Weight-Generation war DeepSeek-V2/V2.5 (2023), gefolgt von DeepSeek-V3 Ende 2024, das erstmals ein frontier-nahes Open-Weight-MoE-Modell darstellte.⁵⁶
Aktuelle Generation (Januar 2026):
- DeepSeek-V3 (Basisgeneration, 2024) – offenes MoE-Modell mit starken Mathe- und Coding-Fähigkeiten.⁵
- DeepSeek-V3.1 (2025, interne Zwischenversion, v. a. in technischen Berichten erwähnt).⁶
- DeepSeek-V3.2 (2025) – verbesserte Version mit DeepSeek Sparse Attention (DSA), optimiert für Langkontext, Agenten und Reasoning.⁴⁶³
- DeepSeek-V3.2-Speciale (2025, High-Compute-Variante) – maximales Reasoning, übertrifft auf Elite-Benchmarks GPT‑5, war bis 15.12.2025 als API-Endpunkt verfügbar.²⁴³
- DeepSeek-Coder (V2/V3‑Ära) – Coding-spezialisierte Varianten, aus V3‑Architektur und dedizierten Code-Datensätzen/Benchmarks abgeleitet.⁵²

Kernmerkmale

Open Weight / Open Source:
- DeepSeek stellt seine V3/V3.2-Modelle als Open Weights mit permissiven Lizenzen (MIT / Apache‑2.0) zur Verfügung, was breite kommerzielle Nutzung und Self‑Hosting erlaubt.¹²⁵
- Modelle sind u. a. auf Hugging Face, GitHub und über NVIDIA NIM/Build verfügbar.¹⁴⁵
Coding-Spezialisierung:
- DeepSeek-V3 erreicht in den offiziellen Evaluierungen sehr starke Ergebnisse auf Coding-Benchmarks und wird von DeepSeek explizit als besonders gut in „math and code tasks“ beschrieben.⁵
- DeepSeek-Coder und V3.2 zeigen exzellente Werte auf LiveCodeBench und vergleichbaren Benchmarks, mit Coding-Performance in der Größenordnung von Claude 3.5 Sonnet und GPT‑5‑Klasse-Modellen.¹²³
Preis-Leistung:
- Durch die Kombination aus MoE-Architektur, FP8-Training und DSA liegen sowohl Trainings- als auch Inferenzkosten deutlich unter westlichen Frontier-Modellen gleicher Leistungsklasse.²³⁷
- Analysen zeigen 45‑ bis 500‑fache Kostenersparnis gegenüber proprietären Closed-Source-APIs (OpenAI, Anthropic, Google), wenn DeepSeek-Modelle selbst gehostet werden.²

Technische Spezifikationen

Architektur

Basis: Mixture-of-Experts (MoE)
- DeepSeek-V3/V3.2 setzen auf ein sehr großes MoE-Modell mit 685 Milliarden Gesamtparametern, von denen pro Token nur ein Teil aktiv ist.²³
- Pro Token werden etwa 37 Milliarden Parameter genutzt – damit kombiniert das Modell die Kapazität eines 685B‑Modells mit den Inferenzkosten eines ~37B‑Dense-Modells.²
DeepSeek Sparse Attention (DSA)
- Ab V3.2 kommt DSA zum Einsatz, ein feingranulares, indexbasiertes Sparse-Attention-Verfahren mit großem Vorteil bei Langkontexten.⁴⁶³⁷
- DSA reduziert die Inferenzkosten typischerweise um 50–75 %, insbesondere bei großen Kontextlängen, ohne signifikanten Qualitätsverlust.³⁷
Trainingseffizienz
- DeepSeek-V3 wurde laut Branchenanalysen auf 2.048 NVIDIA H800 GPUs mit rund 2,788 Mio. GPU-Stunden trainiert – bei geschätzten Compute-Kosten von nur ca. 5,6 Mio. USD, was extrem niedrig ist für ein frontier-nahes Modell dieser Größe.²
- Zum Vergleich: Llama 3 405B benötigte ~30,8 Mio. GPU-Stunden, also etwa 11‑mal mehr Compute trotz kleinerer Modelldimension.²
- Wichtige Technikbausteine:
  - FP8 Mixed-Precision-Training in großem Maßstab.²
  - Hohe Effizienz gemessen in GFLOPs pro Token: DeepSeek V3 kommt mit ~250 GFLOPs/Token aus, gegenüber ~394 bei Qwen 2.5 72B und ~2.448 bei Llama 3.1 405B.²
Inference-Hardware / Self‑Hosting
- Volles V3/V3.2‑MoE-Modell (FP8) benötigt ca. 700 GB VRAM, d. h. etwa 8–10 NVIDIA H100 (80 GB) oder Äquivalente.²
- 4‑bit-quantisierte Varianten können mit ~386 GB VRAM auf 5–6 H100‑GPUs betrieben werden.²
- NVIDIA empfiehlt für V3.2 in seinen NIM Model Cards H100/H200 mit FP8/BF16/F32 als unterstützte Präzisionen.⁴

Modellvarianten

Die folgende Übersicht konzentriert sich auf die Hauptvarianten, die Anfang 2026 praktisch relevant sind. Ältere Varianten (z. B. DeepSeek-V2, frühere Coder-Generationen) sind funktional weiterhin nutzbar, werden aber typischerweise von V3/V3.2 ersetzt.

Modell	Typ / Fokus	Architektur	Parameter (gesamt / aktiv)	Kontext & Features	Lizenz / Verfügbarkeit	Typische Nutzung
DeepSeek-V3	Allgemeines LLM, stark in Mathe & Code	MoE, Transformer mit Multi-Head Latent Attention	≈685B gesamt, ≈37B aktiv pro Token	Großer Kontext (mehrere 100k Tokens in Hostings), sehr starke Mathe- & Coding-Benchmarks	Open Weights (MIT/Apache-ähnlich), u. a. auf GitHub & Hugging Face	Allgemeiner Assistent, Reasoning, Coding, interne Unternehmens-LLM-Plattformen
DeepSeek-V3.2	Reasoning & Agenten, Langkontext-optimiert	MoE mit DeepSeek Sparse Attention (DSA)	≈685B gesamt, ≈37B aktiv pro Token	Langkontext, verbesserte Mathe/Code, Agentic Features (Tool-Use, Self-Verification)	Open Weights; gehostet über diverse Provider (inkl. NVIDIA NIM)	Komplexe Workflows, Langdokumente, RAG, Agenten, anspruchsvolles Reasoning
DeepSeek-V3.2-Speciale	High-Compute-Elite-Reasoning	MoE + DSA, High-Compute-Konfiguration	≈685B gesamt, ≈37B aktiv, längere Reasoning-Chains	Maximale Leistung auf Mathe/IOI/IMO/AIME, kein Tool-Calling, ausschließlich Reasoning	Open Weights; API-Endpunkt offiziell nur bis 15.12.2025, Self-Hosting weiterhin möglich	Elite-Benchmarks, Forschung, extrem anspruchsvolle Mathe- und Coding-Aufgaben
DeepSeek-Coder (V3-Generation)	Coding-spezialisiert	Abgeleitete V3/V3.2-Architektur mit Code-Finetuning	Je nach Variante (kleinere Code-Modelle bis hin zu MoE-Varianten)	Optimiert für Code-Completion, Refactoring, Tests; starke LiveCodeBench-/HumanEval-Ergebnisse	Open Weights (permissive Lizenz), mehrere Größen verfügbar	IDE-Integration, CI/CD‑Automatisierung, Refactoring, Code-Überprüfung

²⁴⁶³⁷⁸⁵

Leistungsbenchmarks

Klassische Benchmarks (MMLU, MMLU‑Pro, GPQA, Mathe)

DeepSeek-V3 (Basis)
- Der V3‑Report hebt Spitzenleistungen auf Standard-Benchmarks hervor, insbesondere bei MMLU, Mathe und Code im Vergleich zu anderen Open-Source-Modellen.⁵
DeepSeek-V3.2 (Standard)
- Industry-Analysen der V3.2‑Release betonen Top‑Rankings auf MMLU‑Pro, GPQA Diamond und AIME 2024, was eine sehr starke allgemeine und wissenschaftliche Reasoning-Fähigkeit belegt.¹³
- V3.2 wird in mehreren Vergleichen als kompetitiv zu Claude 3.5 Sonnet und anderen damaligen Frontier-Modellen (z. B. Gemini 2.5 Pro) beschrieben.¹⁶³
DeepSeek-V3.2-Speciale (High‑End)
- Erreicht laut mehreren Auswertungen 96 % auf AIME, liegt damit leicht über GPT‑5‑High (~94,6 %) und Gemini‑3.0‑Pro (~95 %).²³⁸
- Gewinnt Goldmedaillen bei der International Mathematical Olympiad (IMO 2025) und der International Olympiad in Informatics (IOI 2025), mit Performance in der Spitzengruppe aller Modelle weltweit.⁴³
- Auf Harvard‑MIT‑Mathematics-Turnieren erreicht V3.2‑Speciale Werte von >99 %, teils über den besten Google-/OpenAI-Modellen der gleichen Generation.²³

Coding-Benchmarks (HumanEval, LiveCodeBench)

HumanEval
- Die V3/V3.2‑Reihe wird in der Literatur als exzellent auf HumanEval bzw. vergleichbaren Programmiertests beschrieben; DeepSeek selbst betont die Überlegenheit auf „most benchmarks, especially on math and code tasks“.⁵
- Externe Vergleiche ordnen V3.2 in der Nähe von Claude 3.5 Sonnet und Gemini 2.5/3.0 Pro beim Code-Reasoning ein.¹⁶⁸
LiveCodeBench & realistische Coding-Aufgaben
- DeepSeek-V3.2 zeigt sehr starke Ergebnisse auf LiveCodeBench, einem Benchmark mit Fokus auf realistische Coding-Aufgaben; Berichte sehen V3.2 hier auf oder knapp hinter Claude 3.5 Sonnet und GPT‑5‑Klasse-Modellen.¹³⁸
- DeepSeek-Coder ist auf diese Szenarien weiter optimiert und wird von vielen Anbietern als hochperformantes, kostenoptimiertes Code-Modell für IDE-Integrationen und DevOps-Pipelines eingesetzt.¹²⁵

Vergleich zu GPT‑4o und Claude (3.5/3.7)

Against GPT‑4o (OpenAI)
- GPT‑4o bleibt im Gesamtpaket (Multimodalität, Tooling, Ecosystem) führend, insbesondere bei Sprache/Bild/Audio und Safety-Finetuning.¹⁶
- Auf reinem Text-Reasoning, Mathe und Code liegt DeepSeek-V3.2 laut unabhängigen Analysen häufig auf GPT‑4o‑Niveau oder darüber, insbesondere bei spezialisierten Benchmarks (AIME, GPQA, LiveCodeBench).¹²⁶³
Against Claude 3.5/3.7 (Anthropic)
- Claude 3.5/3.7 gilt als sehr stark im allgemeinen Reasoning, Schreiben und bei Sicherheitsrichtlinien.
- DeepSeek-V3.2 erreicht auf MMLU‑Pro, GPQA, AIME und LiveCodeBench laut mehreren Quellen vergleichbare oder teils bessere Werte als Claude 3.5 Sonnet, insbesondere in Mathe- und Coding-lastigen Benchmarks.¹⁶³⁸

Datenschutz und Sicherheit

Datenherkunft und Trainingsdaten

Trainingsdaten
- Wie bei GPT‑4o und Claude veröffentlicht DeepSeek keine vollständige, detaillierte Liste seiner Trainingsdatenquellen.⁵¹
- Branchenanalysen gehen von einer Mischung aus öffentlichen Web-Daten, Code-Repositories, wissenschaftlichen Publikationen und synthetischen Daten aus.¹³⁵

Chinesischer Ursprung & Infrastruktur

Unternehmenssitz
- DeepSeek ist in China ansässig; das Unternehmen unterliegt damit chinesischem Recht, einschließlich möglicher Vorgaben zur Datenspeicherung und -herausgabe, wenn Dienste aus China betrieben werden.¹³
Server- und Hosting-Standorte
- Für Self-Hosting (On-Premise oder in europäischen/US‑Clouds) liegen die Modelle als Open Weights vor, sodass keinerlei Nutzerdaten zu DeepSeek selbst übertragen werden müssen – ein großer Datenschutzvorteil gegenüber rein API-basierten US-/CN‑Anbietern.¹²⁵
- Mehrere internationale Cloud- und Plattformanbieter (u. a. NVIDIA NIM) hosten DeepSeek-Modelle in Rechenzentren außerhalb Chinas, sodass Unternehmen Region-Compliance (z. B. EU) erreichen können.⁴⁷⁸

Sicherheit, Alignment und Governance

Safety / Alignment
- DeepSeek berichtet von skalierter Reinforcement-Learning-Post-Training-Pipelines (ähnlich RLHF/RLAIF), um V3/V3.2 an Nutzersicherheit, Nutzerrichtlinien und hilfreiches Verhalten anzupassen.⁴⁶³
- Konkrete Safety-Frameworks sind weniger transparent dokumentiert als bei Anthropic, dennoch zeigen Benchmarks und öffentliche Demos eine im Alltag brauchbare Moderation, wenn auch mit regionalen Biases und teilweise lockereren Filtern im Vergleich zu Claude.¹⁶³
Compliance im Unternehmenseinsatz
- Self-Hosting erlaubt volle Kontrolle über Logging, Datenlöschung, Zugriffskontrolle und Auditing – ein entscheidendes Argument für datensensible Branchen (Finanzen, Gesundheitswesen, Industrie).¹²⁷
- Unternehmen sollten jedoch die Exportkontrollen (H800/H100, chinesische Hardware-Beschränkungen) und rechtliche Rahmenbedingungen (z. B. EU AI Act, DSGVO) prüfen und in Risikoanalysen explizit berücksichtigen, dass das Kernteam in China sitzt.²³

Kostenstruktur

API-Kosten vs. Self‑Hosting

API-Preise (öffentlich bekannte Spannweiten)
- Im Vergleich zu OpenAI/Anthropic positioniert DeepSeek seine Cloud-APIs deutlich günstiger, insbesondere bei großen Kontexten und hoher Request-Last.¹²³
- Konkrete Listenpreise variieren nach Anbieter und Region; als Faustregel liegen DeepSeek-APIs im ein- bis niedrigen zweistelligen Prozentbereich der Kosten für vergleichbare GPT‑4o-/Claude-Endpunkte (Tokens/Monat auf hohem Volumen).[^^3]³⁸
Self-Hosting-Kosten
- Analysen beziffern den Unterschied zu Closed-Source-APIs wie folgt:
  - 45‑ bis 500‑fach geringere Kosten bei hohen Volumina, wenn Unternehmen DeepSeek‑Modelle selbst auf H100‑Kluster betreiben, statt GPT‑4o/Claude in der Cloud einzukaufen.²
  - Beispiel: Anstatt 50.000+ USD/Monat für API‑Nutzung frontier-naher Closed-Source-Modelle zu zahlen, können Unternehmen mit einem einmalig angeschafften H100‑Cluster (8–10 GPUs, ~250–300k USD) DeepSeek-V3.2 langfristig mit vergleichbarer Leistung betreiben.²³
Effizienz durch Architektur
- Der MoE‑Ansatz (37B aktiv) plus DSA und FP8 führt zu deutlich niedrigeren Betriebskosten pro generiertem Token als vergleichbare Dense-Frontier-Modelle (z. B. GPT‑4o‑architecture, Claude 3.5/3.7, Gemini‑3.0‑Pro).[^^3]³⁷

Vergleich zu OpenAI und Anthropic

OpenAI (GPT‑4o/4.1/GPT‑5‑Klasse)
- Bieten umfangreiche Features (Multimodal, Tools, Assistants-API, spezialisierte Varianten), verlangen aber für frontier-nahe Modelle Premiumpreise pro 1k Token.¹
- Für Großkunden mit hohem Volumen sind die Total Cost of Ownership signifikant höher als beim Self‑Hosting eines Modells wie DeepSeek-V3.2, zumal OpenAI keine Open Weights bereitstellt.¹²
Anthropic (Claude 3.5/3.7)
- Claude ist stark auf „AI-as-a-Service“ ausgelegt; auch hier fehlen Open Weights und die Nutzung ist auf kostenpflichtige APIs beschränkt.¹
- In Benchmarks, in denen DeepSeek-V3.2 ähnlich leistungsfähig ist, kann Self‑Hosting wirtschaftlich massiv attraktiver sein, insbesondere in hochregulierten Branchen, in denen Datensouveränität wichtig ist.¹²³

Call to Action

Wann lohnt sich DeepSeek?

Sie benötigen frontier-nahe Reasoning- und Coding-Fähigkeiten.
Sie wollen Kosten pro Token drastisch senken – etwa durch Self‑Hosting auf vorhandener GPU-Infrastruktur.
Sie legen Wert auf Datensouveränität und möchten keine sensiblen Daten an US- oder chinesische APIs senden.

In diesen Szenarien sollten Sie DeepSeek-V3.2 (bzw. für harte Mathe/Coding-Fälle V3.2-Speciale) und DeepSeek-Coder konkret evaluieren – idealerweise in einem Proof of Concept zusammen mit Ihren eigenen Benchmarks, Compliance-Anforderungen und Kostenmodellen.

Entdecken Sie DeepSeek!

Quellenverzeichnis

AIMultiple, „DeepSeek: Features, Pricing & Accessibility in 2026“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Introl, „DeepSeek V3.2 Beats GPT‑5 on Elite Benchmarks: What China’s AI Breakthrough Means“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
UNU C3, „Inside DeepSeek’s End-of-Year AI Breakthrough: What the New Models Deliver“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
NVIDIA, „deepseek‑v3.2 Model Card (NIM APIs)“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
GitHub, „deepseek-ai/DeepSeek-V3 – Official Repository & Evaluation Overview“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Sebastian Raschka, „A Technical Tour of the DeepSeek Models from V3 to V3.2“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Thesys, „DeepSeek V3.2: Performance, Benchmarks, and Tradeoffs“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Eesel.ai, „An overview of DeepSeek V3.2: Features, performance, and what it means“, URL ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

DeepSeek: Open-Source Performance für alle#

Überblick und Historie#

Hintergrund#

Kernmerkmale#

Technische Spezifikationen#

Architektur#

Modellvarianten#

Leistungsbenchmarks#

Klassische Benchmarks (MMLU, MMLU‑Pro, GPQA, Mathe)#

Coding-Benchmarks (HumanEval, LiveCodeBench)#

Vergleich zu GPT‑4o und Claude (3.5/3.7)#

Datenschutz und Sicherheit#

Datenherkunft und Trainingsdaten#

Chinesischer Ursprung & Infrastruktur#

Sicherheit, Alignment und Governance#

Kostenstruktur#

API-Kosten vs. Self‑Hosting#

Vergleich zu OpenAI und Anthropic#

Call to Action#

Quellenverzeichnis#

Verwandte Artikel

ChatGPT: OpenAI’s Revolutionäre KI

Claude: Anthropic’s Sichere KI

Google Gemini: Multimodales KI-Modell im Detail

GPT-4o: OpenAI’s Multimodales Echtzeit-Modell

Grok: xAI’s Wahrheitsgetreue KI