Download TXT
1. Giriş
DeepSeek-V3.1, 671 milyar parametreye sahip hibrit bir Mixture-of-Experts (MoE) dil modelidir. Her bir token için 37 milyar parametre etkinleştirilerek çalışır. Bu yeni sürüm, hem non-thinking modu (hızlı yanıtlar) hem de thinking modu (derinlemesine analiz) tek bir şablon üzerinden destekler.
Model, DeepSeekMoE mimarisi ve Çoklu Kafa Latent Dikkat (MLA) mekanizmaları üzerine kurulmuştur. Ayrıca hibrit düşünme, akıllı araç çağrımı (tool calling) ve uzun bağlam işleme yetenekleriyle V3 sürümünden belirgin şekilde daha güçlüdür.
DeepSeek-V3.1, 32K uzatma aşamasında 630 milyar token, 128K uzatma aşamasında ise 209 milyar token kullanılarak eğitilmiştir. Eğitim, UE8M0 FP8 formatı üzerinde gerçekleştirilmiş, böylece çıkarım verimliliği artırılmıştır.
2. Model Özeti
Mimari: Hibrit Mod & Yüksek Verimlilik
Hibrit düşünme modu: hızlı yanıt ↔ derin akıl yürütme.
Yardımcı kayıpsız yük dengeleme ile MoE verimliliği.
Multi-Token Prediction desteği ile daha hızlı çıkarım.
Ön Eğitim:
630B + 209B token uzun bağlam eğitimi.
FP8 (UE8M0) formatı ile düşük maliyetli, yüksek doğruluklu eğitim.
Çapraz düğüm iletişim algoritmaları ile GPU verimliliği.
Sonradan Eğitim:
DeepSeek-R1’den aktarılan gelişmiş mantıksal çıkarım ve zincirleme düşünme (CoT) yetenekleri.
Yansıtma (reflection) ve doğrulama mekanizmalarıyla güçlendirilmiş akıl yürütme.
3. Model İndirmeleri
Model | Toplam Parametre | Etkin Parametre | Bağlam Uzunluğu | İndirme |
---|---|---|---|---|
DeepSeek-V3.1-Base | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-V3.1 | 671B | 37B | 128K | 🤗 Hugging Face |
🔹 Modelin toplam boyutu ~685 GB’tır.
🔹 Açık kaynak topluluk desteğiyle yerelde çalıştırılabilir.
🔹 API entegrasyonu ve detaylı dokümantasyon HuggingFace üzerinde mevcuttur.
4. Değerlendirme Sonuçları
Genel Benchmarklar (Thinking Modu)
MMLU-Redux: 93.7
MMLU-Pro: 84.8
GPQA-Diamond : 80.1
Humanity’s Last Exam: 15.9 → 29.8 (Search Agent ile)
Kodlama
LiveCodeBench: 74.8
Aider-Polyglot: 76.3
SWE Verified: 66.0
Matematik
AIME 2024: 93.1
AIME 2025: 88.4
HMMT 2025: 84.2
Bu skorlar, V3.1’in V3 ve kapalı kaynaklı modellere kıyasla ciddi bir sıçrama yaptığını göstermektedir.
5. Sohbet ve API Platformu
DeepSeek-V3.1’i hemen deneyebilirsiniz:
🌐 Sohbet: deepseekturkce.com/deepseek-v3-1
6. İletişim
Herhangi bir sorunuz için: