Deepseek V3.1

Download TXT

1. Giriş

DeepSeek-V3.1, 671 milyar parametreye sahip hibrit bir Mixture-of-Experts (MoE) dil modelidir. Her bir token için 37 milyar parametre etkinleştirilerek çalışır. Bu yeni sürüm, hem non-thinking modu (hızlı yanıtlar) hem de thinking modu (derinlemesine analiz) tek bir şablon üzerinden destekler.

Model, DeepSeekMoE mimarisi ve Çoklu Kafa Latent Dikkat (MLA) mekanizmaları üzerine kurulmuştur. Ayrıca hibrit düşünme, akıllı araç çağrımı (tool calling) ve uzun bağlam işleme yetenekleriyle V3 sürümünden belirgin şekilde daha güçlüdür.

DeepSeek-V3.1, 32K uzatma aşamasında 630 milyar token, 128K uzatma aşamasında ise 209 milyar token kullanılarak eğitilmiştir. Eğitim, UE8M0 FP8 formatı üzerinde gerçekleştirilmiş, böylece çıkarım verimliliği artırılmıştır.

2. Model Özeti

Mimari: Hibrit Mod & Yüksek Verimlilik

  • Hibrit düşünme modu: hızlı yanıt ↔ derin akıl yürütme.

  • Yardımcı kayıpsız yük dengeleme ile MoE verimliliği.

  • Multi-Token Prediction desteği ile daha hızlı çıkarım.

Ön Eğitim:

  • 630B + 209B token uzun bağlam eğitimi.

  • FP8 (UE8M0) formatı ile düşük maliyetli, yüksek doğruluklu eğitim.

  • Çapraz düğüm iletişim algoritmaları ile GPU verimliliği.

Sonradan Eğitim:

  • DeepSeek-R1’den aktarılan gelişmiş mantıksal çıkarım ve zincirleme düşünme (CoT) yetenekleri.

  • Yansıtma (reflection) ve doğrulama mekanizmalarıyla güçlendirilmiş akıl yürütme.

3. Model İndirmeleri

ModelToplam ParametreEtkin ParametreBağlam Uzunluğuİndirme
DeepSeek-V3.1-Base671B37B128K🤗 Hugging Face
DeepSeek-V3.1671B37B128K🤗 Hugging Face

🔹 Modelin toplam boyutu ~685 GB’tır.
🔹 Açık kaynak topluluk desteğiyle yerelde çalıştırılabilir.
🔹 API entegrasyonu ve detaylı dokümantasyon HuggingFace üzerinde mevcuttur.

4. Değerlendirme Sonuçları

Genel Benchmarklar (Thinking Modu)

  • MMLU-Redux: 93.7

  • MMLU-Pro: 84.8

  • GPQA-Diamond : 80.1

  • Humanity’s Last Exam: 15.9 → 29.8 (Search Agent ile)

Kodlama

  • LiveCodeBench: 74.8

  • Aider-Polyglot: 76.3

  • SWE Verified: 66.0

Matematik

  • AIME 2024: 93.1

  • AIME 2025: 88.4

  • HMMT 2025: 84.2

Bu skorlar, V3.1’in V3 ve kapalı kaynaklı modellere kıyasla ciddi bir sıçrama yaptığını göstermektedir.

5. Sohbet ve API Platformu

DeepSeek-V3.1’i hemen deneyebilirsiniz:
🌐 Sohbet: deepseekturkce.com/deepseek-v3-1

6. İletişim

Herhangi bir sorunuz için:

Scroll to Top