Deepseek V3

 

DeepSeek V3

1. Giriş

DeepSeek-V3, toplamda 671 milyar parametreye sahip güçlü bir Mixture-of-Experts (MoE) dil modelidir. Her bir token için 37 milyar parametre etkinleştirilerek çalışır. Model, DeepSeekMoE mimarisi ve Çoklu Kafa Latent Dikkat (MLA) mekanizmalarını kullanarak verimli çıkarım ve düşük maliyetli eğitim sağlar. Bu teknikler daha önce DeepSeek-V2 ile başarıyla test edilmiştir.

DeepSeek-V3, yardımcı kayıp (auxiliary loss) içermeyen bir yük dengeleme stratejisi sunarak geleneksel MoE modellerinde yaşanan verimlilik kayıplarını minimize eder. Ayrıca, çoklu token tahmin (MTP) hedefi ile model performansını artırır ve daha hızlı çıkarım sağlar.

Model, 14.8 trilyon yüksek kaliteli token ile önceden eğitilmiş olup Denetimli İnce Ayar (SFT) ve Takviyeli Öğrenme (RLHF) aşamalarından geçmiştir. Yapılan kapsamlı testler, DeepSeek-V3’ün diğer açık kaynaklı modellerden üstün olduğunu ve kapalı kaynaklı en iyi modellerle rekabet edebildiğini göstermektedir.

Bu üstün performansa rağmen, DeepSeek-V3 yalnızca 2.788 milyon H800 GPU saatlik ekonomik bir eğitim sürecinden geçmiştir. Tüm eğitim süreci boyunca herhangi bir geri alınamaz kayıp artışı veya geri alma işlemi yaşanmamıştır, bu da modelin son derece kararlı olduğunu göstermektedir.

2. Model Özeti

Mimari: Yük Dengeleme ve Eğitim Hedefi

DeepSeek-V3, DeepSeek-V2’nin verimli yapısını temel alarak aşağıdaki yenilikleri ekler:

  • Yardımcı kayıpsız yük dengeleme stratejisi, MoE modellerinde yaygın görülen performans kayıplarını önler.
  • Çoklu Token Tahmin (MTP) hedefi, modelin doğruluğunu artırırken spekülatif kod çözmeyi (speculative decoding) mümkün kılarak çıkarım sürecini hızlandırır.

Ön Eğitim: Maksimum Verimlilik

DeepSeek-V3, ölçeklenebilirliği ve verimliliği artırmak için şu yenilikleri içerir:

  • FP8 karışık hassasiyetli eğitim, büyük ölçekli modeller için başarıyla uygulanmıştır.
  • Çapraz düğüm (cross-node) MoE eğitimindeki iletişim darboğazlarını aşan özel bir algoritma, hesaplama-iletişim örtüşmesini maksimuma çıkarır.

Bu stratejiler, yalnızca 2.664 milyon H800 GPU saatlik maliyetle mevcut en güçlü açık kaynaklı temel modelin ön eğitimini tamamlamayı mümkün kılmıştır. Ön eğitim sonrası ince ayar aşamaları ise yalnızca 0.1 milyon GPU saati gerektirmektedir.

Sonradan Eğitim: Gelişmiş Bilgi Aktarımı

DeepSeek-V3, DeepSeek-R1 serisi modellerinden elde edilen uzun Zincirleme Düşünme (CoT) yeteneklerini aktararak çıkarım gücünü artırır. Bu süreç, doğrulama ve yansıtma (reflection) yöntemlerini içeren gelişmiş bir bilgi aktarım mekanizması sayesinde gerçekleştirilir. Böylece modelin gerekçelendirme yetenekleri önemli ölçüde iyileştirilirken, çıktı stili ve uzunluğu da kontrol altında tutulur.

3. Model İndirmeleri

ModelToplam ParametreEtkinleştirilen ParametreBağlam Uzunluğuİndirme Linki
DeepSeek-V3-Base671B37B128K🤗 Hugging Face
DeepSeek-V3671B37B128K🤗 Hugging Face

Notlar:

  • Hugging Face üzerinde bulunan DeepSeek-V3 modeli toplamda 685 milyar parametreye sahiptir. Bu, 671 milyar Ana Model ağırlıkları ve 14 milyar Çoklu Token Tahmin (MTP) Modülü ağırlıklarını içerir.
  • DeepSeek, açık kaynak toplulukları ve donanım üreticileriyle iş birliği yaparak modelin yerel olarak çalıştırılması için çeşitli yöntemler sunmaktadır. Ayrıntılı talimatlar için Bölüm 6: Modeli Yerel Olarak Çalıştırma rehberine göz atabilirsiniz.
  • Geliştiriciler, model ağırlıklarıyla ilgili daha fazla ayrıntıya README_WEIGHTS.md dosyasından ulaşabilirler.
  • MTP desteği hâlâ geliştirme aşamasındadır, bu nedenle topluluk katkılarına ve geri bildirimlere açıktır.

Bu versiyon, orijinal içeriğin anlamını koruyarak daha anlaşılır ve akıcı bir şekilde Türkçeye çevrildi. İstediğiniz değişiklikleri yapmamı ister misiniz?

4. Değerlendirme Sonuçları

Base Model

 

Standard Benchmarks

Benchmark (Metric)# ShotsDeepSeek-V2Qwen2.5 72BLLaMA3.1 405BDeepSeek-V3
 ArchitectureMoEDenseDenseMoE
 # Activated Params21B72B405B37B
 # Total Params236B72B405B671B
EnglishPile-test (BPB)0.6060.6380.5420.548
 BBH (EM)3-shot78.879.882.987.5
 MMLU (Acc.)5-shot78.485.084.487.1
 MMLU-Redux (Acc.)5-shot75.683.281.386.2
 MMLU-Pro (Acc.)5-shot51.458.352.864.4
 DROP (F1)3-shot80.480.686.089.0
 ARC-Easy (Acc.)25-shot97.698.498.498.9
 ARC-Challenge (Acc.)25-shot92.294.595.395.3
 HellaSwag (Acc.)10-shot87.184.889.288.9
 PIQA (Acc.)0-shot83.982.685.984.7
 WinoGrande (Acc.)5-shot86.382.385.284.9
 RACE-Middle (Acc.)5-shot73.168.174.267.1
 RACE-High (Acc.)5-shot52.650.356.851.3
 TriviaQA (EM)5-shot80.071.982.782.9
 NaturalQuestions (EM)5-shot38.633.241.540.0
 AGIEval (Acc.)0-shot57.575.860.679.6
CodeHumanEval (Pass@1)0-shot43.353.054.965.2
 MBPP (Pass@1)3-shot65.072.668.475.4
 LiveCodeBench-Base (Pass@1)3-shot11.612.915.519.4
 CRUXEval-I (Acc.)2-shot52.559.158.567.3
 CRUXEval-O (Acc.)2-shot49.859.959.969.8
MathGSM8K (EM)8-shot81.688.383.589.3
 MATH (EM)4-shot43.454.449.061.6
 MGSM (EM)8-shot63.676.269.979.8
 CMath (EM)3-shot78.784.577.390.7
ChineseCLUEWSC (EM)5-shot82.082.583.082.7
 C-Eval (Acc.)5-shot81.489.272.590.1
 CMMLU (Acc.)5-shot84.089.573.788.8
 CMRC (EM)1-shot77.475.876.076.3
 C3 (Acc.)0-shot77.476.779.778.6
 CCPM (Acc.)0-shot93.088.578.692.0
MultilingualMMMLU-non-English (Acc.)5-shot64.074.873.879.4

En iyi sonuçlar kalın olarak gösterilmiştir. 0,3’ü aşmayan bir farka sahip puanlar aynı seviyede kabul edilir. DeepSeek-V3, özellikle matematik ve kod görevlerinde çoğu kıyaslamada en iyi performansı elde eder. Daha fazla değerlendirme ayrıntısı için lütfen makalemizi inceleyin.

Bağlam Penceresi

 

Needle In A Haystack (NIAH) testlerinde değerlendirme sonuçları. DeepSeek-V3, 128K’ya kadar tüm bağlam penceresi uzunluklarında iyi performans gösteriyor.

Sohbet Modeli

Standart Ölçütler (67B’den büyük modeller)

 
 Benchmark (Metric)DeepSeek V2-0506DeepSeek V2.5-0905Qwen2.5 72B-Inst.Llama3.1 405B-Inst.Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3
 ArchitectureMoEMoEDenseDenseMoE
 # Activated Params21B21B72B405B37B
 # Total Params236B236B72B405B671B
EnglishMMLU (EM)78.280.685.388.688.387.288.5
 MMLU-Redux (EM)77.980.385.686.288.988.089.1
 MMLU-Pro (EM)58.566.271.673.378.072.675.9
 DROP (3-shot F1)83.087.876.788.788.383.791.6
 IF-Eval (Prompt Strict)57.780.684.186.086.584.386.1
 GPQA-Diamond (Pass@1)35.341.349.051.165.049.959.1
 SimpleQA (Correct)9.010.29.117.128.438.224.9
 FRAMES (Acc.)66.965.469.870.072.580.573.3
 LongBench v2 (Acc.)31.635.439.436.141.048.148.7
CodeHumanEval-Mul (Pass@1)69.377.477.377.281.780.582.6
 LiveCodeBench (Pass@1-COT)18.829.231.128.436.333.440.5
 LiveCodeBench (Pass@1)20.328.428.730.132.834.237.6
 Codeforces (Percentile)17.535.624.825.320.323.651.6
 SWE Verified (Resolved)22.623.824.550.838.842.0
 Aider-Edit (Acc.)60.371.665.463.984.272.979.7
 Aider-Polyglot (Acc.)18.27.65.845.316.049.6
MathAIME 2024 (Pass@1)4.616.723.323.316.09.339.2
 MATH-500 (EM)56.374.780.073.878.374.690.2
 CNMO 2024 (Pass@1)2.810.815.96.813.110.843.2
ChineseCLUEWSC (EM)89.990.491.484.785.487.990.9
 C-Eval (EM)78.679.586.161.576.776.086.5
 C-SimpleQA (Correct)48.554.148.450.451.359.364.8

Tüm modeller, çıktı uzunluğunu 8K ile sınırlayan bir yapılandırmada değerlendirilir. 1000’den az örnek içeren kıyaslamalar, sağlam nihai sonuçlar elde etmek için değişen sıcaklık ayarları kullanılarak birden çok kez test edilir. DeepSeek-V3, en iyi performans gösteren açık kaynaklı model olarak öne çıkar ve ayrıca sınır kapalı kaynaklı modellere karşı rekabetçi performans sergiler.

Açık Uçlu Nesil Değerlendirmesi

 

ModelArena-HardAlpacaEval 2.0
DeepSeek-V2.5-090576.250.5
Qwen2.5-72B-Instruct81.249.1
LLaMA-3.1 405B69.340.5
GPT-4o-051380.451.1
Claude-Sonnet-3.5-102285.252.0
DeepSeek-V385.570.0

İngilizce açık uçlu konuşma değerlendirmeleri. AlpacaEval 2.0 için, uzunluk kontrollü kazanma oranını metrik olarak kullanıyoruz.

5. Sohbet Web Sitesi ve API Platformu

DeepSeek-V3 ile DeepSeek’in resmi web sitesinde sohbet edebilirsiniz: chat.deepseek.com

DeepSeek Platformunda OpenAI Uyumlu API de sağlıyoruz: platform.deepseek.com

6. İletişim

Herhangi bir sorunuz varsa lütfen bir sorun bildirin veya service@deepseekturkce.com adresinden bizimle iletişime geçin.

Scroll to Top