DeepSeek Coder V2

Deepseek - Coder V2

1. Giriş

DeepSeek-Coder-V2, GPT-4 Turbo ile kıyaslanabilir performans sunan açık kaynaklı bir Mixture-of-Experts (MoE) kodlama dil modelidir. Bu model, DeepSeek-V2’nin ara bir kontrol noktasından alınarak 6 trilyon ek tokenle yeniden eğitilmiştir.

Bu geliştirme sayesinde DeepSeek-Coder-V2, kodlama ve matematiksel akıl yürütme yeteneklerini önemli ölçüde geliştirirken, genel dil anlama alanındaki performansını da korur. DeepSeek-Coder-33B sürümüne kıyasla aşağıdaki açılardan büyük ilerlemeler sunar:

  • Kod üretimi, tamamlama ve hata düzeltme konularında daha güçlü yetenekler
  • Desteklenen programlama dillerinin 86’dan 338’e çıkarılması
  • Bağlam uzunluğunun 16K’dan 128K’ya genişletilmesi

DeepSeek-Coder-V2, kodlama ve matematik alanlarında lider kapalı kaynaklı modelleri (GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro) geride bırakacak şekilde geliştirilmiştir.

2. Model İndirme

DeepSeek-Coder-V2, DeepSeekMoE çerçevesine dayalı olarak farklı yapılandırmalarla sunulmaktadır. Modelin toplam parametre sayısı yüksek olsa da, çıkarım sırasında yalnızca belirli bir kısmı etkinleştirilerek verimlilik sağlanır.

Model Toplam Parametre Etkin Parametre Bağlam Uzunluğu İndirme Linki
DeepSeek-Coder-V2-Lite-Base 16B 2.4B 128K 🤗 Hugging Face
DeepSeek-Coder-V2-Lite-Instruct 16B 2.4B 128K 🤗 Hugging Face
DeepSeek-Coder-V2-Base 236B 21B 128K 🤗 Hugging Face
DeepSeek-Coder-V2-Instruct 236B 21B 128K 🤗 Hugging Face

Öne Çıkan Özellikler:

  • Lite sürümü (16B toplam, 2.4B etkin), daha hafif ve verimli bir kod modeli sunar.
  • Tam sürüm (236B toplam, 21B etkin), üst düzey kodlama, tamamlama ve hata düzeltme performansı sağlar.
  • Base ve Instruct modelleri mevcuttur. Instruct modelleri, talimatları takip etmek için özel olarak ince ayarlanmıştır.

Detaylı kurulum ve kullanım talimatları için “Modeli Yerelde Çalıştırma” bölümüne göz atabilirsiniz.

3. Değerlendirme Sonuçları

3.1 Kod Üretimi Performansı

DeepSeek-Coder-V2, HumanEval, MBPP+, LiveCodeBench ve USACO gibi çeşitli kod üretme testlerinde üstün başarı elde etmiştir. Açık kaynaklı modeller arasında en güçlülerinden biri olup GPT-4 Turbo’ya yakın performans göstermektedir.

#TP #AP HumanEval MBPP+ LiveCodeBench USACO
Closed-Source Models
Gemini-1.5-Pro 83.5 74.6 34.1 4.9
Claude-3-Opus 84.2 72.0 34.6 7.8
GPT-4-Turbo-1106 87.8 69.3 37.1 11.1
GPT-4-Turbo-0409 88.2 72.2 45.7 12.3
GPT-4o-0513 91.0 73.5 43.4 18.8
Open-Source Models
CodeStral 22B 22B 78.1 68.2 31.0 4.6
DeepSeek-Coder-Instruct 33B 33B 79.3 70.1 22.5 4.2
Llama3-Instruct 70B 70B 81.1 68.8 28.7 3.3
DeepSeek-Coder-V2-Lite-Instruct 16B 2.4B 81.1 68.8 24.3 6.5
DeepSeek-Coder-V2-Instruct 236B 21B 90.2 76.2 43.4 12.1

3.2 Kod Tamamlama Performansı

DeepSeek-Coder-V2, özellikle Python ve Java kod tamamlama testlerinde yüksek performans göstermektedir.

Model #TP #AP RepoBench (Python) RepoBench (Java) HumanEval FIM
CodeStral 22B 22B 46.1 45.7 83.0
DeepSeek-Coder-Base 7B 7B 36.2 43.3 86.1
DeepSeek-Coder-Base 33B 33B 39.1 44.8 86.4
DeepSeek-Coder-V2-Lite-Base 16B 2.4B 38.9 43.3 86.4

3.3 Kod Hata Düzeltme Performansı

DeepSeek-Coder-V2, Defects4J, SWE-Bench ve Aider testlerinde kod hatalarını düzeltme konusunda önemli iyileştirmeler sunmaktadır.

#TP #AP Defects4J SWE-Bench Aider
Closed-Source Models
Gemini-1.5-Pro 18.6 19.3 57.1
Claude-3-Opus 25.5 11.7 68.4
GPT-4-Turbo-1106 22.8 22.7 65.4
GPT-4-Turbo-0409 24.3 18.3 63.9
GPT-4o-0513 26.1 26.7 72.9
Open-Source Models
CodeStral 22B 22B 17.8 2.7 51.1
DeepSeek-Coder-Instruct 33B 33B 11.3 0.0 54.5
Llama3-Instruct 70B 70B 16.2 49.2
DeepSeek-Coder-V2-Lite-Instruct 16B 2.4B 9.2 0.0 44.4
DeepSeek-Coder-V2-Instruct 236B 21B 21.0 12.7 73.7

3.4 Matematiksel Akıl Yürütme Performansı

DeepSeek-Coder-V2, GSM8K, MATH, AIME 2024 ve Math Odyssey gibi testlerde GPT-4 Turbo ile rekabet edebilecek seviyede performans göstermektedir.

#TP #AP GSM8K MATH AIME 2024 Math Odyssey
Closed-Source Models
Gemini-1.5-Pro 90.8 67.7 2/30 45.0
Claude-3-Opus 95.0 60.1 2/30 40.6
GPT-4-Turbo-1106 91.4 64.3 1/30 49.1
GPT-4-Turbo-0409 93.7 73.4 3/30 46.8
GPT-4o-0513 95.8 76.6 2/30 53.2
Open-Source Models
Llama3-Instruct 70B 70B 93.0 50.4 1/30 27.9
DeepSeek-Coder-V2-Lite-Instruct 16B 2.4B 86.4 61.8 0/30 44.4
DeepSeek-Coder-V2-Instruct 236B 21B 94.9 75.7 4/30 53.7

3.5 Genel Dil Anlama Yeteneği

DeepSeek-Coder-V2, MMLU, ARC, TriviaQA, NaturalQuestions gibi genel dil anlama testlerinde de güçlü bir performans sergilemektedir.

Benchmark Domain DeepSeek-V2-Lite Chat DeepSeek-Coder-V2-Lite Instruct DeepSeek-V2 Chat DeepSeek-Coder-V2 Instruct
BBH English 48.1 61.2 79.7 83.9
MMLU English 55.7 60.1 78.1 79.2
ARC-Easy English 86.1 88.9 98.1 97.4
ARC-Challenge English 73.4 77.4 92.3 92.8
TriviaQA English 65.2 59.5 86.7 82.3
NaturalQuestions English 35.5 30.8 53.4 47.5
AGIEval English 42.8 28.7 61.4 60
CLUEWSC Chinese 80.0 76.5 89.9 85.9
C-Eval Chinese 60.1 61.6 78.0 79.4
CMMLU Chinese 62.5 62.7 81.6 80.9
Arena-Hard 11.4 38.1 41.6 65.0
AlpaceEval 2.0 16.9 17.7 38.9 36.9
MT-Bench 7.37 7.81 8.97 8.77
Alignbench 6.02 6.83 7.91 7.84

3.6 Bağlam Penceresi

Evaluation results on the Needle In A Haystack (NIAH) tests. DeepSeek-Coder-V2 performs well across all context window lengths up to 128K.

4. Sohbet Web Sitesi

DeepSeek-Coder-V2 ile DeepSeek’in resmi web sitesinde sohbet edebilirsiniz: coder.deepseek.com

5. API Platformu

DeepSeek Platformunda ayrıca OpenAI ile uyumlu API sağlıyoruz: platform.deepseek.com ve ayrıca rakipsiz bir fiyata ödeme yaparak kullanabilirsiniz.

6. İletişim

Herhangi bir sorunuz varsa lütfen bir sorun bildirin veya service@deepseekturkce.com adresinden bizimle iletişime geçin.

Scroll to Top