1. Giriş
Bugün, ekonomik eğitim ve verimli çıkarım özellikleriyle öne çıkan güçlü bir Uzmanlar Karışımı (Mixture-of-Experts – MoE) dil modeli olan DeepSeek-V2’yi tanıtıyoruz. Toplamda 236 milyar parametreye sahip olup, her bir token için 21 milyar parametre etkinleştirilmektedir. DeepSeek 67B ile karşılaştırıldığında, DeepSeek-V2 daha güçlü bir performans sunarken, eğitim maliyetlerinde %42,5 tasarruf sağlar, KV önbelleğini %93,3 oranında azaltır ve maksimum üretim verimini 5,76 kat artırır.
DeepSeek-V2’yi, 8,1 trilyon token’dan oluşan çeşitli ve yüksek kaliteli bir veri kümesi üzerinde önceden eğittik. Bu kapsamlı ön eğitim sürecinin ardından, modelin yeteneklerini tam anlamıyla ortaya çıkarmak için Denetimli İnce Ayar (Supervised Fine-Tuning – SFT) ve Pekiştirmeli Öğrenme (Reinforcement Learning – RL) aşamalarını uyguladık. Değerlendirme sonuçları, DeepSeek-V2’nin hem standart testlerde hem de açık uçlu üretim değerlendirmelerinde kayda değer bir performans sergilediğini doğrulamaktadır.
2. Haberler
- 2024.05.16: DeepSeek-V2-Lite’ı yayınladık.
- 2024.05.06: DeepSeek-V2’yi yayınladık.
3. Model İndirmeleri
Model | Toplam Parametre Sayısı | Etkin Parametre Sayısı | Bağlam Uzunluğu | İndirme Linki |
---|---|---|---|---|
DeepSeek-V2-Lite | 16B | 2.4B | 32k | 🤗 HuggingFace |
DeepSeek-V2-Lite-Chat (SFT) | 16B | 2.4B | 32k | 🤗 HuggingFace |
DeepSeek-V2 | 236B | 21B | 128k | 🤗 HuggingFace |
DeepSeek-V2-Chat (RL) | 236B | 21B | 128k | 🤗 HuggingFace |
Not: HuggingFace’in kısıtlamaları nedeniyle, açık kaynak kodumuz şu anda GPU’larda HuggingFace ile çalışırken dahili kod tabanımıza göre daha yavaş performans göstermektedir. Modelimizin verimli bir şekilde çalıştırılmasını kolaylaştırmak için, performansı optimize eden özel bir vllm çözümü sunuyoruz.
4. Değerlendirme Sonuçları
Temel Model
Standart Benchmark (67B’den büyük modeller)
Benchmark | Domain | LLaMA3 70B | Mixtral 8x22B | DeepSeek-V1 (Dense-67B) | DeepSeek-V2 (MoE-236B) |
---|---|---|---|---|---|
MMLU | English | 78.9 | 77.6 | 71.3 | 78.5 |
BBH | English | 81.0 | 78.9 | 68.7 | 78.9 |
C-Eval | Chinese | 67.5 | 58.6 | 66.1 | 81.7 |
CMMLU | Chinese | 69.3 | 60.0 | 70.8 | 84.0 |
HumanEval | Code | 48.2 | 53.1 | 45.1 | 48.8 |
MBPP | Code | 68.6 | 64.2 | 57.4 | 66.6 |
GSM8K | Math | 83.0 | 80.3 | 63.4 | 79.2 |
Math | Math | 42.2 | 42.5 | 18.7 | 43.6 |
Standart Benchmark (16B’den küçük modeller)
Benchmark | Domain | DeepSeek 7B (Dense) | DeepSeekMoE 16B | DeepSeek-V2-Lite (MoE-16B) |
---|---|---|---|---|
Architecture | – | MHA+Dense | MHA+MoE | MLA+MoE |
MMLU | English | 48.2 | 45.0 | 58.3 |
BBH | English | 39.5 | 38.9 | 44.1 |
C-Eval | Chinese | 45.0 | 40.6 | 60.3 |
CMMLU | Chinese | 47.2 | 42.5 | 64.3 |
HumanEval | Code | 26.2 | 26.8 | 29.9 |
MBPP | Code | 39.0 | 39.2 | 43.2 |
GSM8K | Math | 17.4 | 18.8 | 41.1 |
Math | Math | 3.3 | 4.3 | 17.1 |
Az çekim ayarları ve uyarılar gibi daha fazla değerlendirme ayrıntısı için lütfen makalemizi inceleyin.
Bağlam Penceresi
Needle In A Haystack (NIAH) testlerindeki değerlendirme sonuçları. DeepSeek-V2, 128K’ya kadar tüm bağlam penceresi uzunluklarında iyi performans gösterir.
Sohbet Modeli
Standart Ölçüt (67B’den büyük modeller)
Benchmark | Domain | QWen1.5 72B Chat | Mixtral 8x22B | LLaMA3 70B Instruct | DeepSeek-V1 Chat (SFT) | DeepSeek-V2 Chat (SFT) | DeepSeek-V2 Chat (RL) |
---|---|---|---|---|---|---|---|
MMLU | English | 76.2 | 77.8 | 80.3 | 71.1 | 78.4 | 77.8 |
BBH | English | 65.9 | 78.4 | 80.1 | 71.7 | 81.3 | 79.7 |
C-Eval | Chinese | 82.2 | 60.0 | 67.9 | 65.2 | 80.9 | 78.0 |
CMMLU | Chinese | 82.9 | 61.0 | 70.7 | 67.8 | 82.4 | 81.6 |
HumanEval | Code | 68.9 | 75.0 | 76.2 | 73.8 | 76.8 | 81.1 |
MBPP | Code | 52.2 | 64.4 | 69.8 | 61.4 | 70.4 | 72.0 |
LiveCodeBench (0901-0401) | Code | 18.8 | 25.0 | 30.5 | 18.3 | 28.7 | 32.5 |
GSM8K | Math | 81.9 | 87.9 | 93.2 | 84.1 | 90.8 | 92.2 |
Math | Math | 40.6 | 49.8 | 48.5 | 32.6 | 52.7 | 53.9 |
Standart Ölçüt (16B’den küçük modeller)
Benchmark | Domain | DeepSeek 7B Chat (SFT) | DeepSeekMoE 16B Chat (SFT) | DeepSeek-V2-Lite 16B Chat (SFT) |
---|---|---|---|---|
MMLU | English | 49.7 | 47.2 | 55.7 |
BBH | English | 43.1 | 42.2 | 48.1 |
C-Eval | Chinese | 44.7 | 40.0 | 60.1 |
CMMLU | Chinese | 51.2 | 49.3 | 62.5 |
HumanEval | Code | 45.1 | 45.7 | 57.3 |
MBPP | Code | 39.0 | 46.2 | 45.8 |
GSM8K | Math | 62.6 | 62.2 | 72.0 |
Math | Math | 14.7 | 15.2 | 27.9 |
İngilizce Açık Uçlu Üretim Değerlendirmesi
Modelimizi AlpacaEval 2.0 ve MTBench üzerinde değerlendiriyoruz ve DeepSeek-V2-Chat-RL’nin İngilizce konuşma üretimi üzerindeki rekabetçi performansını gösteriyoruz.
Çince Açık Uçlu Nesil Değerlendirmesi
模型 | 开源/闭源 | 总分 | 中文推理 | 中文语言 |
---|---|---|---|---|
gpt-4-1106-preview | 闭源 | 8.01 | 7.73 | 8.29 |
DeepSeek-V2 Chat (RL) | 开源 | 7.91 | 7.45 | 8.36 |
erniebot-4.0-202404 (文心一言) | 闭源 | 7.89 | 7.61 | 8.17 |
DeepSeek-V2 Chat (SFT) | 开源 | 7.74 | 7.30 | 8.17 |
gpt-4-0613 | 闭源 | 7.53 | 7.47 | 7.59 |
erniebot-4.0-202312 (文心一言) | 闭源 | 7.36 | 6.84 | 7.88 |
moonshot-v1-32k-202404 (月之暗面) | 闭源 | 7.22 | 6.42 | 8.02 |
Qwen1.5-72B-Chat (通义千问) | 开源 | 7.19 | 6.45 | 7.93 |
DeepSeek-67B-Chat | 开源 | 6.43 | 5.75 | 7.11 |
Yi-34B-Chat (零一万物) | 开源 | 6.12 | 4.86 | 7.38 |
gpt-3.5-turbo-0613 | 闭源 | 6.08 | 5.35 | 6.71 |
DeepSeek-V2-Lite 16B Chat | 开源 | 6.01 | 4.71 | 7.32 |
Kodlama Ölçütleri
Modelimizi canlı kodlama zorlukları için tasarlanmış bir ölçüt olan LiveCodeBench’te (0901-0401) değerlendiriyoruz. Gösterildiği gibi, DeepSeek-V2, LiveCodeBench’te önemli bir yeterlilik göstererek, diğer birkaç gelişmiş modeli geride bırakan bir Pass@1 puanı elde ediyor. Bu performans, modelin canlı kodlama görevlerini ele almadaki etkinliğini vurguluyor.
5. Model Mimarisi
DeepSeek-V2, ekonomik eğitim ve verimli çıkarım sağlamak için yenilikçi mimarileri benimsemektedir:
-
Dikkat Mekanizması (Attention):
MLA (Multi-head Latent Attention) tasarımı, düşük dereceli anahtar-değer birleştirme sıkıştırması kullanarak çıkarım sırasında KV önbelleği darboğazlarını ortadan kaldırır. Bu sayede, model daha hızlı ve verimli çıkarım yapabilir. -
İleri Beslemeli Ağlar (Feed-Forward Networks – FFNs):
DeepSeekMoE mimarisi, yüksek performanslı bir MoE (Mixture-of-Experts) yaklaşımı benimseyerek daha güçlü modellerin düşük maliyetle eğitilmesini mümkün kılar.
6. Sohbet Web Sitesi
DeepSeek-V2 ile DeepSeek’in resmi web sitesinde sohbet edebilirsiniz: chat.deepseek.com
7. API Platformu
DeepSeek Platformunda OpenAI Uyumlu API de sağlıyoruz: platform.deepseek.com. Milyonlarca ücretsiz token için kaydolun. Ayrıca rakipsiz bir fiyata ödedikçe kullanabilirsiniz.
8. İletişim
Herhangi bir sorunuz varsa lütfen bir sorun bildirin veya service@deepseekturkce.com adresinden bizimle iletişime geçin.