
1. Giriş
DeepSeek-R1-Zero, büyük ölçekli pekiştirmeli öğrenme (RL) kullanılarak, denetimli ince ayar (SFT) olmadan eğitilen bir modeldir ve akıl yürütme konusunda olağanüstü bir performans sergilemektedir. RL sayesinde, DeepSeek-R1-Zero kendiliğinden güçlü ve ilginç akıl yürütme yetenekleri geliştirmiştir. Ancak, DeepSeek-R1-Zero bazı zorluklarla karşılaşmaktadır; bunlar arasında sonsuz tekrarlar, zayıf okunabilirlik ve dillerin karışması gibi sorunlar bulunmaktadır.
Bu sorunları gidermek ve akıl yürütme performansını daha da artırmak için, RL öncesinde soğuk başlangıç verilerini içeren DeepSeek-R1 modelini tanıtıyoruz. DeepSeek-R1, matematik, kodlama ve akıl yürütme görevlerinde OpenAI-o1 ile karşılaştırılabilir bir performansa ulaşmıştır.
Araştırma topluluğunu desteklemek amacıyla DeepSeek-R1-Zero, DeepSeek-R1 ve bu modellerden Qwen ve Llama tabanlı olarak türetilmiş altı yoğun modeli açık kaynak olarak sunuyoruz. DeepSeek-R1-Distill-Qwen-32B, çeşitli kıyaslamalarda OpenAI-o1-mini’yi geride bırakarak yoğun modeller için yeni bir en iyi performans seviyesi belirlemiştir.
NOT: DeepSeek-R1 serisi modellerini yerel olarak çalıştırmadan önce, Kullanım Önerileri bölümünü incelemenizi öneririz.
2. Model Özeti
Sonradan Eğitme: Temel Model Üzerinde Büyük Ölçekli Pekiştirmeli Öğrenme
Temel modele doğrudan pekiştirmeli öğrenme (RL) uyguluyoruz ve bu süreçte denetimli ince ayar (SFT) kullanmıyoruz. Bu yaklaşım, modelin zincirleme düşünme (CoT) tekniklerini keşfetmesini ve karmaşık problemleri çözmesini sağlar. Sonuç olarak DeepSeek-R1-Zero geliştirilmiştir.
DeepSeek-R1-Zero, kendini doğrulama, refleksiyon ve uzun zincirleme düşünme (CoT) üretme gibi yetenekler göstererek, araştırma topluluğu için önemli bir dönüm noktası olmuştur. Bu model, büyük dil modellerinin (LLM) akıl yürütme yeteneklerinin yalnızca RL kullanılarak teşvik edilebileceğini gösteren ilk açık araştırmadır. Bu buluş, gelecekteki gelişmeler için yeni bir yol açmaktadır.
DeepSeek-R1 modelini geliştirme sürecimiz iki RL aşaması ve iki SFT aşaması içermektedir. Bu aşamalar, modelin daha gelişmiş akıl yürütme kalıpları keşfetmesine ve insan tercihlerine daha iyi uyum sağlamasına yardımcı olmaktadır.
Küçük Modeller de Güçlü Olabilir: Modellemeden Yararlanma (Distillation)
Büyük modellerin akıl yürütme kalıplarının daha küçük modellere aktarılabileceğini gösterdik. Bu süreç, doğrudan küçük modellerde RL kullanarak elde edilen akıl yürütme kalıplarından daha iyi sonuçlar vermektedir.
DeepSeek-R1 modeli tarafından üretilen akıl yürütme verilerini kullanarak, araştırma topluluğunda yaygın olarak kullanılan çeşitli yoğun modelleri ince ayardan geçirdik. Kıyaslama sonuçları, bu türetilmiş daha küçük yoğun modellerin olağanüstü performans sergilediğini göstermektedir.
Topluluğa açık kaynak olarak sunduğumuz türetilmiş modeller şunlardır:
- 1.5B, 7B, 8B, 14B, 32B ve 70B büyüklüğünde modeller, Qwen2.5 ve Llama3 serilerine dayanmaktadır.
3. Model İndirme Seçenekleri
DeepSeek-R1 Modelleri
Model | Toplam Parametre | Aktif Parametre | Bağlam Uzunluğu | İndirme Linki |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 HuggingFace |
Bu modeller, DeepSeek-V3-Base üzerine inşa edilmiştir. Model mimarisi hakkında daha fazla bilgi için DeepSeek-V3 deposuna göz atabilirsiniz.
DeepSeek-R1-Distill Modelleri
Model | Taban Model | İndirme Linki |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
Bu türetilmiş modeller, açık kaynak modeller temel alınarak DeepSeek-R1 tarafından üretilen örneklerle ince ayardan geçirilmiştir.
4. Değerlendirme Sonuçları
DeepSeek-R1-Evaluation
Tüm modellerimiz için maksimum üretim uzunluğu 32.768 token olarak ayarlanmıştır. Örnekleme gerektiren kıyaslamalar için 0,6’lık bir sıcaklık, 0,95’lik bir üst p değeri kullanırız ve pass@1’i tahmin etmek için sorgu başına 64 yanıt üretiriz.
Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
Architecture | – | – | MoE | – | – | MoE | |
# Activated Params | – | – | 37B | – | – | 37B | |
# Total Params | – | – | 671B | – | – | 671B | |
English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | – | 92.9 | |
MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | – | 84.0 | |
DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval (Prompt Strict) | 86.5 | 84.3 | 86.1 | 84.8 | – | 83.3 | |
GPQA-Diamond (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA (Correct) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
FRAMES (Acc.) | 72.5 | 80.5 | 73.3 | 76.9 | – | 82.5 | |
AlpacaEval2.0 (LC-winrate) | 52.0 | 51.1 | 70.0 | 57.8 | – | 87.6 | |
ArenaHard (GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | – | 92.3 | |
Code | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | – | 53.8 | 63.4 | 65.9 |
Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
Math | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | – | 78.8 | |
Chinese | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | – | 92.8 |
C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | – | 91.8 | |
C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | – | 63.7 |
Distilled Model Evaluation
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
5. Sohbet Web Sitesi ve API Platformu
DeepSeek’in resmi web sitesi olan chat.deepseek.com adresinden DeepSeek-R1 ile sohbet edebilir ve “DeepThink” düğmesini açabilirsiniz
Ayrıca DeepSeek Platformunda OpenAI Uyumlu API sağlıyoruz: platform.deepseek.com
6. İletişim
Herhangi bir sorunuz varsa lütfen bir sorun bildirin veya service@deepseekturkce.com adresinden bizimle iletişime geçin.