Deepseek R1

DeepSeek R1

1. Giriş

DeepSeek-R1-Zero, büyük ölçekli pekiştirmeli öğrenme (RL) kullanılarak, denetimli ince ayar (SFT) olmadan eğitilen bir modeldir ve akıl yürütme konusunda olağanüstü bir performans sergilemektedir. RL sayesinde, DeepSeek-R1-Zero kendiliğinden güçlü ve ilginç akıl yürütme yetenekleri geliştirmiştir. Ancak, DeepSeek-R1-Zero bazı zorluklarla karşılaşmaktadır; bunlar arasında sonsuz tekrarlar, zayıf okunabilirlik ve dillerin karışması gibi sorunlar bulunmaktadır.

Bu sorunları gidermek ve akıl yürütme performansını daha da artırmak için, RL öncesinde soğuk başlangıç verilerini içeren DeepSeek-R1 modelini tanıtıyoruz. DeepSeek-R1, matematik, kodlama ve akıl yürütme görevlerinde OpenAI-o1 ile karşılaştırılabilir bir performansa ulaşmıştır.

Araştırma topluluğunu desteklemek amacıyla DeepSeek-R1-Zero, DeepSeek-R1 ve bu modellerden Qwen ve Llama tabanlı olarak türetilmiş altı yoğun modeli açık kaynak olarak sunuyoruz. DeepSeek-R1-Distill-Qwen-32B, çeşitli kıyaslamalarda OpenAI-o1-mini’yi geride bırakarak yoğun modeller için yeni bir en iyi performans seviyesi belirlemiştir.

NOT: DeepSeek-R1 serisi modellerini yerel olarak çalıştırmadan önce, Kullanım Önerileri bölümünü incelemenizi öneririz.

2. Model Özeti

Sonradan Eğitme: Temel Model Üzerinde Büyük Ölçekli Pekiştirmeli Öğrenme

Temel modele doğrudan pekiştirmeli öğrenme (RL) uyguluyoruz ve bu süreçte denetimli ince ayar (SFT) kullanmıyoruz. Bu yaklaşım, modelin zincirleme düşünme (CoT) tekniklerini keşfetmesini ve karmaşık problemleri çözmesini sağlar. Sonuç olarak DeepSeek-R1-Zero geliştirilmiştir.

DeepSeek-R1-Zero, kendini doğrulama, refleksiyon ve uzun zincirleme düşünme (CoT) üretme gibi yetenekler göstererek, araştırma topluluğu için önemli bir dönüm noktası olmuştur. Bu model, büyük dil modellerinin (LLM) akıl yürütme yeteneklerinin yalnızca RL kullanılarak teşvik edilebileceğini gösteren ilk açık araştırmadır. Bu buluş, gelecekteki gelişmeler için yeni bir yol açmaktadır.

DeepSeek-R1 modelini geliştirme sürecimiz iki RL aşaması ve iki SFT aşaması içermektedir. Bu aşamalar, modelin daha gelişmiş akıl yürütme kalıpları keşfetmesine ve insan tercihlerine daha iyi uyum sağlamasına yardımcı olmaktadır.

Küçük Modeller de Güçlü Olabilir: Modellemeden Yararlanma (Distillation)

Büyük modellerin akıl yürütme kalıplarının daha küçük modellere aktarılabileceğini gösterdik. Bu süreç, doğrudan küçük modellerde RL kullanarak elde edilen akıl yürütme kalıplarından daha iyi sonuçlar vermektedir.

DeepSeek-R1 modeli tarafından üretilen akıl yürütme verilerini kullanarak, araştırma topluluğunda yaygın olarak kullanılan çeşitli yoğun modelleri ince ayardan geçirdik. Kıyaslama sonuçları, bu türetilmiş daha küçük yoğun modellerin olağanüstü performans sergilediğini göstermektedir.

Topluluğa açık kaynak olarak sunduğumuz türetilmiş modeller şunlardır:

  • 1.5B, 7B, 8B, 14B, 32B ve 70B büyüklüğünde modeller, Qwen2.5 ve Llama3 serilerine dayanmaktadır.

3. Model İndirme Seçenekleri

DeepSeek-R1 Modelleri

ModelToplam ParametreAktif ParametreBağlam Uzunluğuİndirme Linki
DeepSeek-R1-Zero671B37B128K🤗 HuggingFace
DeepSeek-R1671B37B128K🤗 HuggingFace

Bu modeller, DeepSeek-V3-Base üzerine inşa edilmiştir. Model mimarisi hakkında daha fazla bilgi için DeepSeek-V3 deposuna göz atabilirsiniz.

DeepSeek-R1-Distill Modelleri

ModelTaban Modelİndirme Linki
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct🤗 HuggingFace

Bu türetilmiş modeller, açık kaynak modeller temel alınarak DeepSeek-R1 tarafından üretilen örneklerle ince ayardan geçirilmiştir.

4. Değerlendirme Sonuçları

DeepSeek-R1-Evaluation

Tüm modellerimiz için maksimum üretim uzunluğu 32.768 token olarak ayarlanmıştır. Örnekleme gerektiren kıyaslamalar için 0,6’lık bir sıcaklık, 0,95’lik bir üst p değeri kullanırız ve pass@1’i tahmin etmek için sorgu başına 64 yanıt üretiriz.

CategoryBenchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
 ArchitectureMoEMoE
 # Activated Params37B37B
 # Total Params671B671B
EnglishMMLU (Pass@1)88.387.288.585.291.890.8
 MMLU-Redux (EM)88.988.089.186.792.9
 MMLU-Pro (EM)78.072.675.980.384.0
 DROP (3-shot F1)88.383.791.683.990.292.2
 IF-Eval (Prompt Strict)86.584.386.184.883.3
 GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
 SimpleQA (Correct)28.438.224.97.047.030.1
 FRAMES (Acc.)72.580.573.376.982.5
 AlpacaEval2.0 (LC-winrate)52.051.170.057.887.6
 ArenaHard (GPT-4-1106)85.280.485.592.092.3
CodeLiveCodeBench (Pass@1-COT)33.834.253.863.465.9
 Codeforces (Percentile)20.323.658.793.496.696.3
 Codeforces (Rating)7177591134182020612029
 SWE Verified (Resolved)50.838.842.041.648.949.2
 Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
 MATH-500 (Pass@1)78.374.690.290.096.497.3
 CNMO 2024 (Pass@1)13.110.843.267.678.8
ChineseCLUEWSC (EM)85.487.990.989.992.8
 C-Eval (EM)76.776.086.568.991.8
 C-SimpleQA (Correct)55.458.768.040.363.7

Distilled Model Evaluation

ModelAIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces rating
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
o1-mini63.680.090.060.053.81820
QwQ-32B-Preview44.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

5. Sohbet Web Sitesi ve API Platformu

DeepSeek’in resmi web sitesi olan chat.deepseek.com adresinden DeepSeek-R1 ile sohbet edebilir ve “DeepThink” düğmesini açabilirsiniz

Ayrıca DeepSeek Platformunda OpenAI Uyumlu API sağlıyoruz: platform.deepseek.com

6. İletişim

Herhangi bir sorunuz varsa lütfen bir sorun bildirin veya service@deepseekturkce.com adresinden bizimle iletişime geçin.

Scroll to Top