1. Giriş
DeepSeekMath, DeepSeek-Coder-v1.5 7B modeli temel alınarak başlatılmış ve 500 milyar (500B) matematikle ilgili token ile ön eğitimine devam edilmiştir. Bu veriler, Common Crawl kaynaklı matematik içerikleri, doğal dil verisi ve kod verisi içerir.
DeepSeekMath 7B, dış araçlara ve oylama tekniklerine ihtiyaç duymadan MATH benchmark’ında %51.7 gibi etkileyici bir skor elde ederek, Gemini-Ultra ve GPT-4 seviyesine yaklaşmıştır.
Araştırma amaçlı olarak, base (temel), instruct (talimatla eğitilmiş) ve RL (takviyeli öğrenme) modellerinin kontrol noktaları kamuya açık olarak paylaşılmaktadır.
2. Değerlendirme Sonuçları
DeepSeekMath-Base 7B
DeepSeekMath-Base 7B’nin matematik yetenekleri detaylı olarak değerlendirilmiştir. Bu model:
- Dış araçlara ihtiyaç duymadan kendi başına matematiksel çözümler üretebilir.
- Matematik problemlerini çözmek için programlar yazabilir.
- Resmi teorem ispatlama yeteneğine sahiptir.
Matematik dışında, modelin:
- Doğal dil anlama (NLU)
- Akıl yürütme (reasoning)
- Kod yazma (programming)
alanlarındaki performansı da analiz edilmiştir.
Adım Adım Matematiksel Akıl Yürütme
Araç Kullanarak Matematik Çözme Yeteneği
Doğal Dil Anlama, Akıl Yürütme ve Kod Yazma Performansı
Öne Çıkan Bulgular:
- Üstün Matematiksel Akıl Yürütme: DeepSeekMath-Base 7B, rekabet düzeyindeki MATH veri kümesinde, açık kaynaklı baz modelleri %10’dan fazla bir farkla geçerek Minerva 540B’yi geride bırakmıştır.
- Güçlü Araç Kullanım Yeteneği: DeepSeekCoder-Base-7B-v1.5 ile ön eğitim sürecine devam edilmesi, modelin matematik problemlerini çözmede ve kanıtlamada program yazma becerisini geliştirmiştir.
- Karşılaştırılabilir Akıl Yürütme ve Kodlama Yeteneği: DeepSeekMath-Base 7B, akıl yürütme ve kod yazma alanlarında DeepSeekCoder-Base-7B-v1.5 ile benzer performans göstermektedir.
DeepSeekMath-Instruct 7B ve DeepSeekMath-RL 7B
- DeepSeekMath-Instruct 7B, DeepSeekMath-Base 7B’nin matematik odaklı talimatlarla eğitilmiş bir versiyonudur.
- DeepSeekMath-RL 7B, DeepSeekMath-Instruct 7B üzerine inşa edilerek Group Relative Policy Optimization (GRPO) algoritması ile eğitilmiştir.
Matematik performansı, dış araçlarla ve araçsız olarak, İngilizce ve Çince dört kantitatif akıl yürütme benchmark’ında test edilmiştir.
Sonuçlar şunu göstermektedir:
- DeepSeekMath-Instruct 7B, adım adım matematiksel akıl yürütmede güçlü performans göstermektedir.
- DeepSeekMath-RL 7B, araç kullanımı ile MATH benchmark’ında %60 doğruluk oranına yaklaşarak tüm mevcut açık kaynaklı modelleri geride bırakmaktadır.
3. Veri Toplama Süreci
Matematik içeriklerini en iyi şekilde yakalamak için açık web kaynaklarından veri toplanmış ve analiz edilmiştir.
Adımlar:
- OpenWebMath adlı yüksek kaliteli matematiksel web metinleri koleksiyonu tohum veri kümesi olarak seçilir.
- FastText modeli kullanılarak, Common Crawl veritabanındaki matematikle ilgili web sayfaları tespit edilir.
- İstatistiksel analizle potansiyel matematiksel alanlar belirlenir.
- Manuel etiketleme süreci ile, belirlenen alanlardaki matematik içeriği taşıyan URL’ler işaretlenir.
- Toplanan URL’lerde yer almayan ancak ilgili olan web sayfaları da eklenerek süreç 4 tur boyunca tekrarlanır.
Bu işlemler sonucunda, 35.5 milyon matematik web sayfası ve toplamda 120 milyar token’lık veri kümesi oluşturulmuştur.
4. Model İndirme
DeepSeekMath 7B ailesi, base, instruct ve RL modelleriyle birlikte kamuya açık olarak sunulmuştur.
Bu modeller akademik ve ticari araştırmaları desteklemek amacıyla yayınlanmıştır. Ticari kullanım, lisans koşullarına uygun olduğu sürece serbesttir.
Model | Bağlam Uzunluğu | İndirme Linki |
---|---|---|
DeepSeekMath-Base 7B | 4096 | 🤗 Hugging Face |
DeepSeekMath-Instruct 7B | 4096 | 🤗 Hugging Face |
DeepSeekMath-RL 7B | 4096 | 🤗 Hugging Face |