DeepSeek LLM

DeepSeek LLM

1. Giriş

DeepSeek LLM, 67 milyar parametreye sahip gelişmiş bir dil modelidir. Model, İngilizce ve Çince dillerinde 2 trilyon (2T) token kullanılarak sıfırdan eğitilmiştir.

Araştırmayı teşvik etmek amacıyla, DeepSeek LLM 7B/67B Base ve DeepSeek LLM 7B/67B Chat modellerini araştırma topluluğu için açık kaynaklı olarak yayınladık.

result

Öne Çıkan Özellikler

  • Üstün Genel Yetkinlikler: DeepSeek LLM 67B Base, akıl yürütme, kodlama, matematik ve Çince anlama alanlarında Llama2 70B Base’i geride bırakmaktadır.
  • Gelişmiş Kodlama ve Matematik Performansı: DeepSeek LLM 67B Chat, kodlamada (HumanEval Pass@1: %73.78) ve matematikte (GSM8K 0-shot: %84.1, Math 0-shot: %32.6) üstün performans göstermektedir. Ayrıca, Macaristan Ulusal Lise Sınavında 65 puan alarak güçlü genelleme yeteneklerini kanıtlamıştır.
  • Çince Dilinde Üstünlük: Değerlendirmelerimize göre, DeepSeek LLM 67B Chat, Çince performansında GPT-3.5’i aşmaktadır.

2. Model İndirme

DeepSeek LLM 7B ve 67B modellerini, base ve chat versiyonlarıyla birlikte kamuya açık hale getirdik.

Akademik ve ticari araştırmaların daha geniş bir kitleye ulaşmasını sağlamak amacıyla, eğitim sürecinde oluşan ara kontrol noktalarını (intermediate checkpoints) da erişime açtık.

Bu modelin kullanımı, Lisans bölümünde belirtilen koşullara tabidir. Ticari kullanım, bu şartlar altında serbesttir.

Hugging Face Üzerinden İndirme

Model Bağlam Uzunluğu İndirme Linki
DeepSeek LLM 7B Base 4096 🤗 Hugging Face
DeepSeek LLM 7B Chat 4096 🤗 Hugging Face
DeepSeek LLM 67B Base 4096 🤗 Hugging Face
DeepSeek LLM 67B Chat 4096 🤗 Hugging Face

3. Değerlendirme Sonuçları

Base Model Performansı

DeepSeek LLM modelleri, İngilizce ve Çince dillerinde çeşitli benchmark testleri ile değerlendirildi. Aşağıdaki tabloda, Llama2 modelleriyle karşılaştırmalı sonuçlar yer almaktadır:

Model HellaSwag TriviaQA MMLU GSM8K HumanEval BBH C-Eval CMMLU ChineseQA
LLaMA-2 7B 75.6 63.8 45.8 15.5 14.6 38.5 33.9 32.6 21.5
LLaMA-2 70B 84.0 79.5 69.0 58.4 28.7 62.9 51.4 53.1 50.2
DeepSeek LLM 7B Base 75.4 59.7 48.2 17.4 26.2 39.5 45.0 47.2 78.0
DeepSeek LLM 67B Base 84.0 78.9 71.3 63.4 42.7 68.7 66.1 70.8 87.6

Chat Model Performansı

Daha Önce Görülmemiş Sınavlar (Never-Seen-Before Exam)

Veri kirliliğini önlemek ve belirli test setleri için özel ayarlamalar yapmadan değerlendirme sağlamak amacıyla, açık kaynaklı büyük dil modellerinin (LLM) yeteneklerini ölçmek için tamamen yeni problem setleri tasarladık.

Sonuçlar, DeepSeek LLM 67B Chat’in daha önce hiç karşılaşmadığı sınavlarda olağanüstü bir performans sergilediğini göstermektedir.

Macaristan Ulusal Lise Sınavı

DeepSeek LLM 67B Chat’in matematik yetenekleri, Macaristan Ulusal Lise Sınavı ile değerlendirildi.

  • 33 sorudan oluşan sınav için modelin puanlaması insan anotasyonlarıyla belirlendi.
  • Solution.pdf içindeki standart puanlama metodu kullanıldı.

resultDüzeltme Notu: İlk değerlendirmede bir hata tespit edildi ve bu revize edilmiş versiyonda, 16, 17 ve 18. soruların en düşük puanları ile belirli bir görüntü tabanlı sorunun değerlendirmesi çıkarıldı.

Daha fazla bilgi için değerlendirme detaylarına buradan ulaşabilirsiniz.

Talimat Takip Değerlendirmesi (Instruction Following Evaluation)

15 Kasım 2023’te Google, talimat takip değerlendirme veri setini yayınladı.
Bu veri setinde:

  • 25 farklı doğrulanabilir talimat türü bulunuyor.
  • Her biri bir veya daha fazla doğrulanabilir talimat içeren 500 istem (prompt) yer alıyor.

🔹 DeepSeek LLM, “prompt-level loose metric” kullanılarak değerlendirildi.
🔹 Google tarafından yayınlanan ilk sürüm kullanıldı.
🔹 Google’ın revize ettiği test setine dayalı sonuçlar için araştırma makalemize bakabilirsiniz.

kết quả

LeetCode Haftalık Yarışma Performansı

DeepSeek LLM’in kodlama yeteneklerini değerlendirmek için LeetCode Haftalık Yarışmaları (Weekly Contests) kullanıldı.
Temmuz 2023 – Kasım 2023 arasındaki yarışmalardan:

  • Weekly Contest 351-372
  • Bi-Weekly Contest 108-117
    seçildi.

🔹 126 programlama sorusu içeren veri seti, her soru için 20’den fazla test senaryosu ile test edildi.
🔹 HumanEval ile benzer bir metrik kullanıldı:

  • Eğer model tüm test senaryolarını başarıyla geçerse, problemi çözmüş sayıldı.

 Performans Grafiği

  • Y Ekseni: Modelin iç-domain (in-domain) insan değerlendirmesi ile elde ettiği Pass@1 skoru
  • X Ekseni: Modelin LeetCode Haftalık Yarışmaları (out-domain) üzerindeki Pass@1 skoru

kết quả

Kullanılan test soruları ve test senaryoları yakında paylaşılacaktır.

Standart Benchmark Performansı

Model TriviaQA MMLU GSM8K HumanEval BBH C-Eval CMMLU ChineseQA
DeepSeek LLM 7B Base 59.7 48.2 17.4 26.2 39.5 45.0 47.2 78.0
DeepSeek LLM 67B Base 78.9 71.3 63.4 42.7 68.7 66.1 70.8 87.6
DeepSeek LLM 7B Chat 57.9 49.4 62.6 48.2 42.3 47.0 49.7 75.0
DeepSeek LLM 67B Chat 81.5 71.1 84.1 73.8 71.7 65.2 67.8 85.1

Not:

  • Chat modelleri MMLU, GSM8K, C-Eval ve CMMLU için 0-shot değerlendirme ile test edilmiştir.
  • Daha detaylı sonuçlar için buraya göz atabilirsiniz link.

Çoktan Seçmeli Soru Değerlendirmeleri

Yaptığımız deneylerde, çoktan seçmeli (MC) soruların, MMLU, CMMLU ve C-Eval gibi benchmark skorlarını artırmanın kolay bir yöntemi olduğunu tespit ettik.

Model MMLU C-Eval CMMLU
DeepSeek LLM 7B Chat 49.4 47.0 49.7
DeepSeek LLM 7B Chat + MC 60.9 71.3 73.8

Önemli Bulgular:

  • 20 milyon Çince çoktan seçmeli soru eklendiğinde, benchmark skorları büyük ölçüde arttı.
  • Bu ekleme, hem Çince hem de İngilizce testlerde belirgin bir iyileşme sağladı.
  • Ancak, çoktan seçmeli olmayan testlerde herhangi bir bilgi artışı gözlemlenmedi.
  • Öğrenmenin benchmarklara aşırı uyarlanmasını (overfitting) önlemek amacıyla, MC verileri ön eğitim veya ince ayar sürecine dahil edilmemiştir.

4. Ön Eğitim (Pre-Training) Detayları

Veri İşleme ve Temizleme

Modelin zengin ve çeşitli veri ile eğitilmesini sağlamak için, aşağıdaki adımlar izlenmiştir:
✔ “cc_cleaner” adlı dağıtık sistem ile veri seti sürekli olarak doğrulandı ve iyileştirildi.
✔ RefinedWeb + CCNet tabanlı bir sistem geliştirildi.
✔ Belirli rastgeleleştirme algoritmaları ile eğitim süreci optimize edildi.

 Veri İçeriği:

  • İnternet metinleri, matematik, kod, kitaplar ve özel olarak toplanan içerikler.
  • Kişisel veriler ve telif hakkı içeren içerikler tamamen kaldırıldı.

 Veri Filtreleme:

  • Heuristik modeller ile düşük kaliteli veriler elendi.
  • Zararlı veya toksik içerikler temizlendi.

 Deduplikasyon Süreci:

  • MinhashLSH algoritması kullanılarak belge ve dize düzeyinde tekrar eden veriler kaldırıldı.

Eğitim Süreci

DeepSeek LLM modelleri, LLaMA mimarisi temel alınarak oluşturulmuş oto-regresif Transformer tabanlı modellerdir.

Model Mimarileri:

  • 7B Modeli: Çoklu-Kafa Dikkat (Multi-Head Attention – MHA)
  • 67B Modeli: Gruplanmış-Sorgu Dikkat (Grouped-Query Attention – GQA)

Eğitim Parametreleri:

  • 2 trilyon token kullanıldı
  • Bağlam uzunluğu: 4096
  • Optimizasyon: AdamW
  • Batch Size ve Öğrenme Oranı:
    • 7B Modeli → Batch Size: 2304, LR: 4.2e-4
    • 67B Modeli → Batch Size: 4608, LR: 3.2e-4

Eğitim Kaybı (Loss) Eğrileri ve Benchmark Sonuçları

kết quả
kết quả

Sonuç

DeepSeek LLM 67B Chat, matematiksel akıl yürütme, kodlama ve talimat takip etme konusunda açık kaynak modeller arasında en güçlü seçeneklerden biridir.

Daha fazla bilgi için:

5. Sınırlamalar

DeepSeek LLM’ler etkileyici yetenekler sergilemesine rağmen, bazı sınırlamalara sahiptir. İşte bu modellerin potansiyel dezavantajları:

Eğitim Verisine Aşırı Bağımlılık:

  • Bu modeller büyük metin veri kümeleri üzerinde eğitilmiştir.
  • Eğitim verisinde bulunan önyargılar, modelin taraflı veya ayrımcı yanıtlar üretmesine neden olabilir.
  • Model, gerçek dünyadaki önyargıları yansıtabilir ve bu, etik sorunlara yol açabilir.

Halüsinasyon (Yanıltıcı Bilgi Üretimi):

  • Model bazen mantıklı görünen ancak gerçekte hatalı veya desteklenmeyen yanıtlar üretebilir.
  • Gerçek dünya bilgisiyle uyuşmayan ifadeler oluşturabilir.
  • Bu durum, modelin istatistiksel olarak öğrendiği kalıplara aşırı güvenmesinden kaynaklanır.

Tekrarlayan İçerik Üretimi:

  • Model bazen tekrarlayan yanıtlar verebilir.
  • Belirli kelime öbeklerini veya cümleleri tekrar etme, gereksiz bilgi üretme veya benzer yapıdaki yanıtları oluşturma gibi durumlar yaşanabilir.
  • Bu durum, cevapların çeşitliliğini ve kullanıcı deneyimini olumsuz etkileyebilir.

Sonuç:
DeepSeek LLM, gelişmiş yeteneklere sahip olsa da, önyargılar, doğruluk eksiklikleri ve içerik tekrarları gibi bazı sınırlamalara sahiptir. Bu nedenle, modelin çıktıları dikkatlice değerlendirilmelidir.

6. İletişim

Herhangi bir sorunuz varsa lütfen bir sorun bildirin veya service@deepseekturkce.com adresinden bizimle iletişime geçin.

Scroll to Top