Çinli yapay zeka uygulaması DeepSeek, ChatGPT ve diğer rakiplerini geride bırakarak ABD, İngiltere ve Çin’deki Apple App Store’da en yüksek puan alan ücretsiz uygulamalardan biri haline geldi. Peki, DeepSeek nedir ve ne işe yarar?

DeepSeek, yapay zeka odaklı risk sermayesi fonu High-Flyer’ın yöneticisi Liang Wenfeng tarafından 2023 yılında kuruldu. Şirket, açık kaynaklı yapay zeka modelleri, özellikle sohbet botları geliştiriyor. Yazılım, ABD merkezli benzerlerinin aksine, geniş bir geliştirici topluluğu tarafından incelenip iyileştirilebiliyor. DeepSeek uygulaması, Ocak 2023’te piyasaya sürüldükten sonra, ABD’de iPhone indirme listelerinde zirveye çıktı.

DEEPSEEK’İN ÖNEMLİ MODELLERİ

  • DeepSeek Coder (Kasım 2023): Araştırmacılar ve ticari kullanıcılar için ücretsiz sunulan bu model, özellikle kodlama görevlerine odaklanıyor ve MIT lisansı altında açık kaynaklı olarak yayımlandı.

  • DeepSeek LLM (Kasım 2023): 67 milyar parametreye sahip bu model, GPT-4 gibi büyük dil modelleriyle rekabet etmek için tasarlandı ancak bazı hesaplama verimliliği ve ölçeklenebilirlik zorlukları yaşadı. DeepSeek Chat de piyasaya sürülerek sohbet botu versiyonu sunuldu.

  • DeepSeek-V2 (Mayıs 2024): Rakiplerine göre daha düşük maliyetle (milyon çıktı tokenı başına 2 RMB) piyasaya sürülen bu model, University of Waterloo Tiger Lab sıralamasında yedinci sırada yer aldı.

  • DeepSeek-V3 (Aralık 2024): 671 milyar parametreye sahip bu model, yaklaşık 55 gün süren bir eğitimle 5,58 milyon ABD dolarına mal oldu. 14,8 trilyon tokenlık bir veri seti üzerinde eğitilen bu model, Llama 3.1 ve Qwen 2.5 modellerini geride bırakarak GPT-4 ve Claude 3.5 Sonnet ile eşdeğer performans gösterdi.

  • DeepSeek R1-Lite-Preview (Kasım 2024): Mantıksal çıkarım, matematiksel akıl yürütme ve gerçek zamanlı problem çözme yeteneklerine sahip bu model, OpenAI'nin o1 modeline benzer bir performans sundu. 

TEKNİK ALTYAPISI

DeepSeek-V3, transformer mimarisi üzerine inşa edilmiş bir yapay zeka modelidir. Bu mimari, dil modellerinde devrim yaratan ve paralel işlem yeteneği sayesinde büyük veri kümelerini hızlıca işleyebilen bir yapı sunmaktadır. Model, milyarlarca parametre içeren bir sinir ağına sahiptir ve bu parametreler, insan dilinin karmaşık yapısını anlamaya yönelik optimize edilmiştir.

Eğitim sürecinde, kitaplar, makaleler, web siteleri ve diğer metin kaynaklarından derlenen büyük veri kümeleri kullanılmıştır. DeepSeek-V3, bu veriler üzerinde kendi kendine öğrenme (self-supervised learning) yöntemiyle eğitilmiştir. Bu yöntem sayesinde, dilin yapısı, anlamı ve bağlamı hakkında derinlemesine bilgi edinmiştir.

DOĞAL DİL İŞLEME ALANINDAKİ YETENEKLERİ

  • Metin Üretimi: İnsan benzeri akıcılıkla metinler oluşturabiliyor. Bu özellik, rapor yazma, hikaye oluşturma veya teknik doküman hazırlama gibi alanlarda kullanılabiliyor.

  • Soru-Cevap Sistemleri: Kullanıcıların sorularını anlayarak, doğru ve bağlama uygun yanıtlar verebiliyor.

  • Çeviri: Birden fazla dil arasında yüksek doğrulukla çeviriler yapabiliyor.

  • Metin Özetleme: Uzun metinleri özetleyerek, ana fikirleri hızlıca ortaya çıkarabiliyor.

  • Duygu Analizi: Metinlerdeki duygu tonunu analiz edebiliyor, bu da müşteri geri bildirimleri veya sosyal medya analizleri gibi alanlarda etkili bir şekilde kullanılabiliyor.

Kaynak: Haber Merkezi