Yapay Zeka (AI)

DeepSeek’ten model performansını yükselten yeni mimari: Manifold-Constrained Hyper-Connections

Çin’in yapay zeka ekosistemindeki yükselişinde önemli bir rol üstlenen DeepSeek, büyük dil modellerine yönelik dikkat çekici bir mimari yeniliği kamuoyuyla paylaştı. Şirketin araştırmacıları tarafından yayımlanan çalışmada, Manifold-Constrained Hyper-Connections (mHC) adı verilen yeni bir bağlantı yapısı tanıtıldı. Bu yaklaşımın, yapay zeka modellerinin hem performansını hem de eğitim verimliliğini artırabildiği ifade ediliyor.

mHC’nin çıkış noktası, büyük dil modellerinde yeni bilgilerin öğrenilmesini sağlayan rezidüel bağlantı (residual connection) mekanizmasını daha ileri taşımak. İlk kez 2015 yılında geliştirilen bu bağlantı yapısı, özellikle derin görme modellerinde ve daha sonra büyük dil modellerinde yaygın şekilde kullanılmaya başlanmıştı. Zamanla ortaya çıkan Hyper-Connections (HC) yaklaşımı bazı sınırlamaları aşmayı hedeflese de, beraberinde yeni optimizasyon ve donanım maliyetleri getirdi.

mHC nasıl çalışıyor?

Bir yapay zeka modeli, ardışık katmanlardan oluşan bir yapı üzerine kurulu. Kullanıcıdan gelen girdi bu katmanlar boyunca ilerlerken her katman hesaplamanın belirli bir bölümünü üstleniyor. Eğitim sürecinde ise hatayı temsil eden gradyan sinyalleri ters yönde katmanlara geri yayılıyor. Bu gradyan akışının kararlı ve verimli olması, modelin öğrenme kapasitesi açısından kritik önem taşıyor.

DeepSeek’in tanıttığı Manifold-Constrained Hyper-Connections, gradyanların katmanlar arasında daha dengeli ve stabil biçimde aktarılmasını sağlamak için “manifold” olarak adlandırılan matematiksel yapıları devreye alıyor. Bu sayede Hyper-Connections mimarisinde karşılaşılan bazı kararsızlık ve ölçeklenebilirlik problemlerinin azaltılması hedefleniyor.

Performans ve donanım verimliliği

DeepSeek, yeni mimarinin etkisini ölçmek için 3 milyar, 9 milyar ve 27 milyar parametreye sahip üç ayrı büyük dil modeli eğitti. Karşılaştırma amacıyla, aynı ölçeklerde ancak geleneksel Hyper-Connections kullanan modeller de oluşturuldu. Paylaşılan sonuçlara göre, mHC mimarisiyle eğitilen modeller sekiz farklı yapay zeka ölçütünde daha yüksek performans sergiledi.

Donanım tarafında da dikkat çekici bir fark ortaya çıkıyor. Hyper-Connections yaklaşımı, eğitim sırasında bellek kullanımını ciddi biçimde artırırken, DeepSeek’in şirket içi testleri mHC’nin yalnızca yüzde 6,27 oranında ek donanım yükü oluşturduğunu gösteriyor. Bu durum, büyük ölçekli modellerin daha düşük maliyetle eğitilebilmesi açısından önemli bir avantaj olarak öne çıkıyor.

Stratejik anlamı

mHC mimarisi, 19 DeepSeek araştırmacısından oluşan bir ekip tarafından geliştirildi. Çalışmaya liderlik eden Zhenda Xie, Yixuan Wei ve Huanqi Cao’ya göre elde edilen ampirik sonuçlar, mHC’nin geleneksel Hyper-Connections yöntemlerine kıyasla daha iyi ölçeklenebilirlik sunduğunu ve büyük ölçekli eğitim süreçlerinde daha sağlam bir yapı sağladığını doğruluyor.

DeepSeek, Manifold-Constrained Hyper-Connections ile yalnızca teknik bir ilerleme sunmayı değil, aynı zamanda modellerini daha maliyet etkin hale getirerek ABD merkezli rakipleriyle rekabette avantaj elde etmeyi hedefliyor. Bu yaklaşım, Çin merkezli yapay zeka girişimlerinin performans–maliyet dengesine odaklanan stratejisinin de güçlü bir örneği olarak değerlendiriliyor.

Kaynak: Webrazzi

Başa dön tuşu