İçbükey Fei Tapınağı kübitinden Jin Lei | Resmi hesap QbitAI
Bu biraz ilginç.
Bu DeepSeek, akıl yürütmede Ölçeklendirme Yasası üzerine yeni bir makale yayınladı ve bu da herkesin R2'ın yakında gelip gelmeyeceğini merak etmesine neden oldu.
Ran Kaz ...... Ultraman, "heksagram değişikliği" mesajı gönderdi:
Plan değişikliği: İlk olarak O4 ve O0-mini'yi birkaç hafta içinde piyasaya sürebiliriz.Uzun zamandır beklenen GPT-5'a gelince, Ultraman şunları söyledi:
Birkaç ay içinde olacak ve başlangıçta öngördüğümüzden daha iyi olacak.Nedenine gelince, Ultraman da bir açıklama yaptı.
Kabaca söylemek gerekirse, her şeyi sorunsuz bir şekilde entegre etmek düşündüklerinden çok daha zordu ve beklenen ihtiyaçları desteklemek için yeterli kapasiteye sahip olduklarından emin olmak istediler.
Diyelim ki, şimdi DeepSeek tarafında gerçekten biraz gürültü var ve OpenAI'nin buna ayak uydurmak için bazı hamleler yapması gerekiyor.
Yeni DeepSeek makalesi
Bu küçük bölümden sonra, yeni makale DeepSeek'e odaklanalım.
Genelci Ödül Modellemesi için Çıkarım-Zaman Ölçeklendirmesi adlı makale, DeepSeek ve Tsinghua Üniversitesi tarafından ortaklaşa yazılmıştır.
Bu araştırmanın en önemli özelliği, SPCT (Self-Principled Critique Tuning) adı verilen bir yöntem önermesidir.
İlk kez, çıkarım süresinin uzatılmasını gerçekleştirmek için optimizasyon ilkesi ve çevrimiçi pekiştirmeli öğrenmenin (RL) kritik üretimi önerilmiştir.
Bu araştırmanın nedeni, RL'deki büyük dil modelleri için ödül sinyalleri üretmek için Ödül Modeli'nin (RM) kullanılmasıdır.
Bununla birlikte, mevcut RM'ler, özellikle karmaşık ve çeşitli görevlerle karşı karşıya kaldıklarında, genel alanda sınırlıdır.
Sonuç olarak, iki temel zorluk ortaya çıkmaktadır.
Birincisi, genel RM'nin esneklik (tek yanıt, çoklu yanıt puanlama desteği) ve doğruluk (alanlar arası yüksek kaliteli ödüller) gerektirmesidir.
Diğeri ise, mevcut RM'lerin (skaler RM ve yarı skaler RM gibi) çıkarım sırasında ölçeklenebilir olmaması ve bilgi işlem kaynaklarını artırarak performansı önemli ölçüde iyileştirememesidir.
Bu sorunu çözmek için DeepSeek ve Tsinghua Üniversitesi'nden ekip SPCT'yi buldu.
Genel olarak, bu araştırma temel olarak üç temel teknik nokta içermektedir.
Birincisi, Üretken Ödül Modelidir (GRM).
Tek bir skaler değer yerine metin biçiminde ödüller (örn. eleştiriler) oluşturarak esnek girdiyi (tek yanıt, çoklu yanıt) ve çıkarım ölçeklendirmesini destekleyen bir Pointwise GRM modeli kullanır.
burada C oluşturulan eleştiridir ve F ondan kesri çıkarır.
Ardından, çok önemli SPCT'nin zamanı geldi.
Ödüllerin kalitesini artırmak için GRM'yi dinamik olarak yüksek kaliteli ilkeler ve eleştiriler oluşturacak şekilde eğitmek esas olarak çevrimiçi pekiştirmeli öğrenme (RL) yoluyla yapılır.
Genel olarak, SPCT iki aşamalı bir süreçtir, bunlar:
拒绝式微调(Rejective Fine-Tuning)
: Soğuk başlatma aşamasında, örnekleme ve reddetme politikaları aracılığıyla ilk veriler oluşturulur.
Kurallara dayalı çevrimiçi RL
: Optimizasyon ilkeleri ve modeli en iyi yanıtı ayırt etmeye teşvik eden bir yönetilen ödül fonksiyonu kullanarak eleştiri oluşturma.
Bu temelde, çıkarım genişletme tekniği olan üçüncü teknik nokta vardır.
İlk olarak, çeşitlendirilmiş ilkeler ve eleştiriler çoklu örnekleme yoluyla oluşturulur ve nihai ödül, ödül alanını genişletmek için oylama yoluyla toplanır.
Ölçeklendirme etkisini daha da iyileştirmek için düşük kaliteli örnekleri filtrelemek için yardımcı bir model eğitin.
Yukarıdaki metodolojiye dayanarak, ekip ayrıca sonuçların bir test dalgası da yaptı.
Ödül Tezgahı, KKD, RMB ve diğer kıyaslamalarda, DeepSeek-GRM-4B, temel yöntemlerden (LLM-as-a-Judge, skaler RM gibi) önemli ölçüde daha iyidir ve performans, çıkarım süresi uzatması (0 örnek) yoluyla daha da iyileştirilir (örneğin, Ödül Tezgahının doğruluğu %0,0'dan %0,0'a yükseltilir).
Özetle, bu çalışma, genel amaçlı RM'de çıkarım-zaman ölçeklendirmesinin etkinliğini ve eğitim süresi ölçeklendirmesinden daha iyi performans gösterdiğini göstermektedir.
Bir şey daha
Ultraman'ın "heksagram değişikliği" haberini yayınlamasına ek olarak, kişisel olarak katıldığı iki kitabın piyasaya sürülmek üzere olduğunu söyleyerek kendisine bir mal dalgası getirmeyi de unutmadı:
Bunlardan biri, Keach Hagey tarafından Ultraman'ın kendisi hakkında yazılmış bir kitap
Biri Ashlee Vance tarafından OpenAI hakkında yazılmış bir kitap
Adres: https://arxiv.org/abs/02495.0
Referans bağlantıları: [1908163013192069460]https://x.com/sama/status/0[0]https://techcrunch.com/0/0/0/openai-says-itll-release-o0-after-all-delays-gpt-0/[0]https://x.com/sama/status/0
Tek tıkla üçlü "beğen", "ileri", "dikkatli"
Düşüncelerinizi yorum bölümünde bırakmaktan çekinmeyin!