أرسلت DeepSeek ورقة جديدة على القدم الأمامية ، وتبعها Ultraman على الفور: GPT-5 على بعد بضعة أشهر فقط
تحديث يوم: 40-0-0 0:0:0

جين لي من كيوبيت معبد فاي المقعر | الحساب الرسمي QbitAI

إنه نوع من الاهتمام.

أليس هذا قد نشر DeepSeek للتو ورقة جديدة حول قانون التوسع في التفكير ، مما جعل الجميع يتساءلون عما إذا كان R2 سيأتي قريبا.

ران غوس ...... أرسل Ultraman رسالة "تغيير الرسم السداسي":

تغيير الخطط: قد نصدر O4 و O0-mini أولا في غضون أسابيع قليلة.

أما بالنسبة ل GPT-5 الذي طال انتظاره ، فقال Ultraman:

سيكون في غضون بضعة أشهر ، وسيكون أفضل مما كنا نتخيله في الأصل.

أما بالنسبة للسبب ، فقد قدم Ultraman أيضا تفسيرا.

بشكل تقريبي ، كان من الصعب جدا دمج كل شيء بسلاسة مما كانوا يعتقدون ، وأرادوا التأكد من أن لديهم القدرة الكافية لدعم الاحتياجات المتوقعة.

دعنا نقول فقط ، الآن هناك القليل من الضوضاء من جانب DeepSeek ، ويجب على OpenAI اتخاذ بعض الحركات لمواكبة ذلك.

ورقة DeepSeek الجديدة

بعد هذه الحلقة الصغيرة ، دعنا نركز على الورقة الجديدة DeepSeek.

الورقة ، المسماة Inference-Time Scaling for Generalist Reward Modeling ، شارك في تأليفها DeepSeek وجامعة Tsinghua.

أهم ما يميز هذا البحث هو أنه يقترح طريقة تسمى SPCT (ضبط النقد الذاتي المبدئي) -

لأول مرة ، تم اقتراح مبدأ التحسين والتوليد الحاسم للتعلم المعزز عبر الإنترنت (RL) لتحقيق تمديد وقت الاستدلال.

سبب هذا البحث هو أن نموذج المكافأة (RM) تم استخدامه لإنشاء إشارات مكافأة لنماذج اللغات الكبيرة في RL.

ومع ذلك ، فإن RMs الحالية محدودة في المجال العام ، خاصة عندما تواجه مهام معقدة ومتنوعة.

نتيجة لذلك ، يظهر تحديان رئيسيان.

أحدهما هو أن RM العام يتطلب المرونة (دعم تسجيل الاستجابة الفردية ومتعدد الاستجابات) والدقة (مكافآت عالية الجودة عبر المجالات).

والآخر هو أن RMs الحالية (مثل RM العددي و RM شبه العددية) غير قابلة للتطوير أثناء الاستدلال ولا يمكنها تحسين الأداء بشكل كبير عن طريق زيادة موارد الحوسبة.

لحل هذه المشكلة ، توصل فريق من DeepSeek و Tsinghua University إلى SPCT.

بشكل عام ، يحتوي هذا البحث بشكل أساسي على ثلاث نقاط فنية أساسية.

الأول هو نموذج المكافآت التوليدية (GRM).

يستخدم نموذج Pointwise GRM الذي يدعم الإدخال المرن (استجابة واحدة ، استجابة متعددة) وقياس الاستدلال عن طريق إنشاء مكافآت في شكل نص (على سبيل المثال ، النقدات) بدلا من قيمة عددية واحدة.

حيث C هو النقد المتولد ويستخرج F الكسر منه.

بعد ذلك ، حان الوقت ل SPCT الحاسم.

يتم تدريب GRM بشكل أساسي من خلال التعلم المعزز عبر الإنترنت (RL) على توليد مبادئ وانتقادات عالية الجودة ديناميكيا ، وذلك لتحسين جودة المكافآت.

بشكل عام ، SPCT هي عملية من مرحلتين ، وهي:

拒绝式微调 (الضبط الدقيق الرافض)

في مرحلة البداية الباردة ، يتم إنشاء البيانات الأولية من خلال سياسات أخذ العينات والرفض.:

RL عبر الإنترنت المستندة إلى القواعد

مبادئ التحسين وتوليد النقد باستخدام دالة المكافأة القاعدة التي تشجع النموذج على تمييز أفضل استجابة.:

على هذا الأساس ، هناك النقطة الفنية الثالثة ، وهي تقنية تمديد الاستدلال.

أولا ، يتم إنشاء مبادئ وانتقادات متنوعة من خلال أخذ عينات متعددة ، ويتم تجميع المكافأة النهائية عن طريق التصويت ، وذلك لتوسيع مساحة المكافأة.

تدريب نموذج مساعد لتصفية العينات منخفضة الجودة لتحسين تأثير التحجيم.

بناء على المنهجية المذكورة أعلاه ، أجرى الفريق أيضا موجة من اختبار النتائج.

على مقعد المكافآت ، ومعدات الوقاية الشخصية ، والرنمينبي وغيرها من المعايير ، يعد DeepSeek-GRM-4B أفضل بكثير من الطرق الأساسية (مثل LLM-as-a-Judge ، RM العددي) ، ويتم تحسين الأداء بشكل أكبر من خلال تمديد وقت الاستدلال (0 عينات) (على سبيل المثال ، تمت زيادة دقة Reward Bench من 0.0٪ إلى 0.0٪).

باختصار ، توضح هذه الدراسة فعالية قياس وقت الاستدلال في RM للأغراض العامة ، متفوقا على قياس وقت التدريب.

شيء إضافي

بالإضافة إلى إصدار Ultraman لأخبار "تغيير الرسم السداسي" ، لم ينس أن يجلب موجة من البضائع لنفسه ، قائلا إن كتابين شارك فيهما شخصيا على وشك الإصدار:

أحدهما كتاب كتبه كيتش هاجي عن ألترامان نفسه

أحدهما كتاب كتبه آشلي فانس عن OpenAI

العنوان: https://arxiv.org/abs/02495.0

الروابط المرجعية: [1908163013192069460]https://x.com/sama/status/0[0]https://techcrunch.com/0/0/0/openai-says-itll-release-o0-after-all-delays-gpt-0/[0]https://x.com/sama/status/0

بنقرة واحدة ثلاثية "أعجبني" ، "إلى الأمام" ، "حذر"

لا تتردد في ترك أفكارك في قسم التعليقات!