DeepSeek mengirim makalah baru di kaki depan, dan Ultraman segera mengikuti: GPT-5 hanya beberapa bulan lagi
Diperbarui pada: 40-0-0 0:0:0

Jin Lei dari Kuil Fei Cekung qubit | Akun resmi QbitAI

Ini agak menarik.

Bukankah ini DeepSeek baru saja menerbitkan makalah baru tentang Hukum Penskalaan dalam penalaran, yang menyebabkan semua orang bertanya-tanya apakah R2 akan segera hadir.

Ran Goose ...... Ultraman mengirim pesan "perubahan heksagram":

Perubahan rencana: Kami mungkin merilis O4 dan O0-mini terlebih dahulu dalam beberapa minggu.

Adapun GPT-5 yang telah lama ditunggu-tunggu, Ultraman berkata:

Itu akan terjadi dalam beberapa bulan, dan itu akan lebih baik dari yang kami bayangkan sebelumnya.

Adapun alasannya, Ultraman juga memberikan penjelasan.

Secara kasar, jauh lebih sulit untuk mengintegrasikan semuanya dengan lancar daripada yang mereka kira, dan mereka ingin memastikan bahwa mereka memiliki kapasitas yang cukup untuk mendukung kebutuhan yang diharapkan.

Katakanlah saja, sekarang benar-benar sedikit kebisingan di pihak DeepSeek, dan OpenAI harus membuat beberapa langkah untuk mengikutinya.

Makalah DeepSeek baru

Setelah episode kecil ini, mari kita fokus pada makalah baru DeepSeek.

Makalah, yang disebut Inference-Time Scaling for Generalist Reward Modeling, disusun bersama oleh DeepSeek dan Tsinghua University.

Sorotan inti dari penelitian ini adalah bahwa ia mengusulkan metode yang disebut SPCT (Self-Principled Critique Tuning) -

Untuk pertama kalinya, prinsip optimasi dan generasi kritis pembelajaran penguatan online (RL) diusulkan untuk mewujudkan perpanjangan waktu inferensi.

Alasan penelitian ini adalah bahwa Reward Model (RM) digunakan untuk menghasilkan sinyal hadiah untuk model bahasa besar di RL.

Namun, RM yang ada terbatas dalam domain umum, terutama ketika dihadapkan pada tugas yang kompleks dan beragam.

Akibatnya, dua tantangan utama muncul.

Salah satunya adalah bahwa RM generik membutuhkan fleksibilitas (dukungan untuk penilaian respons tunggal, multi-respons) dan akurasi (hadiah berkualitas tinggi lintas domain).

Yang lainnya adalah bahwa RM yang ada (seperti RM skalar dan RM semi-skalar) tidak dapat diskalakan selama inferensi dan tidak dapat meningkatkan kinerja secara signifikan dengan meningkatkan sumber daya komputasi.

Untuk mengatasi masalah ini, tim dari DeepSeek dan Universitas Tsinghua datang dengan SPCT.

Secara keseluruhan, penelitian ini terutama berisi tiga poin teknis inti.

Yang pertama adalah Generative Reward Model (GRM).

Ini menggunakan model GRM Pointwise yang mendukung input fleksibel (respons tunggal, respons ganda) dan penskalaan inferensi dengan menghasilkan hadiah dalam bentuk teks (misalnya, kritik) alih-alih nilai skalar tunggal.

di mana C adalah kritik yang dihasilkan dan F mengekstrak pecahan darinya.

Selanjutnya, saatnya untuk SPCT yang penting.

Terutama melalui pembelajaran penguatan online (RL) untuk melatih GRM untuk secara dinamis menghasilkan prinsip dan kritik berkualitas tinggi, sehingga dapat meningkatkan kualitas penghargaan.

Secara keseluruhan, SPCT adalah proses dua tahap, yaitu:

拒绝式微调(Penyesuaian Halus Penolak)

: Pada fase start dingin, data awal dihasilkan melalui kebijakan pengambilan sampel dan penolakan.

RL online berbasis aturan

: Prinsip pengoptimalan dan pembuatan kritik menggunakan fungsi ganjaran aturan yang mendorong model untuk membedakan respons terbaik.

Atas dasar ini, ada poin teknis ketiga, yaitu teknik ekstensi inferensi.

Pertama, prinsip dan kritik yang beragam dihasilkan melalui beberapa pengambilan sampel, dan imbalan akhir dikumpulkan dengan pemungutan suara, untuk memperluas ruang penghargaan.

Latih model tambahan untuk menyaring sampel berkualitas rendah untuk lebih meningkatkan efek penskalaan.

Berdasarkan metodologi di atas, tim juga melakukan gelombang pengujian hasil.

Pada Reward Bench, APD, RMB, dan tolok ukur lainnya, DeepSeek-GRM-4B secara signifikan lebih baik daripada metode dasar (seperti LLM-as-a-Judge, RM skalar), dan kinerjanya lebih ditingkatkan melalui perpanjangan waktu inferensi (0 sampel) (misalnya, akurasi Reward Bench meningkat dari 0,0% menjadi 0,0%).

Singkatnya, penelitian ini menunjukkan efektivitas penskalaan waktu inferensi dalam RM tujuan umum, mengungguli penskalaan waktu pelatihan.

Satu Hal Lagi

Selain rilis berita "perubahan heksagram" oleh Ultraman, dia tidak lupa membawa gelombang barang untuk dirinya sendiri, mengatakan bahwa dua buku yang dia ikuti secara pribadi akan segera dirilis:

Salah satunya adalah buku yang ditulis oleh Keach Hagey tentang Ultraman sendiri

Salah satunya adalah buku yang ditulis oleh Ashlee Vance tentang OpenAI

Alamat: https://arxiv.org/abs/02495.0

Pranala referensi: [1908163013192069460]https://x.com/sama/status/0[0]https://techcrunch.com/0/0/0/openai-says-itll-release-o0-after-all-delays-gpt-0/[0]https://x.com/sama/status/0

Tiga klik "suka", "majukan", "hati-hati"

Jangan ragu untuk meninggalkan pemikiran Anda di bagian komentar!

30 Platform agen AI TOP0
30 Platform agen AI TOP0
2025-03-25 10:58:15