Semua orang bersentuhan dengan banyak model besar dan alatan AI setiap hari, pernahkah anda mempertimbangkan cara mereka melakukannya? Mengetahui prinsip ini sangat membantu kami untuk bekerja dengan model besar dan kaedah penalaan.
Dalam model bahasa besar (LLM), pembelajaran tanpa pengawasan, pembelajaran diselia dan pembelajaran pengukuhan ialah tiga komponen pembelajaran mesin, dan ia juga merupakan tiga peringkat asas melatih model besar. Setiap daripada mereka memainkan peranan yang berbeza dan digunakan untuk fasa dan tugas latihan yang berbeza.
Pembelajaran tanpa pengawasan ialah peringkat pra-latihan model, yang bermaksud memberi model sejumlah besar teks dan pembelajaran tanpa pengawasan pra-latihan, supaya kita akan mendapat asas yang boleh menjana teks.
在预训练中,需要大量的文本作为原料,让模型从中学习,比如gpt-3这个基座模型的训练数据,就有非常多的互联网文本语料库,包含有新闻、图书和文献、科学论文、特定领域的数据集、社交媒体和论坛等等。训练数据的整体规模有三千亿的Token(具体什么是token我们将在下一个帖子中详细解释。先简单来理解的话就是基本文本单位)。
Pada akhir pra-latihan kami mendapat model alas, dan model alas ini tidak begitu pandai dialog, anda memberinya soalan, dan dia mungkin meniru perkara di atas dan membantu anda terus menjana lebih banyak soalan, tetapi tidak menjawab soalan anda. Di situlah kita beralih ke langkah kedua, pembelajaran yang diselia
Sebaik sahaja kita mempunyai sejumlah besar teks latihan, kita perlu menggunakan pendekatan "pembelajaran yang diselia", iaitu menyelia dan memperhalusi model asas dengan beberapa data dialog berkualiti tinggi yang ditulis oleh manusia.
Pada peringkat ini, kita perlu menunjukkan lebih banyak data dialog kepada model asas, termasuk data dialog pusingan tunggal dan data dialog berbilang pusingan, dsb., untuk melatih pembantu AI yang mahir dalam dialog.
Kos penalaan halus jauh lebih rendah daripada pra-latihan, kerana skala data latihan yang diperlukan agak kecil, dan masa latihan lebih pendek, pada peringkat ini, model tidak perlu belajar daripada sejumlah besar teks, tetapi daripada beberapa dialog profesional dan berkualiti tinggi yang ditulis oleh manusia (pada peringkat ini, profesion yang dipanggil jurulatih AI atau anotasi data, yang akan kita bincangkan perlahan-lahan dalam siaran kemudian), yang bersamaan dengan memberikan model kedua-dua soalan dan jawapan yang kita suka manusia, yang tergolong dalam pembelajaran yang diselia.
Proses ini dipanggil:监督微调(Supervised Fine-Tuning)简称:SFT。
Apabila anda selesai, anda akan mendapat model SFT.
Dalam fasa pembelajaran pengukuhan, model dioptimumkan lagi untuk meningkatkan prestasinya dalam aplikasi dunia sebenar, supaya model boleh belajar secara autonomi.
Peringkat ini terdiri daripada dua langkah berikut:
a.人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)
Bahagian ini mengandungi: penilaian manusia,奖励模型(Model Ganjaran), pengoptimuman dasar
b.Maklum balas dan pelarasan
Melalui berbilang lelaran maklum balas dan pelarasan, model secara beransur-ansur belajar untuk menjana respons berkualiti tinggi. Proses ini biasanya melibatkan penjanaan berulang, penilaian, pelarasan dan pengoptimuman.
Ini agak mudah difahami, tetapi apa yang akan saya fokuskan ialah ini奖励模型(Model Ganjaran)
Untuk menjadikan model dengan patuh bertindak sebagai pembantu AI yang membantu, kita boleh meminta model menjawab soalan, dan kemudian membiarkan penilai manusia menjaringkan jawapan, dan kriteria pemarkahan terutamanya berdasarkan pada:Prinsip 3H (Membantu, Keaslian, Tidak Berbahaya)
Jika skornya tinggi, model boleh belajar dan membuat usaha berterusan, dan jika skornya rendah, model belajar untuk bertambah baik.
Tetapi bergantung kepada manusia untuk menjaringkan jawapan satu demi satu adalah sangat mahal dan tidak cekap. Jadi kami akan melatih model lain dan membiarkan model menjaringkan model. Dalam langkah ini, anda perlu melatih model ganjaran. Dia belajar daripada jawapan dan penilaian yang sepadan dengannya.
Cara model mendapat data pemarkahan ialah kita menggunakan model yang berbeza untuk membina respons yang berbeza kepada soalan yang sama, dan kemudian meminta anotasi manusia membandingkan dan meletakkan kedudukan kualiti respons, dan dalam beberapa kes, jawapan ditambah dengan markah penuh oleh manusia. Beritahu model jawapan mana yang terbaik.
Walaupun masih tidak dapat dielakkan untuk bergantung kepada buruh manusia. Tetapi sebaik sahaja anda mempunyai data yang disusun yang mencukupi, anda boleh menggunakannya untuk melatih model ganjaran. Biarkan model ganjaran belajar meramalkan pemarkahan tindak balas.
Selepas model ganjaran dilatih, ia boleh digunakan dalam pembelajaran pengukuhan, dalam pembelajaran pengukuhan, parameter awal model besar datang daripada model SFT yang diperoleh sebelum ini, tetapi akan dikemas kini dengan latihan, parameter model ganjaran tidak akan dikemas kini, tugasnya adalah untuk menjaringkan kandungan yang dijana oleh model, selepas pusingan demi pusingan lelaran, model akan terus mengoptimumkan strategi, dan kualiti jawapan akan dipertingkatkan lagi.
Pada akhirnya, model yang begitu besar telah diperhalusi melalui pembelajaran berterusan. 🎉
Artikel ini pada asalnya diterbitkan oleh @Belin_belin di Semua Orang adalah Pengurus Produk. Pengeluaran semula tanpa kebenaran pengarang adalah dilarang
Imej tajuk adalah daripada Unsplash dan dilesenkan di bawah CC0
Pandangan dalam artikel ini hanya mewakili pengarang sendiri, semua orang adalah pengurus produk, dan platform hanya menyediakan perkhidmatan ruang storan maklumat