IT Home melaporkan pada 22 banding 0 bahwa karena metode benchmarking AI tradisional sulit untuk sepenuhnya mengevaluasi kemampuan model, pengembang AI mencoba metode pengujian yang lebih kreatif, salah satunya adalah game pembuatan kotak pasir Microsoft "Minecraft".
Menurut media asing TechCrunch, seorang siswa SMA bernama Adi Singh (Adi Singh) membuat situs web yang dikembangkan khusus untuk evaluasi AI, Minecraft Benchmark (disingkat MC-Bench), memungkinkan model AI untuk bersaing di panggung yang sama di "Minecraft".Hasilkan karya seni arsitektur berdasarkan petunjuk yang sama。 Pengguna dapat memilih apa yang menurut mereka lebih baik, dan setelah pemungutan suara berakhir, karya yang dihasilkan AI mana yang akan terungkap.
Ia percaya bahwa pentingnya memilih Minecraft bukanlah game itu sendiri, tetapi popularitasnya. Bahkan jika Anda belum memainkan game ini, Anda masih dapat mengetahui nanas berbentuk kubus mana yang lebih realistis. "Minecraft membuat kemajuan AI lebih intuitif, dan semua orang akrab dengan gaya dan visual Minecraft."
Saat ini, ada 8 relawan kontributor MC-Bench. IT Home mengetahui dari informasi di situs web MC-Bench bahwaAnthropic, Google, OpenAI, dan AlibabaSumber daya komputasi AI disediakan untuk proyek ini, tetapi mereka tidak terlibat langsung dalam pengembangan.
"Saat ini, pengujian kami masih mendasar, terutama untuk mengamati AIKemajuan dari era GPT-3 hingga saat ini。 Tetapi di masa depan, kami dapat memperluas ke tugas berorientasi tujuan yang lebih kompleks dan penilaian perencanaan jangka panjang, dan game mungkin merupakan cara ideal untuk menguji kemampuan penalaran agen AI – yang lebih aman dan lebih dapat dikendalikan daripada di dunia nyata. ”
Sebenarnya, MC-Bench masih menjadi tolok ukur pemrograman karena AI membutuhkannyaTulis kode untuk menghasilkan bangunan, seperti "Frost Snowman" atau "Tropical Beach House".
Ini lebih mudah bagi sebagian besar pengguna daripada menganalisis kodeMelalui karya itu sendiriuntuk menilai kinerja AI. Apakah hasil pengujian ini benar-benar dapat mengukur nilai AI di dunia nyata masih diperdebatkan. Tetapi Singh percaya data tersebut masih menjadi referensi penting. "Papan peringkat MC-Bench saat ini sangat sejalan dengan pengalaman dunia nyata saya, yang tidak umum di banyak tolok ukur teks tradisional. Mungkin, ini bisa membantu pengembang AI menentukan apakah mereka berada di jalur yang benar. ”