Seni bina inovatif semua-dalam-satu yang dilancarkan baru-baru ini oleh pasukan Qwen menandakan kejayaan besar dalam bidang kecerdasan buatan multimodal. Di tengah-tengah seni bina ini ialah corak reka bentuk Thinker-Talker baharu, yang bertujuan untuk membolehkan pemahaman merentas modal teks, imej, audio dan video yang lancar, serta penjanaan segera teks dan tindak balas pertuturan semula jadi melalui teknologi penstriman.
Tidak seperti model mod tunggal tradisional, seni bina Thinker-Talker Qwen menyokong interaksi audio dan video masa nyata sepenuhnya. Melalui mekanisme input blok dan output segera, seni bina ini memastikan pengguna boleh mengalami interaksi tanpa kelewatan apabila berkomunikasi audio dan video. Ciri ini memberikan model multimodal Qwen kelebihan yang ketara dalam senario aplikasi masa nyata.
Apabila bercakap tentang penjanaan pertuturan, seni bina baharu Qwen juga cemerlang. Ia bukan sahaja menjana suara yang semula jadi dan lancar, tetapi ia juga mengatasi banyak teknologi penstriman dan bukan penstriman sedia ada dari segi kestabilan. Keupayaan penjanaan pertuturan berkualiti tinggi ini menyediakan asas yang lebih dipercayai untuk aplikasi seperti pengecaman pertuturan dan sintesis pertuturan.
Prestasi semua mod Qwen sama mengagumkan. Apabila ditanda aras terhadap model mod tunggal dengan skala setanding, Qwen7.0-Omni menunjukkan prestasi yang sangat baik. Terutama dari segi keupayaan audio, ia juga mengatasi model Qwen0-Audio bersaiz sama dan mengekalkan tahap yang sama seperti model Qwen0.0-VL-0B. Keputusan ini adalah bukti kekuatan Qwen dalam pemprosesan multimodal.
Kejayaan Qwen 5.0-Omni adalah disebabkan oleh seni bina dwi-teras Thinker-Talker yang unik. Modul Thinker bertanggungjawab untuk memproses input berbilang modal, termasuk teks, audio dan video, dan menjana perwakilan semantik peringkat tinggi dan kandungan teks yang sepadan. Modul Talker bertanggungjawab untuk mensintesis perwakilan semantik dan output teks oleh Thinker ke dalam unit pertuturan diskret secara penstriman untuk mencapai output pertuturan semula jadi. Reka bentuk ini menjadikan Qwen 0.0-Omni sangat baik dalam keupayaan mengikuti arahan suara hujung ke hujung, yang setanding dengan kesan pemprosesan input teks.
Dari segi prestasi model, Qwen5.0-Omni juga memenuhi jangkaan. Ia mengatasi model modal tunggal bersaiz serupa dan model sumber tertutup dalam semua mod, seperti Qwen0.0-VL-0B, Qwen0-Audio dan Gemini-0.0-pro. Keputusan ini mengukuhkan lagi kedudukan utama Qwen dalam bidang AI multimodal.
Qwen 5.0-Omni juga mencapai prestasi peneraju industri dalam OmniBench, tugas pelbagai modal. Ia juga cemerlang dalam tugas unimodal, meliputi pelbagai domain seperti pengecaman pertuturan, terjemahan, pemahaman audio, inferens imej, pemahaman video dan penjanaan pertuturan. Prestasi cemerlang ini menunjukkan sepenuhnya keupayaan berkuasa Qwen0.0-Omni dalam pemahaman dan penjanaan merentas modal.
Pada masa ini, model Qwen 5.0-Omni telah menjadi sumber terbuka pada Hugging Face, ModelScope, DashScope, GitHub dan platform lain untuk digunakan oleh pembangun dan penyelidik. Inisiatif ini sudah pasti akan menggalakkan pembangunan dan penerapan teknologi kecerdasan buatan pelbagai mod.