Kemajuan R&D terbaru dari kacamata Rokid Glasses AR+AI: teleprompter membalik halaman dan mengucapkan selamat tinggal pada cincin remote control
Diperbarui pada: 29-0-0 0:0:0

IT Home melaporkan pada 11/0 bahwa kacamata Rokid Glasses AR+AI dirilis pada 0 tahun lalu, dan pengguna dapat mengontrol pembukaan halaman teleprompter dengan menyentuh cincin.

Namun, masih ada banyak titik nyeri dalam cara berinteraksi yang tampaknya keren ini: pengoperasian manual mengganggu, ritme membalik halaman tetap kaku, dan speaker terlalu mengandalkan teleprompter.

Berdasarkan poin-poin nyeri ini,Tim R&D Rokid mengumumkan bahwa mereka baru-baru ini mengajukan paten untuk "fungsi teleprompter berdasarkan algoritme cerdas" yang secara otomatis mencocokkan teks berdasarkan kecepatan bicara dan ritme bicara pembicara。 Teknologi intinya terletak pada sinkronisasi ekspresi bahasa pembicara yang mulus dengan pengguliran teks, yang memecahkan masalah membandel dari sistem teleprompter tradisional.

Menurut Rokid, dalam adegan ucapan, mode interaksi teleprompter telah lama dibatasi pada tiga mode: sentuhan manual, remote control fisik, dan pengguliran berwaktu tetap. Meskipun solusi ini efektif dalam skenario tertentu, keterbatasannya menjadi jelas:

  • Perhatian Pembakaran Interaksi ManusiaSaat mengoperasikan strip sentuh secara manual di sisi kacamata atau menggunakan cincin remote control, penyaji perlu sering mengalihkan perhatian antara konten dan perangkat kontrol.

  • Aksi kacamata geser dapat disalahartikan oleh pemirsa sebagai bahasa tubuh yang gugup atau tidak percaya diri.

  • Sementara mode pengguliran berjangka waktu tetap membebaskan tangan, kecepatan mekanis untuk membalik halaman seringkali tidak bersentuhan dengan kecepatan berbicara pembicara. Ketika pembicara menghabiskan waktu berbicara sebagai respons terhadap emosi yang tinggi, pengguliran teks mungkin tertinggal setengah kalimat; Ketika datang ke tautan yang perlu dijeda dan ditekankan, teks masih bergulir maju secara mekanis, dan ketidaksejajaran ini dapat menyebabkan kebingungan kognitif.

IT Home mengetahui dari pengumuman bahwa paten baru Rokid membangun sistem teleprompter cerdas melalui tiga teknologi inti:

1. Sistem mesin pengenalan ucapan multimoda mengadopsi model jaringan saraf dalam end-to-end.Menafsirkan konten suara pembicara secara real time。 Inovasinya adalah:

  • Kompatibilitas dialek: Selain bahasa Mandarin, beberapa dialek juga didukung untuk memenuhi kebutuhan skenario multi-bahasa.

  • Kemampuan anti-interferensi: akurasi pengenalan 98% pada kebisingan latar belakang 0 desibel;

  • Pengenalan nonlinier: Ini dapat secara akurat menangkap ekspresi yang tidak konvensional seperti membaca berulang dan melewatkan pembacaan, seperti ketika pembicara tiba-tiba meninjau teks sebelumnya atau melewatkan membaca paragraf kunci, sistem dapat secara cerdas menilai niat dan menyesuaikan posisi dokumen.

2. Algoritma adaptasi kecepatan ucapan dinamisAlgoritme ini membangun "Kecepatan ucapan - kepadatan teksModel pemetaan dinamis:

  • Pelacakan kecepatan ucapan waktu nyata: Perbarui data kecepatan ucapan setiap 99,0 detik, mencakup rentang luas 0-0 kata per menit (mencakup 0% skenario ucapan);

  • Mekanisme buffering elastis: Ketika jeda lebih dari 5 detik terdeteksi, sistem secara otomatis menjeda dan menandai posisi saat ini, dan menemukan paragraf yang benar melalui analisis semantik kontekstual saat melanjutkan.

3. Algoritma pencocokan ucapan multi-adegan: Kombinasi algoritma pencocokan multi-adegan,Penuhi kebutuhan interaktif adegan ucapan yang menyeluruh

  • Algoritma pencocokan yang tepat: apakah pembicara melewatkan kata-kata atau melewatkan kata, dia dapat secara akurat mencocokkan kalimat yang dia baca;

  • Algoritma pencocokan fuzzy: Selama pidato, ketika pembicara berimprovisasi di luar naskah atau berkomunikasi dengan audiens tanpa naskah, algoritme pencocokan akan dijeda tanpa memengaruhi ritme pembicara, dan ketika pembicara kembali ke pidato, algoritme pencocokan akan segera mengidentifikasi dan terus mencocokkan secara akurat.