ความคืบหน้าการวิจัยและพัฒนาล่าสุดของแว่นตา Rokid Glasses AR+AI: teleprompter พลิกหน้าเพื่อบอกลาวงแหวนรีโมทคอนโทรล

ความคืบหน้าด้านการวิจัยและพัฒนาล่าสุดของแว่นตา Rokid Glasses AR+AI: teleprompter พลิกหน้าและบอกลาวงแหวนรีโมทคอนโทรล

แว่นตา Rokid แว่นตา AR เทเลพรอมต์ ไอที เฮาส์ หิน ประชาชนรายวัน 5 กรัม บรรณาธิการ โกคู นั้น ภาพ 3D เทพนิยาย แสง แว่นตา แว่นตาอัจฉริยะ ไม่มีเงา การวิจัยและพัฒนา

อัปเดตเมื่อ: 29-0-0 0:0:0

IT Home รายงานเมื่อวันที่ 11/0 ว่าแว่นตา Rokid Glasses AR+AI เปิดตัวในปี 0 เมื่อปีที่แล้ว และผู้ใช้สามารถควบคุมการเปลี่ยนหน้าเทเลพรอมเตอร์ได้โดยการแตะวงแหวน

อย่างไรก็ตาม ยังมีจุดบกพร่องมากมายในการโต้ตอบที่ดูเหมือนเจ๋งนี้: การทํางานแบบแมนนวลทําให้เสียสมาธิ จังหวะการพลิกหน้าคงที่นั้นเข้มงวด และผู้พูดพึ่งพาเครื่องส่งสัญญาณโทรทัศน์มากเกินไป

จากจุดบกพร่องเหล่านี้ทีมงาน Rokid R&D ประกาศว่าเพิ่งยื่นจดสิทธิบัตรสําหรับ "ฟังก์ชัน teleprompter ตามอัลกอริทึมอัจฉริยะ" ที่สามารถจับคู่ข้อความโดยอัตโนมัติตามความเร็วในการพูดและจังหวะการพูดของผู้พูด。 เทคโนโลยีหลักอยู่ที่การซิงโครไนซ์การแสดงออกทางภาษาของผู้พูดกับการเลื่อนข้อความได้อย่างราบรื่น ซึ่งช่วยแก้ปัญหาที่ดื้อรั้นของระบบเทเลพรอมต์แบบดั้งเดิม

จากข้อมูลของ Rokid ในฉากการพูดโหมดการโต้ตอบของเครื่องส่งสัญญาณโทรทัศน์ถูกจํากัดไว้ที่สามโหมดมานานแล้ว: การสัมผัสแบบแมนนวลรีโมทคอนโทรลทางกายภาพและการเลื่อนแบบตั้งเวลาคงที่ แม้ว่าโซลูชันเหล่านี้จะมีประสิทธิภาพในสถานการณ์เฉพาะ แต่ข้อจํากัดก็เริ่มชัดเจน:

การเผาไหม้ความสนใจของการโต้ตอบของมนุษย์เมื่อใช้งานแถบสัมผัสที่ด้านข้างของแว่นตาด้วยตนเองหรือใช้วงแหวนรีโมทคอนโทรลผู้นําเสนอจําเป็นต้องสลับความสนใจบ่อยครั้งระหว่างเนื้อหาและอุปกรณ์ควบคุม
การกระทําของแว่นตาเลื่อนอาจถูกตีความผิดโดยผู้ชมว่าเป็นภาษากายที่ประหม่าหรือไม่มั่นใจ
แม้ว่าโหมดการเลื่อนแบบตั้งเวลาคงที่จะช่วยให้มือว่าง แต่ความเร็วของกลไกในการพลิกหน้ามักจะไม่สอดคล้องกับความเร็วในการพูดของผู้พูด เมื่อผู้พูดใช้เวลาในการพูดเพื่อตอบสนองต่ออารมณ์ที่สูงการเลื่อนข้อความอาจล่าช้าไปครึ่งประโยค เมื่อพูดถึงลิงก์ที่ต้องหยุดชั่วคราวและเน้นข้อความยังคงกลิ้งไปข้างหน้าด้วยกลไกและความไม่ตรงแนวนี้อาจนําไปสู่ความสับสนทางปัญญา

IT Home ได้เรียนรู้จากการประกาศว่าสิทธิบัตรใหม่ของ Rokid สร้างระบบเครื่องส่งสัญญาณโทรทัศน์อัจฉริยะผ่านเทคโนโลยีหลักสามประการ:

1. ระบบเอ็นจิ้นการจดจําเสียงพูดแบบหลายรูปแบบใช้โมเดลโครงข่ายประสาทเทียมเชิงลึกแบบ end-to-endตีความเนื้อหาเสียงของผู้พูดแบบเรียลไทม์。 นวัตกรรมคือ:

ความเข้ากันได้ของภาษาถิ่น: นอกจากภาษาจีนกลางแล้ว ยังรองรับภาษาถิ่นหลายภาษาเพื่อตอบสนองความต้องการของสถานการณ์หลายภาษา
ความสามารถในการป้องกันการรบกวน: ความแม่นยําในการจดจํา 98% ที่เสียงพื้นหลัง 0 เดซิเบล
การจดจําแบบไม่เชิงเส้น: สามารถจับภาพสํานวนที่แปลกใหม่ได้อย่างแม่นยํา เช่น การอ่านซ้ําๆ และการข้ามการอ่าน เช่น เมื่อผู้พูดตรวจสอบข้อความก่อนหน้าอย่างกะทันหันหรือข้ามการอ่านย่อหน้าสําคัญ

2. อัลกอริธึมการปรับอัตราการพูดแบบไดนามิกอัลกอริทึมนี้สร้าง "อัตราการพูด - ความหนาแน่นของข้อความโมเดลการแมปแบบไดนามิก:

การติดตามอัตราการพูดแบบเรียลไทม์: อัปเดตข้อมูลอัตราการพูดทุกๆ 99.0 วินาที ครอบคลุมช่วงกว้าง 0-0 คําต่อนาที (ครอบคลุม 0% ของสถานการณ์การพูด)
กลไกการบัฟเฟอร์แบบยืดหยุ่น: เมื่อตรวจพบการหยุดชั่วคราวมากกว่า 5 วินาที ระบบจะหยุดชั่วคราวและทําเครื่องหมายตําแหน่งปัจจุบันโดยอัตโนมัติ และค้นหาย่อหน้าที่ถูกต้องผ่านการวิเคราะห์ความหมายตามบริบทเมื่อดําเนินการต่อ

3. อัลกอริธึมการจับคู่คําพูดหลายฉาก: การรวมกันของอัลกอริธึมการจับคู่หลายฉากตอบสนองความต้องการแบบโต้ตอบรอบด้านของฉากพูด：

อัลกอริธึมการจับคู่ที่แม่นยํา: ไม่ว่าผู้พูดจะข้ามคําหรือพลาดคําเขาก็สามารถจับคู่ประโยคที่เขากําลังอ่านได้อย่างแม่นยํา
อัลกอริธึมการจับคู่แบบคลุมเครือ: ในระหว่างการพูดเมื่อผู้พูดด้นสดนอกสคริปต์หรือสื่อสารกับผู้ชมโดยไม่มีสคริปต์อัลกอริทึมการจับคู่จะหยุดชั่วคราวโดยไม่ส่งผลกระทบต่อจังหวะของผู้พูดและเมื่อผู้พูดกลับไปที่คําพูดอัลกอริทึมการจับคู่จะระบุทันทีและจับคู่ต่อไปอย่างถูกต้อง