Rokid Glasses AR+AI चश्मे की नवीनतम R&D प्रगति: टेलीप्रॉम्प्टर पृष्ठ को चालू करता है और रिमोट कंट्रोल रिंग को अलविदा कहता है
अपडेटेड: 29-0-0 0:0:0

आईटी होम ने 11/0 पर बताया कि रोकिड ग्लास एआर + एआई चश्मा पिछले साल 0 में जारी किया गया था, और उपयोगकर्ता रिंग को छूकर टेलीप्रॉम्प्टर पेज को मोड़ सकते हैं।

हालांकि, बातचीत के इस प्रतीत होता है कि शांत तरीके से अभी भी कई दर्द बिंदु हैं: मैनुअल ऑपरेशन विचलित करने वाला है, निश्चित पृष्ठ मोड़ लय कठोर है, और स्पीकर टेलीप्रॉम्प्टर पर बहुत अधिक निर्भर करता है।

इन दर्द बिंदुओं के आधार पर,रोकिड आर एंड डी टीम ने घोषणा की कि उसने हाल ही में "एक बुद्धिमान एल्गोरिथ्म पर आधारित एक टेलीप्रॉम्प्टर फ़ंक्शन" के लिए एक पेटेंट दायर किया है जो स्पीकर की भाषण गति और भाषण लय के आधार पर पाठ से स्वचालित रूप से मेल खाता है。 इसकी मूल तकनीक पाठ की स्क्रॉलिंग के साथ स्पीकर की भाषा अभिव्यक्ति के सहज सिंक्रनाइज़ेशन में निहित है, जो पारंपरिक टेलीप्रॉम्प्टर सिस्टम की जिद्दी समस्या को हल करती है।

रोकिड के अनुसार, भाषण दृश्य में, टेलीप्रॉम्प्टर का इंटरैक्शन मोड लंबे समय से तीन मोड तक सीमित है: मैनुअल टच, फिजिकल रिमोट कंट्रोल और फिक्स्ड टाइम्ड स्क्रॉलिंग। हालांकि ये समाधान विशिष्ट परिदृश्यों में प्रभावी हैं, उनकी सीमाएं स्पष्ट हो रही हैं:

  • मानव अंतःक्रिया का ध्यान बर्न चश्मे के किनारे पर टच स्ट्रिप को मैन्युअल रूप से संचालित करते समय या रिमोट कंट्रोल रिंग का उपयोग करते समय, प्रस्तुतकर्ता को सामग्री और नियंत्रण डिवाइस के बीच बार-बार ध्यान स्विच करने की आवश्यकता होती है।

  • स्लाइडिंग ग्लास की कार्रवाई को दर्शकों द्वारा नर्वस या अविश्वासी बॉडी लैंग्वेज के रूप में गलत समझा जा सकता है।

  • जबकि फिक्स्ड-पेस्ड समयबद्ध स्क्रॉलिंग मोड हाथों को मुक्त करता है, पृष्ठों को मोड़ने की मशीनीकृत गति अक्सर स्पीकर की बोलने की गति के संपर्क से बाहर होती है। जब वक्ता उच्च भावनाओं के जवाब में बोलने में खर्च करता है, तो पाठ स्क्रॉलिंग आधे वाक्य से पिछड़ सकती है; जब यह एक लिंक की बात आती है जिसे रोकने और जोर देने की आवश्यकता होती है, तो पाठ अभी भी यंत्रवत् रूप से आगे बढ़ रहा है, और यह गलत संरेखण संज्ञानात्मक भ्रम पैदा कर सकता है।

आईटी होम ने घोषणा से सीखा कि रोकिड का नया पेटेंट तीन मुख्य प्रौद्योगिकियों के माध्यम से एक बुद्धिमान टेलीप्रॉम्प्टर सिस्टम बनाता है:

1. मल्टीमॉडल स्पीच रिकग्निशन इंजन सिस्टम एंड-टू-एंड डीप न्यूरल नेटवर्क मॉडल को अपनाता है।वास्तविक समय में स्पीकर की आवाज सामग्री की व्याख्या करें。 इसके नवाचार हैं:

  • बोली संगतता: मंदारिन के अलावा, बहु-भाषा परिदृश्यों की जरूरतों को पूरा करने के लिए कई बोलियों का भी समर्थन किया जाता है।

  • विरोधी हस्तक्षेप क्षमता: 98 डेसिबल पृष्ठभूमि शोर पर 0% मान्यता सटीकता;

  • नॉनलाइनियर मान्यता: यह अपरंपरागत अभिव्यक्तियों को सटीक रूप से कैप्चर कर सकता है जैसे कि दोहराव पढ़ने और पढ़ने को छोड़ना, जैसे कि जब स्पीकर अचानक पिछले पाठ की समीक्षा करता है या कुंजी पैराग्राफ पढ़ना छोड़ देता है, तो सिस्टम समझदारी से इरादे का न्याय कर सकता है और दस्तावेज़ की स्थिति को समायोजित कर सकता है।

2. गतिशील भाषण दर अनुकूलन एल्गोरिथ्मयह एल्गोरिथ्म निर्माण करता है "भाषण दर - पाठ घनत्वगतिशील मानचित्रण मॉडल:

  • रीयल-टाइम स्पीच रेट ट्रैकिंग: हर 99.0 सेकंड में स्पीच रेट डेटा अपडेट करें, जिसमें प्रति मिनट 0-0 शब्द (स्पीच परिदृश्यों का 0% कवर) की एक विस्तृत श्रृंखला शामिल है;

  • लोचदार बफरिंग तंत्र: जब 5 सेकंड से अधिक के ठहराव का पता लगाया जाता है, तो सिस्टम स्वचालित रूप से वर्तमान स्थिति को रोकता है और चिह्नित करता है, और फिर से शुरू होने पर प्रासंगिक अर्थ विश्लेषण के माध्यम से सही पैराग्राफ का पता लगाता है।

3. बहु-दृश्य भाषण मिलान एल्गोरिथ्म: बहु-दृश्य मिलान एल्गोरिथ्म का संयोजन,भाषण दृश्यों की चौतरफा इंटरैक्टिव जरूरतों को पूरा करें

  • सटीक मिलान एल्गोरिथ्म: चाहे वक्ता शब्दों को छोड़ देता है या शब्दों को याद करता है, वह उस वाक्य से सटीक रूप से मेल खा सकता है जो वह पढ़ रहा है;

  • फजी मैचिंग एल्गोरिथ्म: भाषण के दौरान, जब स्पीकर ऑफ-स्क्रिप्ट में सुधार करता है या बिना स्क्रिप्ट के दर्शकों के साथ संचार करता है, तो स्पीकर की लय को प्रभावित किए बिना मिलान करने वाले एल्गोरिदम को रोक दिया जाएगा, और जब स्पीकर भाषण पर लौटता है, तो मिलान एल्गोरिथ्म तुरंत पहचान लेगा और सटीक रूप से मिलान करना जारी रखेगा।