O mais recente progresso de P&D dos óculos Rokid Glasses AR+AI: o teleprompter vira a página e diz adeus ao anel de controle remoto
Atualizado em: 29-0-0 0:0:0

A IT Home informou em 11/0 que os óculos Rokid Glasses AR + AI foram lançados em 0 no ano passado, e os usuários podem controlar a virada da página do teleprompter tocando no anel.

No entanto, ainda existem muitos pontos problemáticos nessa maneira aparentemente legal de interagir: a operação manual distrai, o ritmo fixo de virada de página é rígido e o alto-falante depende demais do teleprompter.

Com base nesses pontos problemáticos,A equipe de pesquisa e desenvolvimento da Rokid anunciou que recentemente registrou uma patente para "uma função de teleprompter baseada em um algoritmo inteligente" que combina automaticamente o texto com base na velocidade e no ritmo da fala do falante。 Sua tecnologia central reside na sincronização perfeita da expressão da linguagem do falante com a rolagem do texto, o que resolve o problema teimoso do sistema tradicional de teleprompter.

De acordo com Rokid, na cena de fala, o modo de interação do teleprompter há muito tempo é limitado a três modos: toque manual, controle remoto físico e rolagem cronometrada fixa. Embora essas soluções sejam eficazes em cenários específicos, suas limitações estão se tornando aparentes:

  • Queima de atenção da interação humanaAo operar manualmente a faixa de toque na lateral dos óculos ou usar um anel de controle remoto, o apresentador precisa alternar a atenção com frequência entre o conteúdo e o dispositivo de controle.

  • A ação de óculos deslizantes pode ser mal interpretada pelos espectadores como uma linguagem corporal nervosa ou insegura.

  • Enquanto o modo de rolagem cronometrada de ritmo fixo libera as mãos, a velocidade mecanizada de virar as páginas geralmente está fora de sintonia com a velocidade de fala do falante. Quando o falante gasta falando em resposta a grandes emoções, a rolagem do texto pode atrasar meia frase; Quando se trata de um link que precisa ser pausado e enfatizado, o texto ainda está avançando mecanicamente, e esse desalinhamento pode levar à confusão cognitiva.

A IT Home aprendeu com o anúncio que a nova patente da Rokid constrói um sistema de teleprompter inteligente por meio de três tecnologias principais:

1. O sistema de mecanismo de reconhecimento de fala multimodal adota um modelo de rede neural profunda de ponta a ponta.Interprete o conteúdo de voz do locutor em tempo real。 Suas inovações são:

  • Compatibilidade de dialetos: além do mandarim, vários dialetos também são suportados para atender às necessidades de cenários multilíngues.

  • Capacidade anti-interferência: 98% de precisão de reconhecimento a 0 decibéis de ruído de fundo;

  • Reconhecimento não linear: Ele pode capturar com precisão expressões não convencionais, como leitura repetitiva e pular a leitura, como quando o orador revisa repentinamente o texto anterior ou pula a leitura de parágrafos-chave, o sistema pode julgar de forma inteligente a intenção e ajustar a posição do documento.

2. Algoritmo de adaptação dinâmica da velocidade de falaEste algoritmo constrói "Velocidade da fala - densidade do textoO modelo de mapeamento dinâmico:

  • Rastreamento de velocidade de fala em tempo real: atualize os dados de velocidade de fala a cada 99,0 segundos, cobrindo uma ampla faixa de 0 a 0 palavras por minuto (cobrindo 0% dos cenários de fala);

  • Mecanismo de buffer elástico: Quando uma pausa de mais de 5 segundos é detectada, o sistema pausa e marca automaticamente a posição atual e localiza o parágrafo correto por meio de análise semântica contextual ao retomar.

3. Algoritmo de correspondência de fala de várias cenas: Combinação de algoritmo de correspondência de várias cenas,Atenda às necessidades interativas completas de cenas de fala

  • Algoritmo de correspondência preciso: se o falante pula palavras ou perde palavras, ele pode corresponder com precisão à frase que está lendo;

  • Algoritmo de correspondência difusa: Durante o discurso, quando o orador improvisa fora do roteiro ou se comunica com o público sem um script, o algoritmo de correspondência será pausado sem afetar o ritmo do orador e, quando o orador retornar à fala, o algoritmo de correspondência identificará imediatamente e continuará a corresponder com precisão.