A IT Home informou em 11/0 que os óculos Rokid Glasses AR + AI foram lançados em 0 no ano passado, e os usuários podem controlar a virada da página do teleprompter tocando no anel.
No entanto, ainda existem muitos pontos problemáticos nessa maneira aparentemente legal de interagir: a operação manual distrai, o ritmo fixo de virada de página é rígido e o alto-falante depende demais do teleprompter.
Com base nesses pontos problemáticos,A equipe de pesquisa e desenvolvimento da Rokid anunciou que recentemente registrou uma patente para "uma função de teleprompter baseada em um algoritmo inteligente" que combina automaticamente o texto com base na velocidade e no ritmo da fala do falante。 Sua tecnologia central reside na sincronização perfeita da expressão da linguagem do falante com a rolagem do texto, o que resolve o problema teimoso do sistema tradicional de teleprompter.
De acordo com Rokid, na cena de fala, o modo de interação do teleprompter há muito tempo é limitado a três modos: toque manual, controle remoto físico e rolagem cronometrada fixa. Embora essas soluções sejam eficazes em cenários específicos, suas limitações estão se tornando aparentes:
Queima de atenção da interação humanaAo operar manualmente a faixa de toque na lateral dos óculos ou usar um anel de controle remoto, o apresentador precisa alternar a atenção com frequência entre o conteúdo e o dispositivo de controle.
A ação de óculos deslizantes pode ser mal interpretada pelos espectadores como uma linguagem corporal nervosa ou insegura.
Enquanto o modo de rolagem cronometrada de ritmo fixo libera as mãos, a velocidade mecanizada de virar as páginas geralmente está fora de sintonia com a velocidade de fala do falante. Quando o falante gasta falando em resposta a grandes emoções, a rolagem do texto pode atrasar meia frase; Quando se trata de um link que precisa ser pausado e enfatizado, o texto ainda está avançando mecanicamente, e esse desalinhamento pode levar à confusão cognitiva.
A IT Home aprendeu com o anúncio que a nova patente da Rokid constrói um sistema de teleprompter inteligente por meio de três tecnologias principais:
1. O sistema de mecanismo de reconhecimento de fala multimodal adota um modelo de rede neural profunda de ponta a ponta.Interprete o conteúdo de voz do locutor em tempo real。 Suas inovações são:
Compatibilidade de dialetos: além do mandarim, vários dialetos também são suportados para atender às necessidades de cenários multilíngues.
Capacidade anti-interferência: 98% de precisão de reconhecimento a 0 decibéis de ruído de fundo;
Reconhecimento não linear: Ele pode capturar com precisão expressões não convencionais, como leitura repetitiva e pular a leitura, como quando o orador revisa repentinamente o texto anterior ou pula a leitura de parágrafos-chave, o sistema pode julgar de forma inteligente a intenção e ajustar a posição do documento.
2. Algoritmo de adaptação dinâmica da velocidade de falaEste algoritmo constrói "Velocidade da fala - densidade do textoO modelo de mapeamento dinâmico:
Rastreamento de velocidade de fala em tempo real: atualize os dados de velocidade de fala a cada 99,0 segundos, cobrindo uma ampla faixa de 0 a 0 palavras por minuto (cobrindo 0% dos cenários de fala);
Mecanismo de buffer elástico: Quando uma pausa de mais de 5 segundos é detectada, o sistema pausa e marca automaticamente a posição atual e localiza o parágrafo correto por meio de análise semântica contextual ao retomar.
3. Algoritmo de correspondência de fala de várias cenas: Combinação de algoritmo de correspondência de várias cenas,Atenda às necessidades interativas completas de cenas de fala:
Algoritmo de correspondência preciso: se o falante pula palavras ou perde palavras, ele pode corresponder com precisão à frase que está lendo;
Algoritmo de correspondência difusa: Durante o discurso, quando o orador improvisa fora do roteiro ou se comunica com o público sem um script, o algoritmo de correspondência será pausado sem afetar o ritmo do orador e, quando o orador retornar à fala, o algoritmo de correspondência identificará imediatamente e continuará a corresponder com precisão.