Tiến độ R & D mới nhất của kính Rokid Glasses AR + AI: máy nhắc chữ lật trang và nói lời tạm biệt với vòng điều khiển từ xa
Cập nhật vào: 29-0-0 0:0:0

IT Home báo cáo vào ngày 11/0 rằng kính Rokid Glasses AR + AI đã được phát hành vào năm 0 và người dùng có thể điều khiển việc lật trang bằng cách chạm vào vòng.

Tuy nhiên, vẫn còn nhiều điểm khó khăn trong cách tương tác tưởng chừng như thú vị này: thao tác thủ công gây mất tập trung, nhịp lật trang cố định cứng nhắc và loa phụ thuộc quá nhiều vào máy nhắc chữ từ xa.

Dựa trên những điểm đau này,Nhóm nghiên cứu và phát triển của Rokid thông báo rằng gần đây họ đã nộp bằng sáng chế cho "chức năng máy nhắc chữ dựa trên một thuật toán thông minh" tự động khớp văn bản dựa trên tốc độ giọng nói và nhịp điệu nói của người nói。 Công nghệ cốt lõi của nó nằm ở sự đồng bộ hóa liền mạch giữa cách diễn đạt ngôn ngữ của người nói với việc cuộn văn bản, giúp giải quyết vấn đề cứng đầu của hệ thống máy nhắc chữ truyền thống.

Theo Rokid, trong cảnh phát biểu, chế độ tương tác của máy nhắc chữ từ lâu đã bị giới hạn ở ba chế độ: cảm ứng thủ công, điều khiển từ xa vật lý và cuộn theo thời gian cố định. Mặc dù các giải pháp này có hiệu quả trong các tình huống cụ thể, nhưng những hạn chế của chúng đang trở nên rõ ràng:

  • Chú ý Đốt cháy tương tác của con người Khi vận hành thủ công dải cảm ứng ở mặt bên kính hoặc sử dụng vòng điều khiển từ xa, người thuyết trình cần thường xuyên chuyển sự chú ý giữa nội dung và thiết bị điều khiển.

  • Hành động của kính trượt có thể bị người xem hiểu nhầm là ngôn ngữ cơ thể lo lắng hoặc không tự tin.

  • Trong khi chế độ cuộn hẹn giờ có nhịp độ cố định giải phóng tay, tốc độ máy móc của việc lật trang thường không liên lạc với tốc độ nói của người nói. Khi người nói dành thời gian để nói để đáp lại cảm xúc cao, cuộn văn bản có thể bị trễ nửa câu; Khi nói đến một liên kết cần được tạm dừng và nhấn mạnh, văn bản vẫn đang chuyển về phía trước một cách máy móc và sự sai lệch này có thể dẫn đến nhầm lẫn nhận thức.

IT Home được biết từ thông báo rằng bằng sáng chế mới của Rokid xây dựng một hệ thống máy nhắc chữ thông minh thông qua ba công nghệ cốt lõi:

1. Hệ thống công cụ nhận dạng giọng nói đa phương thức áp dụng mô hình mạng nơ-ron sâu đầu cuối.Diễn giải nội dung giọng nói của người nói trong thời gian thực。 Những đổi mới của nó là:

  • Khả năng tương thích phương ngữ: Ngoài tiếng Quan Thoại, nhiều phương ngữ cũng được hỗ trợ để đáp ứng nhu cầu của các tình huống đa ngôn ngữ.

  • Khả năng chống nhiễu: Độ chính xác nhận dạng 98% ở tiếng ồn xung quanh 0 decibel;

  • Nhận dạng phi tuyến: Nó có thể nắm bắt chính xác các biểu thức độc đáo như đọc lặp đi lặp lại và bỏ qua đọc, chẳng hạn như khi người nói đột ngột xem lại văn bản trước đó hoặc bỏ qua việc đọc các đoạn chính, hệ thống có thể đánh giá ý định một cách thông minh và điều chỉnh vị trí của tài liệu.

2. Thuật toán thích ứng tốc độ giọng nói độngThuật toán này xây dựng "Tốc độ nói - mật độ văn bảnMô hình ánh xạ động:

  • Theo dõi tốc độ giọng nói theo thời gian thực: Cập nhật dữ liệu tốc độ giọng nói sau mỗi 99,0 giây, bao gồm phạm vi rộng 0-0 từ mỗi phút (bao gồm 0% tình huống giọng nói);

  • Cơ chế đệm đàn hồi: Khi phát hiện tạm dừng hơn 5 giây, hệ thống sẽ tự động tạm dừng và đánh dấu vị trí hiện tại, đồng thời xác định vị trí đoạn văn thông qua phân tích ngữ nghĩa theo ngữ cảnh khi tiếp tục.

3. Thuật toán khớp giọng nói đa cảnh: Kết hợp thuật toán khớp đa cảnh,Đáp ứng nhu cầu tương tác toàn diện của các cảnh phát biểu

  • Thuật toán khớp chính xác: cho dù người nói bỏ qua từ hay bỏ lỡ từ, anh ta có thể khớp chính xác câu mình đang đọc;

  • Thuật toán khớp mờ: Trong quá trình phát biểu, khi người nói ngẫu hứng ngoài kịch bản hoặc giao tiếp với khán giả mà không có kịch bản, thuật toán khớp sẽ bị tạm dừng mà không ảnh hưởng đến nhịp điệu của người nói, và khi người nói quay lại bài phát biểu, thuật toán khớp sẽ ngay lập tức xác định và tiếp tục khớp chính xác.