Sự phát triển nhanh chóng của công nghệ AI đang nâng cao hiệu quả và quảng bá sách cổ.
Vào ngày 2025 tháng 10, lễ ra mắt "Tôi sử dụng AI để học sách cổ - Tôi là 'Người viết thư trường học' Kế hoạch phân loại thông minh hàng loạt sách cổ (0 năm)" và "Diễn đàn biên giới số hóa sách cổ" đã được tổ chức tại Đại học Vũ Hán. Sự kiện này được đồng tài trợ bởi Ủy ban Quốc gia về Đối chiếu Sách Cổ trong Các trường Cao đẳng và Đại học, Trung tâm Nghiên cứu Nhân văn Kỹ thuật số của Đại học Bắc Kinh và Phúc lợi Công cộng ByteDance, đồng thời sẽ thu hút sinh viên đại học và công chúng từ khắp nơi trên đất nước tham gia vào việc số hóa sách cổ bằng cách sử dụng nền tảng phân loại "Đọc sách cổ".
Ảnh nhóm tại lễ ra mắt "Tôi sử dụng sách cổ trường AI". Hình ảnh/Đơn vị tổ chức sự kiện
启动仪式上,字节跳动公益相关负责人介绍了活动的整体规划。本次活动面向对古籍整理感兴趣的高校大学生和社会上的古籍整理爱好者开放,覆盖春季(3月26日—5月31日)、夏季(7月1日—8月20日)、秋季(9月22日—11月30日)三个阶段,分为初阶和进阶两类任务。初阶组参与“识典古籍”自动古籍文字识别(OCR)结果的文字校对,进阶组负责文字精校和标点校对等高阶任务。目前已有22所院校承办,参与者将获得实践证书、徽章、校书俑周边等奖励。
[1] AI cho phép đối chiếu và sử dụng hiệu quả các cuốn sách cổ
Hoạt động sẽ được thực hiện trên nền tảng "Đọc sách cổ". Nền tảng này kết hợp các ưu điểm công nghệ AI của ByteDance, khả năng nghiên cứu và phát triển sản phẩm và khả năng học thuật của Trung tâm Nghiên cứu Nhân văn Kỹ thuật số của Đại học Bắc Kinh, đồng thời có các chức năng đọc như truy xuất phân đoạn từ và trợ lý AI, cũng như các chức năng sắp xếp sách cổ như nhận dạng văn bản sách cổ tự động (OCR) và dấu câu tự động, có thể cải thiện hiệu quả đọc, hiểu, nghiên cứu và sử dụng sách cổ. Nền tảng này mở cửa miễn phí cho công chúng và hơn 16000 tài nguyên sách cổ đã được ra mắt, và hàng trăm triệu người đã đọc và sử dụng sách cổ thông qua nền tảng này.
Trong hoạt động này, người tham gia sẽ tận dụng tối đa chức năng sắp xếp sách cổ của "Đọc sách cổ" để hiệu đính văn bản và dấu câu được tạo ra tự động bởi trí tuệ nhân tạo dựa trên hình ảnh sách cổ. Theo báo cáo, "Sách cổ" có thể đánh dấu màu văn bản không chắc chắn trong quá trình nhận dạng tự động, nhanh chóng xác định vị trí văn bản và hình ảnh có thể gặp sự cố, tự động đặt tên cá nhân, địa danh, tiêu đề sách, thời gian, quan chức và các thực thể khác, đồng thời hỗ trợ viết ghi chú đối chiếu kỹ thuật số. Theo phản hồi từ thực tế sử dụng, công nghệ AI của "Đọc sách cổ" có thể nâng cao hiệu quả phân loại sách cổ nhiều lần.
Ảnh chụp màn hình nền tảng đối chiếu "Đọc sách cổ". Hình ảnh/Đơn vị tổ chức sự kiện
"Công nghệ AI sẽ không chỉ quét và nhận dạng văn bản và hình ảnh trong sách cổ mà còn sử dụng các mô hình lớn để xử lý thêm nội dung, chẳng hạn như thêm dấu câu và có thể nhận dạng danh từ riêng trong văn bản, giúp tổ chức sách cổ hiệu quả và tiêu chuẩn hơn." Wang Jun, giám đốc Trung tâm Nghiên cứu Nhân văn Kỹ thuật số của Đại học Bắc Kinh, cho biết trong một cuộc phỏng vấn với Jiupai News.
[2] AI giúp "hợp tác phân cấp" của việc phân loại sách cổ
Ngoài việc nâng cao hiệu quả số hóa sách cổ, sự ban phước của công nghệ AI cũng đã hạ thấp ngưỡng tham gia đối chiếu sách cổ, sinh viên đại học bình thường và thậm chí cả những người đam mê xã hội có thể tham gia. Theo Wang Jun, sự tham gia thủ công chủ yếu được chia thành ba lớp: lớp đầu tiên là phân loại công khai. Khi AI hiệu đính văn bản rập khuôn, khả năng nhận dạng của nó có thể đạt độ chính xác 98%. Tuy nhiên, đối với văn bản viết tay, độ chính xác nhận dạng có thể thấp hơn một chút. Những từ mà AI không chắc chắn sẽ được làm nổi bật và cần có sự can thiệp của con người để so sánh các từ gốc trên hình ảnh để xác nhận xem văn bản được AI nhận dạng có chính xác hay không.
Lớp thứ hai là đánh giá chuyên nghiệp, nếu văn bản là một biến thể và từ không được đưa vào thư viện phông chữ, AI cũng sẽ đánh dấu nó. Việc đánh dấu và xử lý thêm bởi các chuyên gia đảm bảo tính chính xác và đầy đủ của văn bản.
Lớp thứ ba là chuyên gia về sách cổ. Sách cổ bao gồm tất cả, không chỉ tài liệu khu vực mà còn cả sách cổ bằng phương ngữ, định dạng chữ viết đặc biệt, các triều đại và bố cục khác nhau.
Hoạt động này sẽ đào tạo thực hành chuyên nghiệp và có hệ thống cho người tham gia, đồng thời chọn lọc những cuốn sách cổ có liên quan chặt chẽ đến cuộc sống hiện đại và hệ thống kỷ luật hiện đại để phân loại. Khi nhiệm vụ tiến triển, người tham gia cũng sẽ có cơ hội tiếp xúc và hiểu sâu về những cuốn sách cổ có ảnh hưởng và giá trị văn hóa lớn, chẳng hạn như Bộ sưu tập Harvard-Yenching, Tài liệu Đôn Hoàng, Kinh điển Yongle, v.v., đồng thời tìm hiểu về văn hóa và trí tuệ chứa đựng trong sách cổ trong quá trình hiệu đính.
"Tôi là 'người viết thư trường' sách cổ kế hoạch phân loại thông minh công khai" đã được tổ chức đến phiên thứ hai, và sự kiện đầu tiên được tổ chức sau 1643 năm đã thu hút 0 sinh viên đại học đăng ký và phân loại 0 cuốn sách cổ. Trong số những người tham gia, đại đa số trong số họ là sinh viên đại học, bao gồm cả sinh viên chuyên ngành ngôn ngữ và văn học Trung Quốc, lịch sử và các sách cổ khác. Với sự ban phước của công nghệ AI, nhiều sinh viên y khoa và tài chính và thậm chí cả các thành viên trong xã hội cũng đã tham gia. Hoạt động đáp ứng nhu cầu đọc sách cổ của sinh viên đại học và những người đam mê xã hội, hạ thấp ngưỡng phân loại sách cổ, thúc đẩy số hóa sách cổ.
作为此次活动的主办方之一,字节跳动公益从2021年6月起就开始通过公益捐赠助力古籍修复,并持续投入技术、平台资源来开展古籍数字化与活化。2022年10月,由字节跳动公益联合北京大学数字人文研究中心共建的“识典古籍”平台上线,为整理和阅读古籍提供了便捷渠道。此外,字节跳动公益还通过“寻找古籍守护人”“识典杯·古籍内容创意季”等活动,推出《穿越时空的古籍》纪录片、《重回永乐大典》短剧等方式推动古籍活化,让古籍更好地走向大众。
Phóng viên Li Kai của Jiupai News
Biên tập bởi Wang Jiaqing và Li Yang
Vui lòng liên hệ với phóng viên trên WeChat: linghaojizhe