Le développement rapide de la technologie de l’IA améliore l’efficacité et la promotion des livres anciens.
3月26日,“我用AI校古籍——我是‘校书官’古籍大众智能整理计划(2025年)”启动仪式暨“古籍数字化前沿论坛”在武汉大学召开。活动由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心和字节跳动公益联合主办,将征集全国高校大学生和社会公众,利用“识典古籍”整理平台,共同参与古籍数字化整理工作。
Photo de groupe lors de la cérémonie de lancement de « I Use AI School Ancient Books ». Photo/Organisateurs d’événements
启动仪式上,字节跳动公益相关负责人介绍了活动的整体规划。本次活动面向对古籍整理感兴趣的高校大学生和社会上的古籍整理爱好者开放,覆盖春季(3月26日—5月31日)、夏季(7月1日—8月20日)、秋季(9月22日—11月30日)三个阶段,分为初阶和进阶两类任务。初阶组参与“识典古籍”自动古籍文字识别(OCR)结果的文字校对,进阶组负责文字精校和标点校对等高阶任务。目前已有22所院校承办,参与者将获得实践证书、徽章、校书俑周边等奖励。
[1] L’IA permet la compilation et l’utilisation efficace des livres anciens
L’activité se déroulera sur la plateforme de « Lecture de livres anciens ». La plate-forme combine les avantages de la technologie d’IA de ByteDance, ses capacités de recherche et de développement de produits et les capacités académiques du Centre de recherche en humanités numériques de l’Université de Pékin, et dispose de fonctions de lecture telles que la récupération de segmentation de mots et l’assistant d’IA, ainsi que des fonctions de tri de livres anciens telles que la reconnaissance automatique de texte de livres anciens (OCR) et la ponctuation automatique, qui peuvent améliorer efficacement la lecture, la compréhension, la recherche et l’efficacité de l’utilisation des livres anciens. La plate-forme est ouverte au public gratuitement, et plus de 16000 ressources de livres anciens ont été lancées, et des centaines de millions de personnes ont lu et utilisé des livres anciens via la plate-forme.
Dans cette activité, les participants utiliseront pleinement la fonction de tri des livres anciens de « Lecture de livres anciens » pour relire le texte et la ponctuation générés automatiquement par l’intelligence artificielle sur la base d’images de livres anciens. Selon les rapports, les « livres anciens » peuvent marquer en couleur le texte incertain dans le processus de reconnaissance automatique, localiser rapidement les emplacements du texte et des images qui peuvent avoir des problèmes, nommer automatiquement les noms de personnes, les noms de lieux, les titres de livres, l’heure, les fonctionnaires et d’autres entités, et prendre en charge la rédaction de notes de compilation numériques. Selon les retours d’expérience de l’utilisation réelle, la technologie d’IA de « Reading Ancient Books » peut améliorer l’efficacité du tri des livres anciens à plusieurs reprises.
Capture d’écran de la plateforme de compilation « Reading Ancient Books ». Photo/Organisateurs d’événements
« La technologie de l’IA ne se contentera pas de numériser et de reconnaître le texte et les images des livres anciens, mais utilisera également de grands modèles pour traiter davantage le contenu, comme l’ajout de signes de ponctuation et la capacité de reconnaître les noms propres dans le texte, ce qui rend l’organisation des livres anciens plus efficace et plus standardisée. » Wang Jun, directeur du Centre de recherche en humanités numériques de l’Université de Pékin, a déclaré dans une interview accordée à Jiupai News.
[2] L’IA aide à la « collaboration hiérarchique » du tri des livres anciens
En plus d’améliorer l’efficacité de la numérisation des livres anciens, la bénédiction de la technologie de l’IA a également abaissé le seuil de participation à la compilation de livres anciens, qui peut être suivie par des étudiants ordinaires et même des passionnés sociaux. Selon Wang Jun, la participation manuelle est principalement divisée en trois couches : la première est le tri public. Lorsque l’IA relit un texte stéréotypé, sa reconnaissance peut atteindre une précision de 98 %. Cependant, pour le texte manuscrit, la précision de la reconnaissance peut être légèrement inférieure. Les mots dont l’IA n’est pas certaine seront mis en évidence, et une intervention humaine est nécessaire pour comparer les mots originaux sur l’image afin de confirmer si le texte reconnu par l’IA est exact.
La deuxième couche est l’examen professionnel, si le texte est une variante et que le mot n’est pas inclus dans la bibliothèque de polices, l’IA le marquera également. Le marquage et le traitement ultérieurs par des professionnels garantissent l’exactitude et l’exhaustivité du texte.
Le troisième niveau est l’expert en livres anciens. Les livres anciens sont englobants, non seulement des documents régionaux, mais aussi des livres anciens en dialectes, des formats d’écriture spéciaux et différentes dynasties et mises en page.
Cette activité fournira une formation pratique professionnelle et systématique aux participants, et sélectionnera des livres anciens étroitement liés à la vie moderne et au système de discipline moderne pour le tri. Au fur et à mesure de l’avancement de la tâche, les participants auront également l’occasion d’entrer en contact et d’acquérir une compréhension approfondie des livres anciens ayant une grande influence et valeur culturelle, tels que la collection Harvard-Yenching, les documents de Dunhuang, le canon de Yongle, etc., et d’en apprendre davantage sur la culture et la sagesse contenues dans les livres anciens dans le processus de relecture.
« Je suis un 'écrivain d’école' livre ancien plan public de tri intelligent » a été tenu à la deuxième session, et le premier événement organisé en 1643 ans a attiré 0 étudiants à s’inscrire et à trier 0 livres anciens. Parmi les participants, la grande majorité d’entre eux étaient des étudiants de premier cycle, y compris des étudiants en langue et littérature chinoises, en histoire et autres livres anciens. Avec la bénédiction de la technologie de l’IA, de nombreux étudiants en médecine et en finance et même des membres de la société se sont également joints à eux. L’activité répondait aux besoins des collégiens et des passionnés de la société pour la lecture de livres anciens, abaissait le seuil de tri des livres anciens et favorisait la numérisation des livres anciens.
作为此次活动的主办方之一,字节跳动公益从2021年6月起就开始通过公益捐赠助力古籍修复,并持续投入技术、平台资源来开展古籍数字化与活化。2022年10月,由字节跳动公益联合北京大学数字人文研究中心共建的“识典古籍”平台上线,为整理和阅读古籍提供了便捷渠道。此外,字节跳动公益还通过“寻找古籍守护人”“识典杯·古籍内容创意季”等活动,推出《穿越时空的古籍》纪录片、《重回永乐大典》短剧等方式推动古籍活化,让古籍更好地走向大众。
Li Kai, journaliste de Jiupai News
Édité par Wang Jiaqing et Li Yang
Veuillez contacter le journaliste sur WeChat : linghaojizhe