O rápido desenvolvimento da tecnologia de IA está melhorando a eficiência e a promoção de livros antigos.
3月26日,“我用AI校古籍——我是‘校书官’古籍大众智能整理计划(2025年)”启动仪式暨“古籍数字化前沿论坛”在武汉大学召开。活动由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心和字节跳动公益联合主办,将征集全国高校大学生和社会公众,利用“识典古籍”整理平台,共同参与古籍数字化整理工作。
Foto de grupo na cerimônia de lançamento de "Eu uso livros antigos da escola de IA". Organizadores de fotos/eventos
启动仪式上,字节跳动公益相关负责人介绍了活动的整体规划。本次活动面向对古籍整理感兴趣的高校大学生和社会上的古籍整理爱好者开放,覆盖春季(3月26日—5月31日)、夏季(7月1日—8月20日)、秋季(9月22日—11月30日)三个阶段,分为初阶和进阶两类任务。初阶组参与“识典古籍”自动古籍文字识别(OCR)结果的文字校对,进阶组负责文字精校和标点校对等高阶任务。目前已有22所院校承办,参与者将获得实践证书、徽章、校书俑周边等奖励。
[1] A IA capacita a coleta e o uso eficiente de livros antigos
A atividade será realizada na plataforma de "Leitura de Livros Antigos". A plataforma combina as vantagens da tecnologia de IA da ByteDance, recursos de pesquisa e desenvolvimento de produtos e os recursos acadêmicos do Centro de Pesquisa em Humanidades Digitais da Universidade de Pequim, e possui funções de leitura, como recuperação de segmentação de palavras e assistente de IA, bem como funções de classificação de livros antigos, como reconhecimento automático de texto de livros antigos (OCR) e pontuação automática, que podem efetivamente melhorar a leitura, compreensão, pesquisa e eficiência de utilização de livros antigos. A plataforma está aberta ao público gratuitamente, e mais de 16000 recursos de livros antigos foram lançados, e centenas de milhões de pessoas leram e usaram livros antigos por meio da plataforma.
Nesta atividade, os participantes farão pleno uso da função de classificação de livros antigos de "Leitura de Livros Antigos" para revisar o texto e a pontuação gerados automaticamente pela inteligência artificial com base em imagens de livros antigos. Segundo relatos, os "Livros Antigos" podem marcar com cores o texto incerto no processo de reconhecimento automático, localizar rapidamente os locais de texto e imagem que podem ter problemas, nomear automaticamente nomes pessoais, nomes de lugares, títulos de livros, tempo, funcionários e outras entidades e apoiar a escrita de notas de agrupamento digital. De acordo com o feedback do uso real, a tecnologia de IA de "Leitura de Livros Antigos" pode melhorar a eficiência da classificação de livros antigos várias vezes.
Captura de tela da plataforma de agrupamento "Reading Ancient Books". Organizadores de fotos/eventos
"A tecnologia de IA não apenas digitalizará e reconhecerá o texto e as imagens em livros antigos, mas também usará grandes modelos para processar ainda mais o conteúdo, como adicionar sinais de pontuação e ser capaz de reconhecer nomes próprios no texto, o que torna a organização de livros antigos mais eficiente e padronizada." Wang Jun, diretor do Centro de Pesquisa em Humanidades Digitais da Universidade de Pequim, disse em entrevista ao Jiupai News.
[2] A IA ajuda na "colaboração hierárquica" da classificação de livros antigos
Além de melhorar a eficiência da digitalização de livros antigos, a bênção da tecnologia de IA também reduziu o limite para a participação na compilação de livros antigos, que pode ser participada por estudantes universitários comuns e até mesmo entusiastas sociais. De acordo com Wang Jun, a participação manual é dividida principalmente em três camadas: a primeira camada é a classificação pública. Quando a IA revisa o texto estereotipado, seu reconhecimento pode chegar a 98% de precisão. No entanto, para texto manuscrito, a precisão do reconhecimento pode ser um pouco menor. As palavras que a IA não tem certeza serão destacadas e uma intervenção humana é necessária para comparar as palavras originais na imagem para confirmar se o texto reconhecido pela IA é preciso.
A segunda camada é a revisão profissional, se o texto for uma variante e a palavra não estiver incluída na biblioteca de fontes, a IA também a marcará. A marcação e o processamento posteriores por profissionais garantem a precisão e integridade do texto.
A terceira camada é o especialista em livros antigos. Os livros antigos são abrangentes, não apenas documentos regionais, mas também livros antigos em dialetos, formatos especiais de escrita e diferentes dinastias e layouts.
Esta atividade fornecerá treinamento prático profissional e sistemático para os participantes e selecionará livros antigos que estão intimamente relacionados à vida moderna e ao sistema de disciplina moderno para classificação. À medida que a tarefa avança, os participantes também terão a oportunidade de entrar em contato e obter uma compreensão profunda de livros antigos com grande influência e valor cultural, como a Coleção Harvard-Yenching, Documentos Dunhuang, Yongle Canon, etc., e aprender sobre a cultura e a sabedoria contidas em livros antigos no processo de revisão.
"Eu sou um 'escrivão escolar' plano de classificação inteligente público de livros antigos" foi realizado para a segunda sessão, e o primeiro evento realizado em 1643 anos atraiu 0 estudantes universitários para se inscrever e classificar 0 livros antigos. Entre os participantes, a grande maioria deles eram estudantes de graduação, incluindo estudantes de língua e literatura chinesa, história e outros livros antigos. Com a bênção da tecnologia de IA, muitos estudantes de medicina e finanças e até mesmo membros da sociedade também se juntaram. A atividade atendeu às necessidades de estudantes universitários e entusiastas sociais para a leitura de livros antigos, reduziu o limiar para a classificação de livros antigos e promoveu a digitalização de livros antigos.
作为此次活动的主办方之一,字节跳动公益从2021年6月起就开始通过公益捐赠助力古籍修复,并持续投入技术、平台资源来开展古籍数字化与活化。2022年10月,由字节跳动公益联合北京大学数字人文研究中心共建的“识典古籍”平台上线,为整理和阅读古籍提供了便捷渠道。此外,字节跳动公益还通过“寻找古籍守护人”“识典杯·古籍内容创意季”等活动,推出《穿越时空的古籍》纪录片、《重回永乐大典》短剧等方式推动古籍活化,让古籍更好地走向大众。
Repórter do Jiupai News, Li Kai
Editado por Wang Jiaqing e Li Yang
Entre em contato com o repórter no WeChat: linghaojizhe