北京工作服

“汉典重光”首批实现海外20万页中文古籍“数字化回归

发布日期:2021-05-19 19:31   来源:未知   阅读:

  中新网北京5月18日电 (记者 孙自法)中国海外古籍“数字化回归”项目“汉典重光”平台18日下战书在北京中国科技馆正式宣布,通过进步的人工智能(AI)技巧,一批收藏于美国加州大学伯克利分校的中文古籍善本,以数字化方法回归故乡,落地“汉典重光”古籍平台。

  “汉典重光”平台称,首批20万页古籍已实现数字化,并积淀为笼罩3万多字的古籍字典,大众可通过该平台翻阅、检索古籍,阿里巴巴达摩院AI对20万页古籍的识别精确率到达97.5%。

  “汉典重光”名目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国度藏书楼、浙江图书馆配合发展,旨在寻找流散海外的中国古籍并将其数字化、公共化,让一般人也能亲热古籍,通过古籍与先贤对话,与优良传统文明对话。

  2019年,阿里巴巴和四川大学提出“数字化回归”假想,取得美国汉学研讨重镇、中文藏书量排名全美第三的加州大学伯克利分校支撑并达成共鸣,将伯克利东亚图书馆的中文古籍善本逐渐数字化。

  本次首批数字化的20万页古籍中,包括40余种可贵宋元刻本、写本;明清至民国时代有名学者钱谦益、翁方纲、王韬的抄本、稿本;著名图书馆嘉业堂、密韵楼的抄本,还有清文澜阁《四库全书》零本等。

  为将伯克利供给古籍的扫描图片和编目数据全体文字化,阿里达摩院技术团队与四川大学专家联手研发出一套全新的古籍识别系统,以97.5%的准确率完成对20万页古籍的整体识别。目前,该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。

  比起专家录入,这套人机交互的识别体系将效率提升近30倍。跟着古籍辨认范围的扩增,机器还会自我进化,一直晋升正确率和效力。阿里巴巴达摩院院长张建锋表现,阿里打算将这套技术工具连同古籍数字化平台一并捐献,交由威望公共机构长期经营,同时,阿里仍将在古籍数字化工作上连续投入人力物力。

  据懂得,因邦交、商业、战乱等,历史上中国古籍时有出海,近代以来,战斗跟动荡更加剧了古籍的损毁和流散。据不完整估量,散居海外的中国古籍超过40万部、400万册,包含甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本地图、少数民族文献等。(完) 【编纂:田博群】