作者:李白
汇集经、史、高德娱乐子、集等2200余部古籍,“识典古籍”平台助力“中华文化”活起来
我国现存古籍约有20万种,修复整理现存的全部古籍,可能需要300余年。如今,借助借助科技创新,经典古籍在互联网时代找到了一种全新的“打开”方式。自2022年10月上线以来,“识典古籍”平台已陆续汇集经、史、子、集等2200余部古籍,免费面向公众开放。该平台由北京大学与抖音合作共建,致力于为用户提供免费、公开、稳定、快速、方便的检索和阅读古籍服务。
《永乐大典》是我国古代规模最大的类书,汇集先秦至明初各类典籍,被誉为“世界有史以来最大的百科全书”。但几经散佚,副本存世不及原书的4%。对学者而言,《永乐大典》是进行学术研究的重要资料;对普通读者来说,古籍文本往往艰涩难懂,且接触机会不多。
如今,《永乐大典》高清影像数据库(第一辑)在古籍数字化平台“识典古籍”正式上线,免费面向公众开放。据悉,该项目由国家图书馆、北京大学和字节跳动公司合作推出,是“国家古籍数字化工程”优秀项目之一。借助现代数字技术,厚重典籍浓缩在方寸之间,尘封已久的历史画卷徐徐展开,成为触手可及的文化资源。
“初见”“流光”“惊鸿”“珠联”“缀玉”点击网页上的标签高德娱乐,《永乐大典》的前世今生、高德娱乐编纂方法、历史价值等信息,伴随着动画音效,呈现于眼前。
点击页面右上角“阅读大典”,进入文本阅读平台。《永乐大典》原本影像与数字化文本相互对照,繁简体文字随时切换。遇生僻词句,可选中文本,点击“查看引用”,出处清晰可考。
“互动化、可视化的呈现方式更加符合当代人的阅读习惯,沉浸式阅读体验拉近了古籍与普通读者之间的距离。”“识典古籍”平台项目负责人之一、北京大学信息管理系助理教授位通说。
除《永乐大典》外,“识典古籍”平台还陆续汇集了经、史、子、集等2200余部古籍,面向海内外读者免费开放。“识典古籍”平台项目负责人、北京大学数字人文研究中心主任王军希望,“识典古籍”平台能推动散落海外的中华古籍回流,促成古籍的开放共享。
据平台设计者、北京大学人工智能研究院副研究员杨浩介绍,为了实现古籍从纸页“搬”到网页这一过程,技术上主要使用了文字识别、自动标点和命名实体识别等人工智能技术。此外,在机器自动识别后,会有专人复查结果,进一步提升准确率。
据悉,经过这一系列技术+人工的双重操作后,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。
集纳展示古籍数字版本,不是“识典古籍”平台的全部。未来,平台希望能吸引各行各业的古籍爱好者、研究者,高德娱乐以众包校对、协同审核等形式,推进古籍整理项目和数据库建设,打造“古籍图像上传文本校对整理高质量标记文本输出”的全流程系统。