• 登录
  • 注册
  • 退出
  • 高德娱乐数字时间的古籍重生·全文

    作者:李白

      如何高效又全面地保存并整理知识与信息,是人类自文明诞生以来就在不断探索与突破的主题。尤其是20世纪以来的信息爆炸,知识呈指数级地增长,让人不禁想象那些层出不穷新书与沉睡于博物馆中的抄本与刻本等古籍在未来的命运。发表于1999年的科幻小说《天渊》中曾描绘一种先进的可调控扫描设备“步行机”,能够对不同形态的传统文献进行高速度与高精度的扫描,只需有人不断将书送到机器腹中即可。

      而这番畅想在20多年后的今天并不算天马行空。在步入数字时代的今天,体积庞大的物质形态书籍不仅能被“压缩”到方寸大小的屏幕中,那些幸存至今的古籍也能够走下尘封的书架,进入大众视野。

      2023年2月8日,由国家图书馆出版社申请立项、北京大学数字人文研究中心联合字节跳动共同设计研发的“《永乐大典》高清影像数据库(第一辑)”正式发布。国家图书馆馆藏的40册《永乐大典》首次在线部书。只需登录古籍数字化平台“识典古籍”,明清士人都难得亲眼一观的这部曾被誉为“世界最大的百科全书”,如今任何人都能在家中免费浏览,可谓羡煞古人。而从纸上到屏上,《永乐大典》阅读载体的转变不只是简单的影像扫描与数字搬运,仰仗于不断成熟的人工智能科技与颇具匠心的设计理念,古籍得以焕发新生。

      不少人可能会好奇翻开《永乐大典》,像古人一般从中检索文献、辑佚史料会是什么样的体验?这也是《永乐大典》高清影像数据库的研发团队在设计之初就考虑的问题。

      近年来,随着文字识别、自然语言处理等人工智能科技的飞速发展,国内外不少高校、图书馆、档案馆都建立起颇为优质的古籍文献数据库。尽管不少数据库的文献数字化有着很高的品质,但整体上的展现形式多是以古籍文献的影印图像和文字识别后生成的文本为主。侧重点往往是在文献内容上,而对古籍作为纸质文物本身的人文历史价值关注较少。而这也恰恰是《永乐大典》不同于一般古籍文献的特别之处。作为中国古代最大的类书,《永乐大典》实质是本理应被拿去时常检索辑阅的工具书,却一直深藏内府而难以得见。而从文化赓续的角度看,大典作为典籍渊薮,保存着先秦至明初各类典籍七八千种,有其独有的文化象征意义。再加上明清两代诸多卷册颠沛流离的散佚经历,仅仅是文本展现,恐怕难以涵盖古籍自身的复杂身世。

      正是基于这一点,数据库的研发团队选择用一种类似沉浸式体验展的形式,用多种形式展现《永乐大典》的与众不同。例如一进数据库的“初见”模块中,团队便以大典“斋”字册第2535卷的一部分建立3D模型,让浏览者只需动动鼠标便可轻松地360度旋转典册以了解其外观,还能打开大典一页页翻阅浏览。研发团队不仅要在3D模型构建时追踪每页纸翻动的曲线变化,还根据人眼翻阅书籍时目光的集中,用虚拟光源模拟追踪重点内容的光源移动,力求在屏幕上的阅读也能贴近真实翻阅的观感。而整体网站的设计元素如配色、字体等也多从《永乐大典》原本中提取,力求与大典本身的“气质”相符。

      此外,不少互动式的设计,能让读者更深入地理解《永乐大典》的编纂方式。如在“珠联”模块中,读者可以根据网站指引体验在如何按韵部、韵字检索信息。而在“缀玉”模块中,还能按关键字检索数据库所录大典中所辑出的文献有哪些,部分文献还可直接链接出具体词条,进而跳转到相关文献页面。这种轻巧明晰的检索路径设计,正是得益于研发团队在设计之初对文献研究与历史爱好者使用需求的前期调研。让数字化的《永乐大典》不仅中看,也中用。例如在阅读大典的模式下,页面会同时显示原本影像与识别后的可供拷贝的文本。全部文本不仅可以进行简繁转换,还在文内用不同颜色展现注疏与正文的区别。读者既可以用现代人习惯的方式畅读古籍,又能感受其原貌。选中文本的具体词条,不仅能定位原图位置,还能查看引用与释义,便捷实用。

      将《永乐大典》所蕴涵的历史文化知识关联起来,用生动的视觉图像构建一幅系统的知识图谱,也是该数据库的亮眼之处。在“流光”模块中,读者可以随着时间轴纵向了解《永乐大典》自编撰到流散回归的历史历程。而在“初见”模块中展现《永乐大典》卷册总数与现存册数的对比,当大部分卷册随风消散后留下仅存卷册的视觉冲击令人印象深刻。在“遗编”模块中,研发团队则用可转动的地球模型展现现存大典在世界各地的分布情况,直观地模拟出具体卷册流转递藏的路线变化,让从文献中读到的大典散佚史也变得鲜活起来。

      从古籍原貌,到内页体例装帧,从典籍检索到古籍流散,有关《永乐大典》的信息通过简洁典雅的设计整合到一起,构建起一幅脉络清晰又不失细节的知识网络,既是对原典的数字化再现,也是面向公众的再创作与诠释。这些丰富又流畅的使用感受,更离不开科技的背后支持。

      作为世界上最早诞生书籍的国家之一,中国保存有种类丰富又数量庞巨的古籍文献。这些文字的载体众多,金石竹简之外,要数纸质古籍文献的保存最为不易。一如《永乐大典》自编修以来经历的种种曲折磨难,战乱、灾害甚至保存不当,都会让这些珍本难逃湮灭于历史的厄运高德娱乐,更别提频繁的翻印扫描对此可能造成的损伤。因此,保护古籍之余,运用计算机技术将语言文字或图形符号转化为能被计算机识别的数字符号,并建立古籍文献数据库以便大众检索查阅,能最大限度地利用、挖掘这些脆弱珍本中所记载的文献,正是古籍数字化的用武之地。

      据介绍,OCR识别(英文:Optical Character Recognition,光学字符识别)是《永乐大典》等古籍数字化整理最基础也是最重要的技术应用之一。该技术通过对古籍文本的影印图像进行分析识别,可以对图像中文本的每个字分别识别并依据文字内容与原文献排版获取阅读顺序,并最终将其转化为可供编辑的文档。

      尽管OCR技术在今天已发展比较成熟,但对中文古籍的识别仍然有其特殊的难点。首先古文的断句习惯以及语义理解与现代文有很大不同,其次古文中还涉及大量如官职、古地名、人名、机构制度等专有名词,更别提还有大量生僻字、异体字以及随着时代字形变化的字体。而目前业内大多基于现代文的OCR模型很难满足古文识别的需求。因此,字节跳动的研发团队需要用大量的古文数据训练专用于古籍数字化的古文语义理解模型,也就是说要让AI先读懂古籍。经过一段时间的学习训练后,目前研发团队所使用的OCR模型识别“准确率目已经达到95%以上,在行业内领先”。

      此外,前文提到数据库中《永乐大典》在阅读模式下有注疏与正文的区别,而大典的边侧目录层级也从卷目能够细化到具体事目,并可以通过链接定位到相关页面,正文页面一些地名、书名、人名也有相应的标注。这些看似简单的细节,实则都依赖于古籍结构整理环节对如卷、篇、章、作者、实体等特殊段落与字符的特色打标。这也正是包括《永乐大典》在内“识典古籍”平台古籍整理数字化的一大特色。为此,研发团队借用字节跳动已十分成熟的飞书编辑器框架专门开发了一套古籍文本编辑器,以实现针对古籍特殊段落层级的结构整理。

      尽管从文字“规范”程度来看,采用馆阁体的《永乐大典》不难识别。但基于其资料的丰富性,原典中仍然会出现不少现代字体库无法加载出来的文字以及图形。例如“门”字册第3518卷中,提及“门”之一字时,原文列举了颜真卿、黄庭坚、米芾、苏轼等书家对“门”字或楷体或草书的不同写法。此外,后页文本中还附有大量描绘不同门框样式的插图。这些都需要在结构整理阶段特殊处理,例如不同书法就用字图形式展现,这些阅读展示特色细节的实现都要求后台编辑器在结构整理环节具备相应的处理能力。此外,《永乐大典》数字化文本展示的古文句读,也几乎都保持了原典的句读而未在添补,以求展现大典的原始面貌。

      而从文本识别到结构整理,针对古籍的数字化过程实则也是一次再修订与整理。从整理工具的自动化与便捷,到内容呈现的可视化,再到知识关联的全面构建,正是智能时代古籍整理数字化的应有之义。

      2021年11月,国家图书馆委托国家图书馆出版社进行《永乐大典》高清数据库项目的制作,该项目得到了全国古籍整理出版规划小组的支持,并入选2021年国家古籍数字化工程首批立项项目。12月,北京大学数字人文研究中心受委托承担该项目的设计与研发工作,中心以“北京大学-字节跳动数字人文开放实验室”为基地,整合北大的学术力量与字节跳动的科技实力组成联合设计与研发团队,用不到一年的时间建成该《永乐大典》高清影像数据库(第一辑),顺利结项并作为优秀项目汇报。

      效率与质量并举的成功,正是基于团队的协作以及投身于古籍保护与传承的人们不懈的热忱。

      即便OCR模型在对古籍识别的准确率上已有显著提到,但是为了保证数字化文本的准确性,弥补人工智能识别错误的短板,仍然需要投入大量人力去完成古籍整理中最为繁琐、细碎的审校工作。不仅北大等高校学者与文献专家投身于此,上百位爱好古籍的志愿者也积极参与其中,负责对技术处理后的文本进行基本的文字、标点校对。

      所谓“工欲善其事必先利其器“,字节跳动也依托内部的技术中台,调用公司已十分成熟的智能技术、火山引擎、百科、抖音、西瓜视频等等,让志愿者们通过简单的培训即可上手编校估计。尤其是其基于飞书编辑器框架、根据古籍数字化需求打造的内容编辑器,一站覆盖文字识别、校对、校勘、审订、译文等诸多流程。而且为了能让来自公司高校内外的多团队都能便捷登录与操作,该系统还支持任务管理,不同的团队彼此协作也互不影响,还能及时跟进校对进度。

      正如“识典古籍”的相关负责人所表示,“我们做这个平台也希望能起到一个模范带头作用,把热爱估计的人聚集到一起,让古籍公益事业的人气能够上涨。”除了《永乐大典》以外,“识典古籍”作为免费开放的数字化平台,目前已免费公开1600余种古籍,不仅在Web端可以研究检索,还相应地做了移动端适配,在今日头条的“古籍”频道与抖音小程序上都可查阅,以满足多样化的大众阅读需求。而古籍整理平台以及相关智能技术未来也有望向更多的收藏机构甚至个人开放,营造良好的古籍数字化环境。

      此外,2021年6月,字节跳动还与中国文物保护基金会成立了古籍保护专项基金,用于国家图书馆等机构的古籍修复与人才培养,其中就包含了《永乐大典》“湖”字册的整理与修复。从古籍数字化到设立基金保护修复古籍,由图书馆、高校与科技企业合作完成的《永乐大典》数字化项目,为日后其他重点古籍的数字人文建设提供了合作样板。而《永乐大典》高清影像数据库(第一辑)所展现的知识体系化、使用智能化也是未来图书古籍数字化可借鉴的重要模式。而颠沛流离了六百多年的《永乐大典》也有了永恒的归宿。(王静)

      2024年1月12日,江西省吉安市吉州区庐陵文化生态园层林尽染,色彩斑斓,市民徜徉其间,尽享生态之乐。

      2023年12月26日,在云南省红河哈尼族彝族自治州元阳县新街镇黄草岭村附近,游客在冬樱花与梯田边游览。

      2023年12月12日,新疆哈密市巴里坤县第十九届冰雪文化旅游节采冰仪式在高家湖二渠水库进行。仪式主要展示了头冰的开采上岸过程。开幕式上还举行迎风旗、祈福词、喝出征酒等仪式。

      2023年12月13日,河北省正定古城迎来降雪,古城内外银装素裹,犹如一幅淡雅的水墨画,美如画卷。

      2023年11月28日,贵州省六盘水市明湖国家湿地公园层林尽染,景色迷人。

    高德娱乐数字时间的古籍重生

      三角梅原产于巴西,现主要分布在中国、秘鲁、阿根廷、日本、赞比亚等国家和地区。其中,以海南三角梅最为出名。

      2023年11月23日清晨,朝霞初现,三峡库区湖北省宜昌市秭归县沿江公路G348国道的绝壁岩体上,工人们正在铺设防护网,以防止岩崩和落石。

      2023年11月23日,黑龙江哈尔滨,哈尔滨站工作人员正在清理站台积雪。

      2023年11月21日,甘肃敦煌,首趟敦煌号铁海联运国际货运班列装载1000吨石棉驶出,经天津港通过铁海联运发往泰国曼谷。

      2023年11月21日,江苏省如皋市龙游河生态公园,色彩斑斓的树木与一河碧水相应成趣。

      江西省赣州市定南县历市镇,一座座风力发电机矗立在延绵群山上,与蓝天白云、绿树青山相辉映,极目远望、蔚为壮观。

      2023年11月13日,国内首座港口商品车智能立体车库在山东港口烟台港建成并投入试运行。该车库占地13000平方米,可容纳商品车3000余辆,较平面堆存能力提升3倍以上,可完成智能理货、智能调度、智能转运。

      日前,姚庄镇沉香村生态农场近千亩橘子园已硕果累累。近年来,当地依托自然优势,以柑橘产业、乡村景观资源、亲子旅游市场为基础,与横向的艺术产业、旅游产业相融合,在农民增收、乡风涵养等方面均取得了显著成效,探索出了一条具有本土特色的共富新路径。

      2023年11月7日,江西省高安市一家机械有限公司员工在生产车间赶制工业接头等产品。该公司2022年被工信部列为第三批专精特新重点小巨人企业,其研发的新型无滴漏干式软管接头组件填补了国内空白,达到国际先进水平。

      2023年11月7日,在云南昆明滇池(海洪湿地)湖畔,大批红嘴鸥已抵达昆明,给春城昆明增添了一道靓丽美景。

      2023年11月6日,浙江省金华市,工作人员对光伏设备进行巡视维护。近日,金华传化公路港第二期容量为2.91MW(兆瓦)的屋顶光伏成功并网,标志着企业“光伏+储能”这一新型小循环能源体系的建立,为企业的电力降本增效提供良好条件。

      2023年11月6日,在甘肃省张掖国家湿地公园湖水中,成群的天鹅、斑头雁等候鸟在这里休憩觅食。高德娱乐高德娱乐

    Copyright © 2012-2023 高德娱乐·(中国)官方网站-IOS版/安卓版/手机版APP下载 版权所有 | 高德娱乐 | 名句 | 作者 | 古籍 |
    网站地图