团结湖参考 文科生和理科生联手,干了一件关乎“文化香火”的大事

团结湖参考 文科生和理科生联手,干了一件关乎“文化香火”的大事

文章图片

团结湖参考 文科生和理科生联手,干了一件关乎“文化香火”的大事

文章图片




有时候 , 拿起一本经典我常忍不住感慨 , 这些文字是如何穿越两三千年的时空 , 来到我的书桌上的 。 这中间历经了多少天灾人祸 , 更重要的是今天的我们还能读懂它 , 并继续从中汲取力量 , 想一想这简直就是一个奇迹 。 这样的奇迹 , 背后是一代一代人 , 为接续民族文化香火 , 而付出的巨大牺牲 。
【团结湖参考|文科生和理科生联手,干了一件关乎“文化香火”的大事】古人说书有四劫:水火兵虫 。 近代以来中国处于“三千年未有之大变局” , 众多古籍又面临流散海外的新问题 。 据不完全估计 , 散居海外的中国古籍超过40万部、400万册 , 包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等 。 5月18日 , 在“汉典重光”海外古籍数字化回归发布会上 , 一批珍藏于加州大学伯克利分校的中文古籍善本 , 终于以数字化方式回归故土 。
首批数字化的古籍共20万页 , 包含40余种珍贵宋元善本 。 这些善本中光宋版书就好几套 , 如宋刻本《後村居士集》、北宋《金粟山大藏经》写本、苏轼文集的残页 , 此外还有清文澜阁四库全书本《宋百家诗存四十卷》、清末第一批近代思想家王韬的稿本《瀛壖杂志》等 。 懂得版本学的人 , 不难理解这些书有多么珍贵 , 尤其是王韬稿本是通过这次整理才首次发现其存世的 。

古籍回归 , 殊非易事 。 2019年 , 阿里巴巴和四川大学提出“数字化回归”设想 , 四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥 , 沟通北美、欧洲、日韩等地藏书机构 , 最后获得加州大学伯克利分校支持 , 达成共识 , 将伯克利东亚图书馆的中文古籍善本逐步数字化 。
古籍善本数字化回归 , 这是什么意思呢?就是由伯克利提供古籍的扫描图片和编目数据 , 阿里巴巴达摩院将其全部文字化 。 阿里巴巴达摩院院长张建锋表示 , 阿里计划将这套技术工具连同古籍数字化平台一并捐赠 , 交由权威公共机构长期运营 , 最终将成为一个开放的网络平台 , 供大众检索学习 。
研究人文学科的人可能知道 , 我们的古籍有一些已经有影印本或扫描图片 , 在一些网络平台上也能看到其真容 。 但问题是这些图片只能阅读浏览 , 却无法以数字化的方式搜索识别 。 古籍数字化后 , 能减少研究者对真本的翻阅损坏 , 还会给学术研究插上翅膀 。 比如台湾有学者利用大数据研究《红楼梦》 , 通过对全书字频词频、语言习惯的分析 , 认为后四十回大部分都是曹雪芹本人写的 。 书中一些历来被认为是杜撰的药方 , 其实在古医书中都有原型 。 古籍数字化能力提高后 , 学术研究可能会带给我们更多的惊喜 。
但这件事有多难呢?首先难在古籍卷帙浩繁 , 如果靠人工录入 , 仅一部《四库全书》就要耗尽许多人一生之力 。 很多人都会想到AI识别 , 但是中国古籍有大量的异体字、生僻字 , 绝大部分不仅没被现代字库收录 , 也几乎找不到样本供AI学习 , 这成了古籍数字化领域的技术瓶颈 。
达摩院技术团队与四川大学专家“文理联合” , 研发了一套全新的古籍识别系统 , 利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法 , 构造了一套边识别古籍、边训练模型的系统 , 以97.5%的准确率完成对20万页古籍的整体识别 。 这一系统现能批量识别百本古籍 , 并沉淀覆盖3万多字的古籍字典 。 比起专家录入 , 这套人机交互的识别系统将效率提升了近30倍 。

这件事的意义不仅在于实现海外古籍的数字化回归 , 这套识别系统其实更像是一种“基础设施” , 将来系统更加成熟之后 , 国内外浩如烟海的古籍都有了数字化的可能性 。 比如将来在平台上输入“达摩” , 古籍中所有关于达摩的记述都会被检索出来 , 古人皓首穷经一辈子都做不到的事 , 每一个普通人将都能做到 。 而那时候书写在古籍里的文字 , 也许就真的活起来了 。
文明的传承 , 要有背诵出《尚书》的伏生、守护天一阁的范氏家族所具有的那种精神力量 , 也要靠文化载体的不断演进 。 我们的文明从刻在甲骨上 , 到铸在青铜器上 , 到镌刻在竹简、碑石上 , 再到书写在纸张上 , 总是跟随时代的发展不断进步 , 从不固步自封 。 如今时代走到了数字化的今天 , 如何使我们的古老文明再一次拥抱新的载体 , 是我们这一代人的责任 。

推荐阅读