破茧成蝶

发布时间:2019-01-19 23:00:30

破茧成蝶:古籍数字化的窘境与生机——第三届中国古籍数字化国际学术研讨会侧记

作者:林晓山 毛建军       来源:光明日报       时间: 2011-11-07

   破茧成蝶:古籍数字化的窘境与生机

   ——第三届中国古籍数字化国际学术研讨会侧记

   光明日报 》林晓山

    编者按:党的十七届六中全会作

出的《推动社会主义文化大发展大繁荣若干重大问题的决定》把推进文化典籍资源数字化,看做是建设优秀传统文化传承体系的重要手段。推进古籍数字化的研究与开发,对于加强优秀传统文化思想价值的挖掘和阐发,建设中华民族共有精神家园具有重要的战略意义。本期刊出的两篇古籍数字化文章,从不同角度展示了我国古籍数字化取得的成就,同时也分析了存在的问题、困难。我们期待广大读者给予古籍数字化工作以更多的关注。

    数字化是一场巨大的革命,正深刻影响着我们的生活,每个领域几乎都被卷入其中,即便是甘守寂寞的古籍,也概莫能外。20世纪70年代末古籍数字化最早开始于的美国;80年代,港台地区探路于前;90年代,中国继踵于后。进入21世纪,古籍数字化已呈星火燎原之势,发展之迅猛超乎意料。

    然而近两年,古籍数字化的步伐却有所放缓,呈现瓶颈效应,又仿佛一只即将破茧的蝴蝶,在静静积蓄力量。

    金秋时节,50余家学术及出版机构的60余名专家学者,从海内外各个角落齐聚北京,第三届中国古籍数字化国际学术研讨会如约举行。古籍数字化突破瓶颈,期待同业者的集思广益群策群力;会上,新观点、新思想的碰撞,新技术、新成果的涌现,无不呼应着古籍数字化前进的步伐。

   

    人人都羡慕阳光下蝴蝶的美丽,又有谁知道黑暗中蜕变的痛苦滋味。

    (一)标准之争——标准缺乏,各自成理

    会议伊始,原国家古籍整理出版规划小组办公室主任许逸民便把一个大家最关切的问题提了出来——汉字简繁转换问题。如何处理转换过程中的异体字,是所有古籍整理者都望而生畏的难关,因为这不仅牵涉到全文检索,更会引发学术争议。繁体字正字表至今尚无国家标准,致使同一字在古籍出版物和数据库中出现不同字形,如,孰正孰异,莫衷一是,天下扰攘,乱相遂生。

    当前最迫切需要的便是建立古籍数字化的国家标准,奈何主管部门碍于诸般顾虑,始终未能着手制定。首都师范大学中国诗歌研究中心主任赵敏俐感慨:古籍数字化的发展过程中,民间的积极性非常高,不断有学者呼吁建立国家标准;或退而求其次,先由民间建立通用标准,再得到国家认定也可。但如果这套民间标准真的推出,国家是否会予以认定,他对此深表怀疑。

    首都师范大学周文业研究员形容当前中国大陆的古籍数字化现状为春秋战国,群雄割据。上世纪90年代古籍数字化在中国刚兴起之际,政府未能及时介入,徒然错失先机,如今争霸局面已成,再想统一,为时晚矣!

    尽管如此,大多数学者还是希望古籍数字化能有一套起码的标准通行。会议主办方、首都师范大学电子文献研究所所长尹小林提出了建设古籍数据库的八条标准:其一,有确定的底本和书目提要;其二,文字差错率小于万分之一;其三,有简繁体两种文字,并实现相互对应;其四,应带有新式标点;其五,含高清版的底本图像(可实现8倍缩放);其六,提供智能化的全文检索(Unicode内核);其七,具有智能数据分析统计工具;其八,可实现多种数据格式的转换和输出。这八条标准都是在古籍数字化工作过程中逐渐总结形成的,具有很强的专业性和实用性,因而获得了与会专家们的一致认可。

    与建立标准息息相关的还有资源整合问题,河南新乡学院文学院副教授毛建军认为,资源整合是一项庞大而长期的工程,非朝夕之间能够完成,建立古籍数字化资源导航库将不失为一种方便快捷、切实可行的整合方式,并建议从数据库类型、建置单位和数据库主题三种途径进行导航设计。

    标准如纲,导航如网,纲振网举,方可尽揽群籍。

    (二)版权之争——天下公器,安能独私

    由于古籍真正的作者皆已作古,无法穿越时空来捍卫自己的原创地位,因此古籍早已作为文化遗产被纳入了公共知识的范畴。所谓古籍的版权,实际是针对整理者而言的。

    如今常见的古籍绝大多数都已被点校出版,版权握于传统出版社之手。为了避免纠纷,数字出版者们只好舍近求远,返择古本为底本,重起整理之炉灶,可还是难免抄袭嫌疑。

    古籍整理犹如积薪,后来居上,一代又一代学者无不是站在前人的肩上,向着理想中的最佳版本一步又一步迈近。前人遇到的坎,后人学会跨过。前人走错的路,后人不必再走。如果因为整理在先,传统出版便将大批古籍资源垄断在手;如果因为点校相似,数字出版便被想当然地认定有侵权之嫌;那么古籍的命运就当真堪忧了。

    中华书局编审刘尚慈不无遗憾地说:真正的最佳版本存在于当下,就是那些经过专家标点校勘过的本子。我们的古籍最应该数字化这些本子,可惜却受到版权限制,没有办法进行。而真正拥有版权的出版社,却又没有能力进行。

    高校古委会秘书处副秘书长卢伟希望在互联网上建立一个开放的资源平台,怎么能够在共享和利益之间找到平衡,让大多数的学者都愿意把自己的成果投入进来,是这个平台建立的关键。

   

    一只蝴蝶扇动翅膀,不久的将来会在遥远的彼岸掀起一场飓风。

    古籍数字化发展至今,坐拥海量古籍资源,除了全文检索、联机字典、图文对照、繁简转换之外,数字化究竟还能做些什么?

    本届会议为这个问题带来了几种可能的答案。

    (一)版本比对与辅助标点——人力有尽,天道无穷

    人类智慧无敌,机器效率无敌,人机合一,所向披靡。这正是古籍数字化孜孜以求的理想境界,虽然目前尚无法达到,却依然不乏希望。会上首都师范大学电子文献研究所演示的古籍智能版本比对和辅助标点系统,便让人眼前一亮。

    所谓智能版本比对,指能自动进行多种版本的逐字比对,完成后即可标示出文字和符号的任何差异。所谓智能辅助标点,则使用了前沿的人工智能算法和多种资源库,理想状态下自动标点准确率在99.5%以上,机器无法完全识别的情形下会自动提示专家进行人工干预。单凭肉眼,很难分辨文字上的一些细微差异。尹小林说,等,即使底本就在眼前,只怕也会误认,但对于电脑而言,却是完全不同的两个编码,识别起来绝无含糊。其实,比对的目的还是为了查错,在这方面,电脑的优势远非人眼所能比拟。

    新闻出版总署规定图书出版质量标准为差错率不得超过万分之一。换作从前,这个标准很难得到彻底执行,但现在却是轻而易举。电子文献研究所曾用智能版本比对系统抽查了部分古籍图书,发现即便是权威出版社出版的权威版本,也有不合格者,更遑论其他普通版本。这一比对方法若能在今后的古籍校勘中加以效仿,相信定会从整体上提升古籍的出版质量。

    除了自动校勘,自动标点同样是古籍整理工作者梦寐以求之事。而智能辅助标点系统的出现,让这个梦想变得唾手可得,尽管还不完美,却足以令人惊喜。借助该系统,不仅免除了许多无谓的重复劳动,还可以把节省下来的时间投入到更重要的研究中去,这无异于延长了学者的生命。为此,电子文献研究所于年初启动了文渊阁四库全书版《二十四史》的整理工程,权作试点,若然可行,便推而广之。他们的雄心壮志,是要最终完成文渊阁四库全书的标点出版。此愿如能实现,诚乃中华文明之莫大幸事!我们将拭目以待。

    (二)GIS技术与文学地图——他山之石,可以攻玉

    GIS即地理信息系统,如今广泛应用于交通导航、城市规划、资源调查、环境评估、灾害预测、国土管理等几乎各个领域。本质上,GIS也是一个数据库,只不过储存的是地理信息而已。因此,GIS对于古籍数字化必然有许多值得借鉴之处。

    受此启发,武汉大学文学院教授王兆鹏在会上提出了一个大胆的构想——利用GIS技术整合静态分散的文学史料,建立多功能的中国文学数字化地图平台。该平台将具有资料查询、数据统计、地图生成等功能,既可以查询中国古今文学家生平和作品中的重要信息,也可以进行分类统计,还可以用电子地图来呈现统计结果。地图可以显示每个时间点和时间段,中国各个地方有哪些作家在此地出生、在此地过世、在此地活动和创作;更可以显示一个作家生于何地(或所属籍贯)、在哪些地方活动过,在哪些地方创作了哪些作品、跟哪些人一起交游互动并能按时间先后顺序自动生成作家行踪路线图。

    这个构想是相当宏大和富有创意的,其核心框架还可以灵活套用在诸如历史、哲学、宗教等其他学科领域,就好像民间故事中的母题,拥有被无限复制的潜力。平台建成后,可以从时间和空间两个维度上提供多种观察文学的切口和视点,将很可能带来文学研究范式的革命性变化。虽然目前这个构想还只停留在理论阶段,并未付诸实施,但其远大前景是完全可以预期的。

 

    古籍数字化:海外古籍回归的新机遇

    光明日报 》毛建军

    “史在他邦,文归海外,这是郑振铎先生面对中华古籍流失海外时的慨叹。近一个世纪以来,我国政府、民间机构以及爱国志士一直在不懈努力,采取多种途径促使流散海外的中华古籍回归祖国。

    海外中华古籍的回归主要有原生性回归和再生性回归两种渠道。

    原生性回归,是指对流失他国的中华古籍依据有关国际公约合法追索、通过拍卖市场抢救回购、制定政策鼓励捐赠回流、馆际间合作与文献互换等手段,将古籍文献的原生实物进行回归的形式。如1997年上海市政府斥资450万美元从美国抢救回购了翁同龢的全部藏书。但专家们也指出,原生性回归的难度极大。尽管中国是国际统一私法协会《关于被盗或非法出口文物的公约》和联合国教科文组织《关于禁止和防止非法进出口文化财产和非法转让其所有权的方法的公约》的缔约国之一,但限于目前的国际环境以及多年海外中华古籍原生性回归的司法实践,海外中华古籍原生性回归工作一直收效甚微。

    再生性回归,是指在原文献实物回归没有可能的情况下,对他国所藏中华古籍采取复制、缩微、影印等形式回归的策略,也是目前海外中华古籍回归采用最多的办法。2002年人民卫生出版社出版的《海外回归中医古籍善本丛书》,2003年商务印书馆等出版的《哈佛燕京图书馆藏中文善本汇刊》等重要古籍的回归都是采用复制件方式的。但就其回归效率和利用效果而言,仍不能如意。

    随着数字技术和互联网技术的快速发展,古籍数字化遂成为海外中华古籍回归的全新模式。中华古籍数字化回归的主要内容是联合目录建置和文献资源共建共享开发。中华古籍数字化回归的开发模式主要表现于国际合作典藏机构之间的共建共享。国际合作是中华古籍数字化回归的重要形式。国际合作开发中文古籍数字化资源可以实现技术、资金及资源的优势互补。中文古籍数字化的国际合作共建共享开始于上世纪末,其中以国际敦煌项目The International Dunhuang Project,简称IDP)和中美百万册书数字图书馆计划China-US Million Book Digital Library Project)最见成效。最近几年,随着我国古籍保护工作的全面深入开展,中华古籍数字化回归的国际合作步伐加快,以数字化回归的海外古籍项目陆续展开,取得了丰硕成果。

    中华古籍善本国际联合书目系统:由美国研究图书馆组织 (Research Libraries Group or RLG)建立的中文善本书国际联合目录项目发展而来。中文善本书国际联合目录数据库著录了北美图书馆的几乎全部藏书以及中国图书馆的部分藏书,数据达到2万多条。近几年来,中文善本书国际联合目录项目已将其著录中约75%的书影进行了数字化扫描。2009年该项目中心由美国普林斯顿转移至中国国家图书馆,并以原数据库为基础建立了中华古籍善本国际联合书目系统,由中国国家图书馆进行管理与维护。2010年系统正式开通,首批公布普林斯顿大学东亚图书馆约2000条中文古籍善本数据。

    东京大学东洋文化研究所汉籍影像数据库:上世纪90年代,东京大学东洋文化研究所开始建立古籍目录数据库。2002年开始建立古籍全文影像数据库。200911月中国国家图书馆与东京大学东洋文化研究所签署合作意向书。东洋文化研究所将所藏4000余种汉籍,以数字化方式无偿提供给中国国家图书馆,由中国国家图书馆负责数据维护和发布。这批数据包括收藏在东洋文化研究所和一些专藏文库中的珍贵宋、元、明、清善本,具有重要的史料文献价值。目前,读者可在数据库中按照题名、责任者、内容分类、出版项和模糊检索。

    哈佛燕京图书馆藏中文善本特藏资源库:哈佛燕京图书馆藏中文善本古籍特藏,以其质量高、数量丰著称于世。200910月由中国国家图书馆与哈佛燕京图书达成协议,决定共同开发哈佛燕京图书馆藏中文善本古籍。项目拟对哈佛燕京图书馆所藏4210种中文善本和齐如山专藏进行数字化。中国国家图书馆负责提供资金、技术支持和数据质量控制,哈佛燕京图书馆承担中文善本古籍数字化、元数据制作和数据传递工作。201098哈佛燕京图书馆藏中文善本特藏资源库网站在中国国家图书馆正式发布运行。

    此外,随着我国海外古籍回归工程的启动,海外古籍数字化回归的工作力度也逐渐加大。2011年又有多项海外古籍回归国际合作项目启动。如中国国家图书馆与华盛顿大学东亚图书馆达成的古籍数字化合作计划协议预计将华盛顿大学东亚图书馆珍贵中文古籍数字化供中国国家图书馆免费发布。

    海外古籍数字化回归是我国正在开展的中华古籍保护计划的工作内容之一。海外古籍数字化回归是中华古籍以数字化信息回流并传播的重要步骤,是对中华典籍文化传播和继承方式的革命。需要指出的是,海外古籍数字化回归工作刚刚起步,还存在诸多亟待解决的问题,值得我们给予关注和思考。

    一是,加强海外古籍普查,建立海外古籍资源联合目录。在摸清海外中华古籍流布地点、数量、质量信息的基础上,有针对性地制定海外古籍数字化回归计划,让海外古籍数字化回归工作在有目标、有计划中进行。

    二是,加强海外中华古籍数字化资源调查,做好古籍数字化资源的整合工作。鉴于海外中华古籍数字化资源存在着资源分散、建置单位多元化、数据格式多样化的特点,古籍数字化资源整合宜采用基于导航系统的数字资源整合方式。

    三是,成立海外中华古籍数字化回归的领导协作机构。海外中华古籍数字化回归是一个庞大的系统工程,需要一个由政府出面组织的统一协作机构开展工作:论证分析海外中华古籍数字化回归项目的可行性;筹措和管理海外中华古籍数字化回归的专项经费;负责制定海外中华古籍数字化回归的各种标准;定期举办海外中华古籍数字化回归的学术活动;举办海外中华古籍数字化回归技术培训班和研讨班等。  (作者单位:河南新乡学院)

破茧成蝶

相关推荐