数字古籍吧 关注:4贴子:40
  • 2回复贴,共1

中国古籍资源数字化的进展与任务

只看楼主收藏回复

中国古籍资源数字化的进展与任务
李国新
内容提要 论述了数字化古籍资源的基本特征,总结了20世纪90年代中期以来中国古籍资源数字化理论与实践的若干进展,展望了新世纪初期古籍资源数字化面临的主要任务。 关键词 古籍资源数字化 中国古籍 古籍整理
中国的古籍资源数字化工作早在20世纪80年代初就开始起步了,不过,那时并没有出现“数字化”的概念,一般称为“计算机化”或“电子化”。古籍数字化在中国真正的迅速发展,是90年代中期以后的事情。主要标志是一些大规模、基础性的古籍著作被开发成为真正意义上的数字化产品并走向市场。在这一过程中,人们对数字化古籍资源的特征、古籍实现数字化的原则、形式等基本问题的认识有了明显的升华,过去长期制约古籍数字化实现的一些关键性技术经过持续的研究和试验,取得了明显进展。
一 数字化古籍资源的基本特征
数字化古籍资源必须在计算机环境下实现其利用功能,但计算机环境下可利用的古籍资源并不一定都可以称为数字化古籍资源。例如,现在我们常常可以看到一些以键盘输入或电子扫描形式形成的网络版、光盘版的古籍作品,还有一些使用阅读器仅供阅读的古籍资源,这类产品充其量只能说是实现了古籍资源的浏览阅读计算机化,并不能称为真正意义上的数字化古籍产品,因为它们不具备数字化古籍资源的基本特征。
那么,数字化古籍资源的基本特征是什么?
首先,必须实现文本字符的数字化,即汉字是以编码而不是以图形的形式储存在计算机中。如果是通过扫描技术将古籍原文转化为数字图形,则必须有一个进一步的将数字图形映射为数字字符的环节,这就是一般所说的OCR(光学字符识别)技术。只有实现了汉字由图形向编码的转变,最终才能实现对汉字的编辑修改,对文本的深度加工才有可能进行。
第二,具有基于超链接设计的浏览阅读环境。不论何种载体形式的图书,能够浏览阅读都是最基本的要求,所以,仅仅是能够浏览阅读,并不能显示出电子版图书比印刷版图书有什么优势,而且,若从纯粹意义的浏览阅读的习惯和舒适、便携程度来看,电子版恐怕还不如印刷版。就浏览阅读来说,数字化以后的真正优势在于对典籍内容的超链接设计。比如,正文相关内容之间的链接,正文与注释之间的链接,不同注释之间的链接,正文与相关知识、资料之间的链接,原文与在线词典的链接,甚至典籍内容与相关网站的链接等等。有了这样一些超链接设计,人们在浏览阅读古籍时就可以改变传统印刷版的线性顺序,就可以以语词点、知识点为中心,发散性地、即时性地、有选择性地寻找需要的内容。对于今天的人利用古籍作品来说,这种浏览阅读环境至关重要。
第三,具有强大的检索功能。印刷版古籍也可以具有一定的检索功能,但在印刷版阶段,限于编制工作的浩繁与书籍的规模,索引总是粗疏的、有限的。计算机有海量的存贮空间,从根本上解决了“规模”的问题;有自动生成索引的功能,从根本上解决了“编制工作浩繁”的问题。而从实际需要看,今天一般人利用古籍,恐怕是查找检索多于系统阅读,因此,强大的检索系统对于古籍整理作品绝不是可有可无,而是必须的。
所谓“强大的检索系统”是指以全文检索为基础构造的检索系统,主要包括关键词(主题词)检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索。其中属性检索对于古籍的利用与研究有特别的意义。如以“体裁”作为属性,可以汇聚同体裁的作品;以“写作时间”作为属性,可以汇聚相同时间写作的作品;以“事件”作为属性,可以汇聚古籍中记述的所有事件;以“图像”作为属性,可以汇聚古籍中收载的所有图像资料,等等。属性检索是一种智能化检索,属性设置体现了原书的内容特点,往往可以满足利用者特定的需要,因此,在数字化古籍的检索系统中,属性检索应该是不可或缺的。



IP属地:辽宁1楼2012-01-09 00:40回复
    如果和印刷版阶段的古籍整理成果相类比,贯彻“保真”和“整理”相辅而行原则的数字化古籍产品,实际上是将“影印本”和“整理排印本”合一,这是充分张扬数字化产品优势的举措,它不仅给不同需求的人带来了利用上的方便,而且为古籍保存、善本留真开辟了新途径。目前,国内已经出现的数字化古籍产品真正全面体现“保真”和“整理”相辅而行原则的并不多,有代表性的是文渊阁《四库全书》电子版,其他大多还停留在单纯数字文本版或单纯数字图形版的地步。唯其如此,明确这一原则才更具现实意义,它为今后的数字化古籍产品指明了发展方向。
    4关于古籍研究支持系统的开发
    90年代中期以后出现的数字化古籍产品大多在研究支持系统的开发方面作出了有益的探索,比如字频词频统计、相关资料库(人物、事件等)的加载、研究辅助工具(年表、联机字典等)的配置、相关汉字库(异体、通假、正讹、古今等)的建立、实用工具(标点工具等)的引入等,表明人们对数字化古籍产品基本特点认识的深化。
    智能化研究支持系统的开发和实现,是这一时期值得特别关注的事情。北京大学计算语言研究所和北京大学古文献研究所合作开发的以《全宋诗》为对象的古诗研究计算机支持系统取得的阶段性成果,令人鼓舞。该系统利用计算语言学的方法,通过计算相邻字的“互信息”等方法进行语料的自动抽词和建词典,据介绍正确率达到了95%;通过选取任一诗作的第一句和偶句的尾字与系统中储存的韵书和押韵规则相匹配,自动判断诗作的押韵状况与韵脚,为古诗格律研究提供支持[9];通过条件概率计算、互信息计算、规则匹配、信息库(如注音字典库、多音字发音频率库、多音字组合库)信息匹配等方法,实现对诗文的自动注音。据介绍,40万字规模的语料读音标注正确率达到了94.7%[10]。这类研究已经不仅仅是基于全文检索的简单数量统计,而是在统计基础上的智能决策,部分地替代了人的思维,发展前景诱人。比如,以古籍自动抽词和建词典的工作为基础,就可以进一步实现古籍的机器自动翻译和多层面的古代语言研究;以古籍自动注音为基础,利用多媒体技术,很容易地就可以实现古代诗文的即时自动朗读。智能化应该是古籍研究支持系统的一个发展方向。
    目前已经出现的古籍研究支持系统大都包含了并非唯一的支持工具。但是,如果这些支持工具处在一种各自为政、相互分离的状态,就会削弱支持工具作为一个“系统”的整体效能。因此,支持工具之间建立相互的关联是必要的。比如,如果把按年代顺序统计出来的诗文作品放入事件资料库中加以对比分析,就可以看到作品与事件之间的关系;放入作者生平资料库中加以分析,就可以描绘作者的创作历程;把按作品创作地点统计的结果放入地图资料库中加以分析,就可以对地域文化作出有根据的阐释;包括联机字典,理想的状态也应该具有释文义项与特定字词间智能对应的功能。这些,实际上就是不同的研究支持工具相互关联所产生的效果。如果再辅之以一些图形、图表、多媒体表现工具,对研究结果的表达形式、表达手段将会更加多样化,更具吸引力。数字化古籍的研究支持系统应该在支持工具的关联以及关联分析结果的表现方面,给利用者提供更大的空间。目前,这方面做得还远不够。
    三 古籍资源数字化面临的主要任务
    古籍资源数字化既是今天经济文化建设、学术研究的需要,也是时代对古籍整理工作的必然要求,同时,还可以有效地改变网络环境下中文信息稀少、信息流动失衡的现状。不过,类似于已经出现过的多家齐上图形版《四库全书》的低水平重复现象应该避免,特别是在古籍资源数字化刚刚起步的今天,更应该区分轻重缓急,考虑如何做才能较为迅速、合理地构建我国数字化古籍资源的体系架构。纵观我国古籍资源的构成要素与古籍资源数字化的现状,在新世纪初期,下面一些任务显得较为紧迫。
    


    IP属地:辽宁4楼2012-01-09 00:40
    回复
      1大规模总结性古籍检索工具的数字化
      建国以来,特别是改革开放以来,我国已经编纂出版了一批总结性的、权威性较高的古籍工具书,如《辞源》、《中国丛书综录》、《中国古籍善本书目》、《中国版刻图录》、《中国地方志联合目录》、《中国地方志总目提要》、《中国历史地图集》、《中医图书联合目录》等等。这些工具书本身或许并不能称为古籍,但却是人们充分地利用古籍资源、打开古籍资源宝库的有效的参考工具、引导工具,所以,古籍数字化实际上首先应该考虑这类检索工具的数字化。从内容上看,这类工具书一般都有较好的印刷版基础,进行具有计算机检索特点的深度开发的难度相对较低,也是一件很适合在古籍数字化初期做的工作。大约主要是由于牵涉到了著作权问题,截止目前,这方面还是空白,亟须填补。
      2总结性古籍书目数据库的建立
      这是一件摸清现存传世古籍家底的工作。自从《中国古籍善本书目》的编纂工作基本完成后,有许多学者呼吁启动类似的工程。1993年,国务院古籍整理出版规划领导小组立项启动了《中国古籍总目》项目,此后,有些收藏单位做过一些局部性的古籍书目数据计算机化的试验。但按照计划,该项目是利用现有的若干图书馆馆藏古籍目录依品种按类加以合成,然后选择若干大型图书馆依实际馆藏加以核对。李致忠先生在《再论建立中国古籍书目数据库》一文中指出,“这种编法本身就带有先天的不足,非但收录不可能全,著录也未脱离中国传统目录的窠臼,因而仍难以借此达到资源共享”[11]。到今天,发挥技术优势,从建立计算机古籍书目数据库入手完成摸清家底的任务,时机和条件已经基本具备。
      目前,建立总结性古籍书目数据库的难点不在技术实现层面,而在建库规范和协调机制层面。就建库规范来说,需要有统一的古籍分类法,统一的古籍著录标准和格式,统一的系统软件等,但这些规范或标准的制定目前仍处在研究探索阶段。总结性书目数据库的建立必须以所有收藏单位的协作为基础,但在今天,灵敏而有效的协调机制的建立,恐怕并不比规范和标准的制定容易。李致忠先生曾经多次撰文论述过这类问题[11]。不过,总结性古籍书目数据库的建立是古籍资源数字化的基础性工程,也是实现真正的资源共享的基础,它的必要性和紧迫性已经表现得越来越明显。
      3类书资源的数字化
      类书是中国古代百科全书式的资料汇编,是最具中国特色,也最具世界影响的中国传统文献资源之一。它的内容,涉及了自然界和人类社会的各个方面;它的表达方法,是直接抄录典籍中的原始资料而加以陈列;它的编排形式,是通过极具中华民族思维特点的类化思维方式——分门别类来对知识和资料进行整合与规范。所谓“区分胪列,靡所不载”——用今天的话说叫做“分类与陈列”,是类书最突出的特点。分类,“是思想的秩序”,展现出来的是“那个时代人所能够想象到和把握到的知识与思想世界的秩序、范围和边界”[12];而陈列,则是信息的复制,展现出来的是一种容纳在“新秩序”中的不加改易的既有文本的原始信息。类书内容的“靡所不载”,决定了它在今天的经济文化建设、学术研究中有广泛而重要的开发利用价值,而一般人对类书体例、表现方式的陌生,再加上类书本身“非工具书化”因素的制约,又导致了人们利用的困难。怎样解决这一对矛盾?在今天,最好办法就是实现类书资源数字化。可以说,在传世的古籍资源中,类书是最需要也最适宜实现数字化的品种之一。
      在现存的类书中,规模最大的《古今图书集成》已经有了电子版[13]。除此而外,规模大者千余卷,小者十几卷。鉴于此,今天谈类书资源数字化,基本方向应该是构建容纳一定数量类书的大规模类书资源数据库,而不能再局限于或满足于单种类书的数字化。为什么?因为类书的最大优势,在于汇集资料的丰富与系统。不同类书所容纳的资料,有继承也有超越,有雷同也有区别,如果能把它们**起来,实际上就是实现了不同类书所汇集的资料的熔为一炉,原始信息的陈列显然更丰富了;不同类书容纳资料的分类体系的比较,又可以使我们看到不同时代的人们整合、规范知识与资料的思想体系的区别。而计算机这一现代工具,提供了前所未有的海量存储空间和快速检索方法,使不同类书的**与**以后的快速查考成为可能。所以,从类书的特点、利用价值与数字化产品具有的优势的结合点上来考虑,类书的数字化应走构建**多种类书的大规模类书资源数据库的道路。
      


      IP属地:辽宁5楼2012-01-09 00:40
      回复