中国古籍资源数字化的进展与任务
李国新
内容提要 论述了数字化古籍资源的基本特征,总结了20世纪90年代中期以来中国古籍资源数字化理论与实践的若干进展,展望了新世纪初期古籍资源数字化面临的主要任务。 关键词 古籍资源数字化 中国古籍 古籍整理
中国的古籍资源数字化工作早在20世纪80年代初就开始起步了,不过,那时并没有出现“数字化”的概念,一般称为“计算机化”或“电子化”。古籍数字化在中国真正的迅速发展,是90年代中期以后的事情。主要标志是一些大规模、基础性的古籍著作被开发成为真正意义上的数字化产品并走向市场。在这一过程中,人们对数字化古籍资源的特征、古籍实现数字化的原则、形式等基本问题的认识有了明显的升华,过去长期制约古籍数字化实现的一些关键性技术经过持续的研究和试验,取得了明显进展。
一 数字化古籍资源的基本特征
数字化古籍资源必须在计算机环境下实现其利用功能,但计算机环境下可利用的古籍资源并不一定都可以称为数字化古籍资源。例如,现在我们常常可以看到一些以键盘输入或电子扫描形式形成的网络版、光盘版的古籍作品,还有一些使用阅读器仅供阅读的古籍资源,这类产品充其量只能说是实现了古籍资源的浏览阅读计算机化,并不能称为真正意义上的数字化古籍产品,因为它们不具备数字化古籍资源的基本特征。
那么,数字化古籍资源的基本特征是什么?
首先,必须实现文本字符的数字化,即汉字是以编码而不是以图形的形式储存在计算机中。如果是通过扫描技术将古籍原文转化为数字图形,则必须有一个进一步的将数字图形映射为数字字符的环节,这就是一般所说的OCR(光学字符识别)技术。只有实现了汉字由图形向编码的转变,最终才能实现对汉字的编辑修改,对文本的深度加工才有可能进行。
第二,具有基于超链接设计的浏览阅读环境。不论何种载体形式的图书,能够浏览阅读都是最基本的要求,所以,仅仅是能够浏览阅读,并不能显示出电子版图书比印刷版图书有什么优势,而且,若从纯粹意义的浏览阅读的习惯和舒适、便携程度来看,电子版恐怕还不如印刷版。就浏览阅读来说,数字化以后的真正优势在于对典籍内容的超链接设计。比如,正文相关内容之间的链接,正文与注释之间的链接,不同注释之间的链接,正文与相关知识、资料之间的链接,原文与在线词典的链接,甚至典籍内容与相关网站的链接等等。有了这样一些超链接设计,人们在浏览阅读古籍时就可以改变传统印刷版的线性顺序,就可以以语词点、知识点为中心,发散性地、即时性地、有选择性地寻找需要的内容。对于今天的人利用古籍作品来说,这种浏览阅读环境至关重要。
第三,具有强大的检索功能。印刷版古籍也可以具有一定的检索功能,但在印刷版阶段,限于编制工作的浩繁与书籍的规模,索引总是粗疏的、有限的。计算机有海量的存贮空间,从根本上解决了“规模”的问题;有自动生成索引的功能,从根本上解决了“编制工作浩繁”的问题。而从实际需要看,今天一般人利用古籍,恐怕是查找检索多于系统阅读,因此,强大的检索系统对于古籍整理作品绝不是可有可无,而是必须的。
所谓“强大的检索系统”是指以全文检索为基础构造的检索系统,主要包括关键词(主题词)检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索。其中属性检索对于古籍的利用与研究有特别的意义。如以“体裁”作为属性,可以汇聚同体裁的作品;以“写作时间”作为属性,可以汇聚相同时间写作的作品;以“事件”作为属性,可以汇聚古籍中记述的所有事件;以“图像”作为属性,可以汇聚古籍中收载的所有图像资料,等等。属性检索是一种智能化检索,属性设置体现了原书的内容特点,往往可以满足利用者特定的需要,因此,在数字化古籍的检索系统中,属性检索应该是不可或缺的。
李国新
内容提要 论述了数字化古籍资源的基本特征,总结了20世纪90年代中期以来中国古籍资源数字化理论与实践的若干进展,展望了新世纪初期古籍资源数字化面临的主要任务。 关键词 古籍资源数字化 中国古籍 古籍整理
中国的古籍资源数字化工作早在20世纪80年代初就开始起步了,不过,那时并没有出现“数字化”的概念,一般称为“计算机化”或“电子化”。古籍数字化在中国真正的迅速发展,是90年代中期以后的事情。主要标志是一些大规模、基础性的古籍著作被开发成为真正意义上的数字化产品并走向市场。在这一过程中,人们对数字化古籍资源的特征、古籍实现数字化的原则、形式等基本问题的认识有了明显的升华,过去长期制约古籍数字化实现的一些关键性技术经过持续的研究和试验,取得了明显进展。
一 数字化古籍资源的基本特征
数字化古籍资源必须在计算机环境下实现其利用功能,但计算机环境下可利用的古籍资源并不一定都可以称为数字化古籍资源。例如,现在我们常常可以看到一些以键盘输入或电子扫描形式形成的网络版、光盘版的古籍作品,还有一些使用阅读器仅供阅读的古籍资源,这类产品充其量只能说是实现了古籍资源的浏览阅读计算机化,并不能称为真正意义上的数字化古籍产品,因为它们不具备数字化古籍资源的基本特征。
那么,数字化古籍资源的基本特征是什么?
首先,必须实现文本字符的数字化,即汉字是以编码而不是以图形的形式储存在计算机中。如果是通过扫描技术将古籍原文转化为数字图形,则必须有一个进一步的将数字图形映射为数字字符的环节,这就是一般所说的OCR(光学字符识别)技术。只有实现了汉字由图形向编码的转变,最终才能实现对汉字的编辑修改,对文本的深度加工才有可能进行。
第二,具有基于超链接设计的浏览阅读环境。不论何种载体形式的图书,能够浏览阅读都是最基本的要求,所以,仅仅是能够浏览阅读,并不能显示出电子版图书比印刷版图书有什么优势,而且,若从纯粹意义的浏览阅读的习惯和舒适、便携程度来看,电子版恐怕还不如印刷版。就浏览阅读来说,数字化以后的真正优势在于对典籍内容的超链接设计。比如,正文相关内容之间的链接,正文与注释之间的链接,不同注释之间的链接,正文与相关知识、资料之间的链接,原文与在线词典的链接,甚至典籍内容与相关网站的链接等等。有了这样一些超链接设计,人们在浏览阅读古籍时就可以改变传统印刷版的线性顺序,就可以以语词点、知识点为中心,发散性地、即时性地、有选择性地寻找需要的内容。对于今天的人利用古籍作品来说,这种浏览阅读环境至关重要。
第三,具有强大的检索功能。印刷版古籍也可以具有一定的检索功能,但在印刷版阶段,限于编制工作的浩繁与书籍的规模,索引总是粗疏的、有限的。计算机有海量的存贮空间,从根本上解决了“规模”的问题;有自动生成索引的功能,从根本上解决了“编制工作浩繁”的问题。而从实际需要看,今天一般人利用古籍,恐怕是查找检索多于系统阅读,因此,强大的检索系统对于古籍整理作品绝不是可有可无,而是必须的。
所谓“强大的检索系统”是指以全文检索为基础构造的检索系统,主要包括关键词(主题词)检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索。其中属性检索对于古籍的利用与研究有特别的意义。如以“体裁”作为属性,可以汇聚同体裁的作品;以“写作时间”作为属性,可以汇聚相同时间写作的作品;以“事件”作为属性,可以汇聚古籍中记述的所有事件;以“图像”作为属性,可以汇聚古籍中收载的所有图像资料,等等。属性检索是一种智能化检索,属性设置体现了原书的内容特点,往往可以满足利用者特定的需要,因此,在数字化古籍的检索系统中,属性检索应该是不可或缺的。