[蠹·文摘] 文汇报：当乾嘉学派遇上互联网【书蠹吧】

转载自“文汇报” ，记者：任思蕴、李纯一。（附陈尚君文：e时代考证的惊喜与无奈）

送TA礼物

1楼2014-12-02 23:34回复

　e考据改变了我们占有、阅读与查考文献资料的环境，但在本质上与传统的考据并无冲突。这也是为什么，即便有了e考据，陈寅恪的许多工作也并不会被取代，即便有了数据库，钱锺书的学问的价值也并不会减半。
　　2000年左右，数字化中华典籍开始出现，此后短短10年间，已有六七十亿字的古代文献被数字化。70亿字是什么概念呢？假设你以一天时间读完一本73万字的《红楼梦》的速度，一刻不停歇，需要1万天也就是30年才能读完70亿字；如果你的阅读量和速度同普通人一样，每天能慢悠悠从头到尾看完一份新版的《文汇学人》周刊，那可需要300年才能读完这些文献。面对这样浩瀚的文山字海，真是让人直呼吾生有涯！
　　“这是过去一两千年从未有读书人面对过的新环境。”台湾清华大学人文社会学院院长、“中研院”院士黄一农由此感叹。这位曾经的无线电天文学家，很早便以理工科人士的敏感察觉到当前“整个文科的研究环境、研究方法正在发生剧变”。其实，数据库并不是人文研究“扁平化”的第一次浪潮。1990年代中期开始，大量古籍被影印出版，研究者无须再跑各个图书馆去看四库全书等大部头著作。如今这些影印的古籍基本都被数字化，数字化又加速了文献的普及。
　　黄一农早在七八年前就已提出e考据方法，简而言之，这是一种在数字化大背景下充分利用数据库和网络搜索的文科研究方法。最近四年，他依靠e考据尝试研究《红楼梦》，希望以己心得说服大家：首先，e时代是人人无法避免的一个总体环境；在e时代做学问，善用数据库与网络搜索，有机会把许多传统的领域带向全新的局面——制作年谱、考订生卒年等工作，通过e考据可大大缩短时间；辨析勾勒人物之间的关联，更是e考据的独胜擅场。如今的文史研究再难以资料垄断为优势，个人的知识架构和理论功底恐怕更为重要。研究者能够提出怎样的问题，知道怎样由点及面地搜索，能够建立怎样的论点，才是最见功力之处。
　　利用互联网和数据库找材料做学问，也早已是许多文史研究同仁的共识，学院内外中人都在各自摸索，体会也逐渐深入。学院外的艾俊川，在过去十几年中写了多篇文史杂考类文章，部分辑入《文中象外》一书，在他的多篇“翻案文章”里，除了早年几篇，其他基本是e考证之作。出书之时，艾俊川并未挑明这点，当时他觉得利用数据库和网络搜索都是取巧之举，难登大雅之堂。现在他的看法已经有了改变：“自古以来考据都要依靠大量藏书，使用一些检索工具，清代有类书，民国有引得，现在是e考据，‘工欲善其事，必先利其器’，使用了先进、好用的工具，有什么见不得人的呢？”他近年来的文章，如果使用e考据，就会做出说明，比如今年发表的一篇纠正《小莽苍苍斋藏清代学者书札》人名识别错误的文章，题目就叫《对小莽苍苍斋藏札的几则e考证》。
　　不久前，第二届两岸e考据文史研习营在浙江大学举办，黄一农、薛龙春等多位学者结合自己研究中有趣的e考据案例，帮助学员体会“e考据究竟是一种怎样的方法”。与传统考据“上穷碧落下黄泉”的精神一样，在e时代的考据，更要利用好一切可能的方式来“动手动脚找东西”；而唯有文史基础扎实者，使用e考据才更如虎添翼。在这个意义上，研究者都认为，e考据和传统考据方法之间并无冲突，而是相辅相成。正如黄一农所言：“e考据的最高境界就是去掉e。”
　　去掉e——也就是考据。文史研究依然航行在实事求是、质朴谨严、讲求“无一字无来历”的乾嘉学派的遗产大河里，只是e时代的后浪推将起来，把学术的标准抬得更高。

3楼2014-12-02 23:37

360文库

2025全新黄芪霜的作用与功效，优秀范文参考，360文库精选范文50篇，满足你的不同需求，可抄可下载

2025-04-29 10:06广告

立即查看

考证知识点已不叫学问，e时代对学术有更高要求
　　曹雪芹卒年是红学界争论多年的问题。曹雪芹为数不多的好友之一敦诚在挽诗中写“四十萧然太瘦生”、“四十年华付杳冥”，张宜泉在《春柳堂诗稿》的《伤芹溪居士》诗题小注中称芹溪居士“年未五旬而卒”。如果这两首诗确实都在写曹雪芹，那么“四十”和“年未五十”是否相差太远？这个问题，学殖深厚者容易理解，古人对年岁有举成数的习惯，做寿一定是向上找成数，而对于作古之人，为了表达惋惜，挽诗中一定是向下找成数。如果研究者恰恰不知道这个知识点，是否有机会搞清楚呢？黄一农在数据库里搜索到一些和《红楼梦》完全无关的证据：
　　洪亮吉悼钱维乔有“茫茫六十年，仙佛误君久”句，而钱氏享寿六十八岁。
　　黄景仁挽李文藻诗中有“去年随计上皇都，四十功名半刺初”句，指其在擢广西桂林府同知（所谓“半刺”）未及一年后就过世，黄景仁在挽诗末的小注称李文藻的卒年为四十八（实应享寿四十九岁）。
　　这些诗句呈现了古人挽诗中对年岁的写法，可见挽诗中的“四十”并非单指四十岁，这与“年未五旬而卒”是不矛盾的。黄一农举此例说明，e考据的确可以增加解决问题的可能性。
　　e考据确为这些“小考证”提供了便利。过去考证一个人生卒年即被认为颇见功力，有人一辈子的学问可能就是做出某个研究对象的一本年谱。在没有数据库与互联网的年代，研究者用到的索引，是靠老先生一条一条找出来的。如《二十四史人名索引》，是把每个人名找出来，对照二十四史的哪一篇里面有。这类工作在今天已经容易得多，通过搜索海量数据，很容易在几种资料之间建立勾连。
　　薛龙春曾考证过一件明代上海人殷廷枢写给一位“念老年亲翁太史”的书札。这件书札前页已不存，所见残页中提到要为他促成一件买卖，因为对方“恐非大不得已，绝不至漫割所最爱”，所以很可能是艺术品或是古董。这位收信人需要满足三个条件：他必定是殷的同年进士，他的字号的第一个字是念，他是翰林院的编修或是检讨。殷廷枢是万历十七年（1589）进士，按照传统的方法，需要根据《进士题名碑录》一一核查他的同年的字号，工作量很大。可是在百度中键入“万历十七年进士号念”之后，检索结果便出现一条“王肯堂号念西居士”的信息，再去相关数据库反查王肯堂，就得到这样的传记：“王肯堂号宇泰，又号念西居士，南直金坛人。万历己丑进士，仕至编修。”王完全符合收信人的三个条件。我们如果对艺术史有所了解，会知道王肯堂是有名的收藏家，曾先后购得数十种《兰亭》拓本，名迹王珣《伯远帖》上也有他和同年进士董其昌的题跋。这与书札内容亦相印合。
　　又如高居翰《画家生涯》一书中引用了一件仇英写给某翰林院官员的书札，但不知此人究竟为谁何。书札末尾提到：“闻宅中多合豨莶丸，求数服，有叶亦乞见惠。《素问》拜印一部。……又蒙方壶令弟惠银。”
　　薛龙春对这位官员的考证思路如下：
　　首先，从书札末尾可以得到如下信息：该官员是医学世家，家中曾刊刻《素问》一书，他的弟弟号方壶。如果以“方壶”为关键词检索古籍数据库，会有800余条记录，甄别极为费时。但是如果以“素问+明刊本”为关键词，很快可以得到明代上海人顾从德翻刻宋本的记录。再以关键词“顾+方壶”进行检索，发现《清河书画舫》曾记载文伯仁曾为顾汝修作《方壶图》。汝修是顾从德的字，此时在方志库中检索顾从德，可以知其父为顾定芳，再检索顾定芳，获知他“尤精于医，世宗时召拜御医”，长子从礼工书，官中书舍人，兼翰林院典籍。仇英的信必写给此人。
　　诸如此类考证，包括前述王铎的六七十人同年进士圈，在过去或许是很了不起的考证，但在e考据环境下已经不足为奇。就像在西方艺术史传统中，考证一个人生卒年，或鉴定一幅绘画的真伪，都还称不上是学问。因为这种单点考证不构成问题，与思想无涉，只是一些基础成果。
　　e考据改变了我们占有、阅读与查考文献资料的环境，但在本质上与传统的考据并无冲突。比起前人用索引、引得之类的文献进行有限的检索，今人拥有的是海量关键词的检索系统。而如何设置关键词，考验的就是各人功底。因此，e考据其实对学术提出了更高要求。如黄一农所说：“如果你只是做上一代人那种水平的研究，那是浪费了我们这一代人所处的特殊环境。”

5楼2014-12-03 22:01

　　e考据可用于信息类的检索，但对修辞类的基本没有作用
　　目前，中国古代文史的研究者已有多种数据库可以选择。以爱如生公司的数据库为例，其包括：
　　中国近代报刊库（要刊编、大报编）
　　中国基本古籍库爱如生古籍数据库（方志、谱碟、金石、丛书、类书、辞书、经典、史学、俗文、别集、敦煌、档案）爱如生数字丛书（明清实录、永乐大典、二十五史订补、全清经解、佚书合编、历代笔记汇纂、宝卷新集、历代碑志、古今图书集成、缙绅全录、正续道藏、明代日用类书、医书集成）
　　爱如生数字古典（全四库、古版画、八藏合集、丛书总纂）
　　对于数据库和网络资源，研究者各有看法。整理了许多开放获取学术资源发布在网上的青年教师王国强（微博@陆浑戎），和薛龙春都提到了不同研究领域对e资源的依赖会有很大不同。例如，对一个研究秦汉史的学者来说，可能纸质文本就可以满足需要；而对于世界史的研究者而言，网络获取资料是非常重要的途径。大型数据库往往对明清研究最起作用，因为明清文集靠个人的阅读不可能穷尽。
　　然而，文献在数字化的过程中有很多的错误，会影响检索，检索时一定要核对原文。薛龙春说他曾经见过的最糟糕的数据化点校本，可以错达六成。
　　对于数据库不可避免的局限性，研究者已经摸索而知如何进退。“e考据急不得，条件不成熟可以等一等，但别把问题忘掉”，是艾俊川的心得。作为一名财经编辑，他十几年前就想考证“金融”一词。过去人们推测它是来自日本的新词，但在中国的来龙去脉未得其详。后来每次有了新的检索工具，他都试着检索一下，但进展都不大。今年终于等来了机会，一是可以在线阅读早稻田大学藏明治图书，二是可以使用《申报》检索。利用这两个工具，他考证出了“金融”在日本产生、演变的历史，和这个词在光绪末年传入中国的情况，解开了经济学史上的一个谜团。
　　此外，他更感到e时代考据的重要特点是能在网络世界结识同好，充分辩难，互相启发，拉近了普通人与学术的距离，也给学术带来深刻变化。
　　对文史研究者，尤其是艺术史学者而言，还有一片大天地是图像的数字化，而这却是最困难的部分。高居翰生前曾计划把全球收藏的中国书画建成一个大数据库，所涉工作量极大——除了书画的质地、长宽、时代、作者等要素，作品上的跋文、印章等内容最好也能够被数字化。这种图像数据库显然比文字数据库复杂得多。
　　据薛龙春介绍，现在的艺术品拍卖系统，单是印章的图像辨识也还没有办法做到。理想的数据库是能够一一辨识书画上的印章，比如检索“王原祁”，就能获得他所有印鉴的信息,不仅知道全球一共有多少王原祁的作品，分别收藏何处，呈现清晰的图像，还能显示作品上的文字、印章，这样就可以在图像和文字之间建立勾连，检索出画家和其他人的关系，但是这“很难完成”。上海博物馆曾做过馆藏中国历代画家印鉴款识，但也只是一个馆的章，而且也未数字化，只是纸本。
　　除了技术上的局限，数据库和网络资源作为研究的辅助工具，最不能作为的地方，就是对人之为人的情感判断了。按照薛龙春的话来说，就是e考据可用于信息类的检索，但对修辞类的基本没有作用。所谓修辞，就是感觉性的、主观的描述。比如，司马迁对项羽的态度到底是褒还是贬，这是没办法靠检索一下得出结果的，只能老老实实读《史记·项羽本纪》。
　　更进一步，对于文史研究中虚实结合、需要由思维方式起作用的部分，e考据更是无法代劳。一个熟读古书的人看到典故不用查就能会意，而如果做文史研究每个典故都要去查，整体的研究感受一定不同。同样，对于图像研究来说，即便有一天电脑具备了识别文字的功能，能够区分篆书、草书、手写体，但仍然无法替代个人对图像本身的审美认识。
　　薛龙春也由此表达了他对现有研究过度依赖数据库的担忧：“现在完全把艺术史当文献来做，当然有积极的一面，会解决一些问题，但是对于艺术史本身的推进不会有任何作用。因为艺术史最终无法离开风格和形式这两个非常重要的要素。”他以南京大学藏南唐著名画家王齐翰的《挑耳图》为例：“如果只是做画面、题跋的辨识、作品的递藏关系，历史系可以做得更好，但艺术史正是要在这些之外，建立自己的方法。”也是在这个意义上，视觉训练的成果始终是数据库没法替代的。“就和学文献的人脑子里有个文献库一样，讲到宋代有哪些书、哪些笔记，脑子里马上要有印象。艺术史的研究者脑中应该有一个图像库——董其昌有哪些最重要的作品，八大山人早期是什么风格，大概哪一年以后风格是什么样，在一件作品拿到手时，就应该很快可以判断出来，这些都不是依赖数据库能完成的。”

6楼2014-12-03 22:02

收费数据库vs.开放获取数据库
　　你有没有浪费学校图书馆高价购买的各种数据库呢？如果不使用收费的数据库，只是使用网络上免费的开放获取数据库，也可以做出很好的研究吗？
　　“实际上在实践中很难见到这样的例子。因为对于研究者而言，数据库收费与否并不重要，关键是有没有想要的东西。”
　　——王国强（微博@陆浑戎）
　　“通过网络阅读电子图书、图像，是e考据的重要一环，尤其是对藏书无多、利用图书馆不便的业余研究者更为重要。
　　“有一些信息未必能检索出来，但我们知道从哪本书中可能找到；还有一些信息的检索结果是模糊的甚至错误的，需要阅读原文进一步研究。这时电子图书就变得非常重要，居于学术庙堂的可以使用图书馆的数据库，而江湖人士就要充分利用网络资源。”
　　——艾俊川
　　“大陆现在的教育资源非常丰富，全校一年的经费是台湾那边大学的好多倍。几十万几百万的数据库，我们一个小学校怎么买得下手，只能请‘国科会’帮全台湾买下使用权。很多大陆学校都自己买了数据库，但大家不怎么用，不太会用。”
　　——黄一农
大数据
　　全世界各领域的数字化程度不断加深。商业领域称之为“大数据”，并且试图去了解使用者偏好以从中获利。其实文科也同样面临大数据的挑战。
　　“e考据其实就是文科对于大数据的一个回应，它真的有机会让好多领域都提升到一个新境界。
　　“数字化的文献将会越来越丰富，大家应该都来思考，寻找文史研究的新议题。”
　　——黄一农
　　“全文检索（包括图像说明）很重要，可以提高利用率。最理想的状态当然是这种功能越高越好、越智能化越好（比如可以自动推送关联度高的关键词甚至资源），有让使用者反馈的机制就更好了。”
　　——王国强（微博@陆浑戎）
近代学人说乾嘉学派
　　其治学根本方法，在“实事求是”、“无征不信”。其研究范围，以经学为中心，而衍及小学、音韵、史学、天算、水地、典章制度、金石、校勘、辑逸等等；而引证取材，多极于两汉，故亦有“汉学”之目。
　　——梁启超《清代学术概论》
　　乾嘉间学者，实自成一种学风，和近世科学的研究法极相近，我们可以给他一个特别名称，叫做“科学的古典学派”。
　　——梁启超《中国近三百年学术史》
　　清学所以真能迥然超绝前代，一小半在于他的成绩，大半在于他的基本方法与精神。他们自称为考证之学，或考据之学，或考核之学。总而言之，这是一种实证主义的精神与方法，他的要点只是“拿证据来”。
　　——胡适《胡适遗稿·清代思想史》
　　我爱好他们的治学方法的精密，爱好他们的搜寻证据的勤苦，爱好他们的实事求是而不想致用的精神。以前我曾经听得几个今文家的说话，一位清代的经学是“支离、琐屑、餖飣”的，是“束发就缚，皓首难穷”的，到这时明白知道，学问必须在繁乱中求得的简单才是真实的纲领；若没有许多繁乱的材料作蓝本，所定的简单的纲领便终是靠不住的东西。
　　——顾颉刚《古史辨》

8楼2014-12-04 22:40

附：
陈尚君：e时代考证的惊喜与无奈（转载自“文汇报”）
幼年时，父母曾让瞎子给算命，说我年轻时比较辛苦，25岁后会有变化。果然这一年中国变了，我也结束八年知青生活，进入复旦求学。虽然到20岁才读到《唐诗一百首》，但40岁时将所纂《全唐诗补编》送给师友，叶保民夸奖：“只要唐诗存在，你的书也会存在。”要说没有得意陶醉，那绝对骗人。
1980年代初国门刚打开一条缝，学术有复兴的气象和冲决的勇气，不计利益得失，当然，那时既不立项，也不考核。老辈学者还在，知道什么是学术境界。刚到30岁的我敢于为一代唐诗补录遗篇，也是时代使然。我的工作方式是据宋元目录知唐人写过什么书，据《中国丛书综录》知道存世有什么书，凡具第一手文献价值的书，无论与文学有关与否，一种一种翻检过去，见到引及唐诗，与手中的《全唐诗》逐篇逐句对核，虽然辛苦，但收获之丰，足以自慰。关键是如何逐人逐诗地对核？我搜集了那时能够找到的所有文史工具书，也把能想到的十八般武艺全部用上，部分解决问题，但遗憾仍很多，那时总幻想如何能将所有唐诗作逐句逐字的检索。后来知道，日本从六七十年代起大量作诗集每字索引，给学者以方便，但也使一些年轻学人以为检索所得就是学问。李嘉言在1957年提出《全唐诗》改编方案后，动员学生做卡片，先做首句索引，他身后由河南大学继续做每句索引，佟培基1996年出版《全唐诗重出误收考》，就是依靠此套索引。我就没有这一方便，因此留下一些误失。1993年我撰文怀疑司空图《二十四诗品》有伪，重要证据是其身后700年没有典籍引及，当时绝无可能通检宋、明全部古籍，只能作抽样推证。
古籍数码化起步缓慢。记得出版社到复旦推广200张光盘的四库全书，两年后四库全文检索出现。匆匆检索，发现如《二十四诗品》可补充明末清初的几条材料，但通检宋、明群书，也足验证拙说之可以成立，得到了意想不到的结论。于是花2000元装了单机版。2008年以后，主要用学校图书馆购进的中国基本古籍库。
就我来说，在古籍已经可以复制粘贴和逐字检索后许多年，仍很留连传统的纸质文本操作，原因大约一是觉得大型古籍整理若要做成电子文本，首先底本要逐字再校一过，不如采取善本复制在纸质上操作之准确；二是读古书的人都很迷恋逐次积累文献、反覆校订、铅黄满纸、可以追溯还原过程的工作状态，电子文本总感觉隔了几层。最近几年，因为遭逢出道后最诡异而黑暗的事件，发愤愿以个人之力完成全部唐诗的校订，迫不得已全部采取电子文本写作，方意外地感受到掌握现代手段以进行传统学术研究之惊喜。
惊喜之一，是在一个界面中可以展开无数文本的操作。记录今天的数据，我的重编全唐诗总档数是13703个，其中大约一半是积累的资料，大约6000个是正在写作的档。如此浩大的文本积累是以往不敢想的。我以往做过几部大书，过程中文稿都按四角号码顺序编排，虽然我的四角号码已经好到能像读报那样地检索，不说文本堆积如山，要找到那一人那一篇都要折腾许久。
惊喜之二，是文本可以反覆推敲修改，再三斟酌，逐次写定，不断完善。唐诗流传千载，文本变化很大，尽管就世所习知的文本层面上我已经浏览周遍，但不断利用新见文献，不断关注稀僻文本，是我努力的方向，许多看法不断在变化，体例在调整，局部出入更大。以前只想通过汇校善本为唐诗写定一个可靠的文本，近年改变为通过汇聚文本展示唐诗的变化轨迹，文本改动当然也更丰富。查修改记录，凡存诗一卷以上的作者几乎都有几百上千次的修改。我手边还保留二十多年前《全唐文补编》的原稿和校样，每页都有无数勾改，当年惶恐得很，真苦了责编和排校，还不说自己的剪贴拼接，昏天黑地。
惊喜之三，是搜寻文献的方便。读研那会儿，老师说学者积累资料各有法门，或做卡片，或记小本，或校书上，或存脑海，我们都这样各显神通。其中治汉语词汇者，无不有搜辑语料的卡片箱。我早期工作是关心唐文学作者事迹、典籍存佚、诗文流传以及文本辑佚，用工具书检索，更逐书记录珍贵线索。现在方便多了，比方要确认唐人说孝子顺孙而很少用孝子贤孙，一检即得。确定专用名词如人名、地名、书名当然更方便。特别是古籍辑佚，以往要辑某书佚文，要遍检群书，现在输入一个书名，立即给你许多线索。古籍数码化刚开始时，就有学者断言，今后有几路学问肯定没饭吃了，即有鉴于此。
惊喜之四，是通校文本的便捷。古籍校勘的基础工作是对校，虽然基础，但一点也绕不过去。同一书的不同文本还算好，因为内容、次序基本相同，一页一页对读过去就可以。然而唐诗却不是这样。比如孟浩然集，几个不同系统的文本彼此差别很大，要每首诗校过去，底本要翻来覆去地查检。何况唐集多经过数度分合，为无数典籍征引，且多数别集为明人编刊，据唐宋总集、史乘、类书、地志校勘的价值，有时比别集校意义更大。我是治学认死理的人，既然发愿凡唐宋人曾引录的唐诗，应该尽力通校，那就务求做到。比方《文苑英华》引唐诗逾万首，我还真校完了，结果发现，这么常见的书居然前人并没有完成通校，包括如杜甫、白居易这样的作者。想想也是，白居易存诗三千首，《文苑英华》引录约三百多首，每一首都要在三千首里找出来，谈何容易！现在则真不难。
惊喜之五，是辑佚、辨伪都有许多意想不到的线索。早年曾作唐诗辑佚，未免贪多误取。唐诗误收互见情况更严重，在49403首诗中互见接近7000首，非唐五代的伪诗也超过千首。我始终觉得，一首而作者有二说或三说者，考订做结论要充分考虑两造间的证据，方能做出可靠结论。现在搜索基本古籍库，一首诗的几十次引用结果能得备览，对其文本真相的考辨极其重要。近年完全无意于作唐诗辑佚，但因按照程序将群书引唐诗与手边的工作文本逐一记录，发现未见者，复检可会是他人他朝诗之误入。反覆推敲之下，确信来源可考，他书未见者，方敢视为佚诗。因为所涉书的数量远远超过前人考订唐诗曾阅读者，加上又是如此严格地加以对检，很高兴发现在《全唐诗》成书307年后，我也搜罗逾30年后，现在居然还会有数量可观的唐诗陆续奔入彀中，每天都有，能不愉悦吗？

9楼2014-12-05 00:02

说了五点惊喜，这是学者生活在e时代的机缘。虽然我也用e考据，也确信今日治学离不开这一利器，但就我言，只是多一辅助手段，实在不敢妄谈e考据的划时代意义和法门。就自己的工作，还想泼点冷水。
就我所知，常见古籍数据库学术质量都还存在一些问题。有些标名所据为宋本，但不时见到“邱为”、“房元龄”一类文字，就对所据底本的可信度不能不有所怀疑。有的制作态度极其认真，将古籍刻本的一笔一划都保留下来，但出现一大堆无法检索也无法复制的怪字，似乎还沿袭清人让不识字的人校书的古训，认真而不讨巧地摆出一地废品。此其一。
据说至今古籍数据库的总字数已经超过70亿字，即为四库全书的十倍，确实很可观。但其中无用的书也很多。比方《古今图书集成》1亿字，就我站在唐文献的立场来说，有价值的部分不到万分之一。一般一书仅存一个版本，此版本也未必最佳，仅取常见而已。至今未及数码化的文本还甚多，更不可能包含所有古籍。一些学者以为有了数据库的存在，基础文献工作已无进行之必要，台湾持此见者尤多，实在是一种误解。此其二。
即便在已经数据化的古籍中，检索还难达到精密的程度，或因字形差异，或因搭配歧互，同一句诗，查后二字不见，前二字是有的，即因此造成。我的办法是凡希望有结果者，总努力多查几项。此其三。
古籍数据检索是一项特殊的机械化操作。比方唐诗人姓名，如张萧远、庄南杰、长孙佐辅之类，当然不会与别人相混。但如查李白，则诗人故有之，桃红李白也来凑热闹，更无奈的是此类大家一气给你迸出几万条。检索贵在选择，选择的条件对所有人并不公平。偶然找到一条难得资料当然是e考据的胜利，但如我这样立志清理一代文献，就不能寄望偶然的邂逅。此其四。
e检索流行，立即有人认为以往人工编制的工具书皆可作废。部分对，不全对。比方李商隐诗逐字索引，借助计算机制作者当然比人工制作者更准确，也有更多维度的检索功能。但做过大量前期学术研究的工具书，比方中华书局的二十四史人名索引，将一个人的不同指称都作了归并，将同姓名的不同人物作了分割，可达到的学术精密度超过数据检索，如何可废？此其五。
检索可以较快速地找到文献，但对文献的解读还要依赖学者的学识积累。现在一些学生有种误解，用检索代替读书，以至很少读书，实不足取。近年审读论文，很关注到底是检索出来的资料堆积，还是潜心独造、深研有得的心会之着。此其六。
读书贵融会贯通，贵入木三分，贵知人论世，都不是检索所能获得的能力。比如李白之天真，杜甫之艰难，韩愈之木强，白居易之私生活，都非通读诸人文集而不能知此。大者如古今治乱之得失，小者如信陵军围魏救赵时的军事形势，都非检索可知。此其七。
凡治古文献之学者，都知道讲求版本之重要，罗备众本之必要。研究唐代文史，更宜重视唐写本和宋本书保存唐人写作原貌之可贵。今检索盛行，学位论文动辄都是四库本，恰应了李清照对陈师道如贫家少女终乏富贵态的讥讽。传统文史学术应该精致雍容，有讲究之品格，有善本不用俗本，有较早记录不取晚出文献，治一端唯恐有第一手记录未及寓目者，尽量不据他书转印文献，皆当虑及。此其八。
我作唐诗文本，几乎每一处选择都必须考虑多层交叉关系。比如花蕊夫人，是前蜀王建妃徐氏还是后蜀孟昶妃费氏，王建妃为姐还是妹，《全唐诗》其名下诗词160多首，必须逐首鉴别，区别处理。虽然大端浦江已经梳理清楚，重新写定仍然头绪众多。我近年一直认为每一位诗人、每一首唐诗都有其流传史，利用检索可以增加一些线索，但最终写定还需要多种手段。此其九。
今人喜欢讲学术前沿，还有国内国际的区别，我则始终不乐观。国际化已然大势所趋，局处一隅自成方圆何谈领先。我在香港、台湾地区和日本任教访学期间，曾彻底通阅过几个大馆的藏书和旧期刊，改变了自己的盲目。即便国内公开学术出版物而不能进入检索系统者，数量也极大。此其十。
因此，到现在为止，我的唐诗文本研究仍坚持以传统阅读为主，以数码检索为辅。利用善本，逐行逐句掐紧，不敢丝毫放松。举戴叔伦诗来说，在前数码时代，蒋寅《戴叔伦集校注》存真184首，断伪56首，存疑60首；后数码时代，存疑9首可断伪，1首可信真，仍有50首存疑。慢慢来吧！

10楼2014-12-06 00:11

(作者为复旦大学中文系教授)

11楼2014-12-06 00:12

日	一	二	三	四	五	六

[蠹·文摘] 文汇报：当乾嘉学派遇上互联网

登录百度账号

扫二维码下载贴吧客户端