作者:天涯飞鸿
摘要:2008年,网络上出现了一部《石头记》本子,此本共108回,被红学爱好者称为癸酉本或吴氏石头记。此本后28回故事情节极其令人震惊,与原《石头记》前80回情节对榫。然而,红友们对于这个本子的真伪却莫衷一是。本文拟利用多种人工智能大数据软件配合人工方法,对原《石头记》80回文本和吴氏石头记后28回文本进行词频分析,比较二者异同,结果我们发现两个版本在高频词的运用上有相当程度的一致性,个别较低频的特色词也在两个版本都有出现,但确有个别高频词和特色词在对方版本中出现频率极低,甚至完全没有,如"所以"、"可巧"等词。结论:《石头记》成书是个比较复杂的过程,可能有多人参与创作,“曹雪芹”是化名,他是其中一个重要的增删者。原《石头记》80回和吴氏石头记并非同一个人所作,然而两个本子可能源于一个共同的母本,吴氏石头记就是一个较早的版本。
关键词:癸酉本,吴氏石头记,《石头记》,词频,相关性
一,《红楼梦》及红学两大派别
《红楼梦》原名《石头记》,是中国古典文学的巅峰之作。一般认为,《红楼梦》的作者是清代作家“曹雪芹”。该书历史上流传下来很多版本,其中学界一般认为120回通行本的后40回不是“曹雪芹”的原著,而是后人的续作,但也有不同看法。一部没有最终结局的《红楼梦》引起了学界几百年的争论:《红楼梦》这部书到底创作的宗旨是什么?要表达什么思想?书中人物的结局分别是什么?由此还发展出一门红学。主要观点有两派:1,考证派。运用杜威实证主义方法,注重考证曹雪芹家事、《红楼梦》版本和成书过程。认为《红楼梦》是一部自传体小说,反映的是江宁织造曹家的兴衰史。这个学派的主要代表人物有胡适、周汝昌等。2,索隐派。又称政治索隐派。透过书中的谐音、拆字、藏头、谜语、谶纬等线索,用历史上或传闻中的人和事去考索《红楼梦》,考索出“所隐之事,所隐之人”。例如蔡元培先生的“吊明之亡,揭清之失”的观点。应该说上个世纪考证派是一个主流派别,索隐派被边缘化。
二,吴氏石头记及其来历
2005年刘心武先生在百家讲坛揭秘《红楼梦》,认为《红楼梦》是暗喻康雍乾三朝的宫廷政治斗争以及曹家在这场斗争中的家族兴亡史。2008年有一个网名叫何莉莉(又名赵文夕)的网友在网上公开了一个抄录本,就是后来被称作癸酉本或者吴氏石头记的第81回至108回,写的是原80回《石头记》后来的故事,有完整的回目和回前诗,情节出乎所有人的预料,但却和前80回的批语透漏出的人物故事结局高度吻合,也印证了蔡元培先生的排满之说,即明写青年男女的爱情故事及家族的兴衰,实际上是暗喻明清交际改朝换代的历史。为什么把此版本称为癸酉本或吴氏石头记呢,那是因为在此版本的最后一回结尾出现了这么一段批语:“本书至此告终,癸酉腊月全书誊清。梅村夙愿得偿,吾所受之托亦完。若有不妥,俟再增删之。虽不甚好,亦是尽心,故无憾矣。”从而可以得知此书的落款时间为癸酉年,故名"癸酉本";而批语中的梅村是指吴梅村(明末清初著名诗人,文学家),即本书的原作者,故又称“吴氏石头记”。此版本在社会上引起了轩然大波,支持者认为这才是《红楼梦》的真实结局,和前80回的情节遥相呼应堪称完美。但很快就有人指出该版本中很多诗词质量低劣,且文风和前80回迥然不同还夹杂着大量现代词语。何莉莉则解释目前发布的文字是其姐姐从原本上过录下来的,其姐姐文化水平不高,在抄写过程中对原文进行了相当程度的删改。后又有人指责上述关键批语是伪造等等,一时众说纷纭。目前主流红学界对此版本大都保持沉默,也有的持否定态度。
三,本研究的目的和使用的方法
面对这个有种种缺陷的吴氏石头记,我们想分析它的真伪肯定有相当的难度。我们采用的方法是考察吴氏石头记后28回的文字和原《石头记》前80回的文字相关性,即使用人工智能的词频统计软件对前后两部分高频词进行统计,比较两部分高频词使用状况的异同。另外我们也考察了一些特色词在两个版本中的出现情况。最后再综合分析给出一个客观的结论。
四,版本的选取
《红楼梦》的版本众多,版本之间的文字都稍有差异,我们在网上找了一个不带批语的120回通行本(人民文学出版社 1987.4),我们截取了前80回的文本,作为底本。然后为了慎重起见我们又找了一个带批语的《石头记》版本,也一并作为分析的底本。吴氏石头记的选取,最新一版的吴氏石头记和原版本的文字变异较大,综合考虑我们还是选取了比较忠实于吴氏石头记最初原貌的一个早期电子版本作为底本(出版人:金俊俊,何玄鹤)。
五,词频统计软件的选取
我们在网上查询了多家在线词频统计系统,各家的统计原理不尽相同,结果也有一定的差异,最后选取了两家,一个是图悦在线词频统计,它除了能统计词频还可以统计权重;另外一个就是sco在线词频查询,它的分词方式和图悦有差别,它会把两个字的词和包含这两个字的三字词分开统计,但它的优点是除了统计词频,还能统计出现率。最后我们把图悦作为我们的主要统计工具,sco作为补充工具。
六,词频统计结果及分析
首先我们要明确的是三个版本的字数规模,吴氏石头记后28回大约在21.8万字左右,不带批语的通行本80回约62.55万字,带批语的80回有71.8万字左右,也就是说吴氏石头记的正文大约是前80回正文的三分之一左右,那么吴氏石头记词频如果为前80回正文三分之一左右属高度相关,但可能受情节变化等因素的影响,一些词频可能有比较大的变化,我们为慎重起见,把吴氏石头记的词频高于前80回本词频六分之一规定为正常,低于六分之一为异常。
首先,脂批本有很多批语的专用词,如甲戌、庚辰这样的表达时间的词,这些词和不带批语版本进行比较是无意义的。另外表格里人名占了很大一部分,而且随着情节的变化,人名的频次和权重发生变化这是很正常的,所以我们把上述高频词分门别类进行比较,去掉无比较意义的批语专用词,把人名专用词和非人名词分开比较,以便观察各版本的分布特点。三个版本的人名和特指专人名词因为表格不能太长,只取6个分析如下:
三本人名高频词统计表(部分)
摘要:2008年,网络上出现了一部《石头记》本子,此本共108回,被红学爱好者称为癸酉本或吴氏石头记。此本后28回故事情节极其令人震惊,与原《石头记》前80回情节对榫。然而,红友们对于这个本子的真伪却莫衷一是。本文拟利用多种人工智能大数据软件配合人工方法,对原《石头记》80回文本和吴氏石头记后28回文本进行词频分析,比较二者异同,结果我们发现两个版本在高频词的运用上有相当程度的一致性,个别较低频的特色词也在两个版本都有出现,但确有个别高频词和特色词在对方版本中出现频率极低,甚至完全没有,如"所以"、"可巧"等词。结论:《石头记》成书是个比较复杂的过程,可能有多人参与创作,“曹雪芹”是化名,他是其中一个重要的增删者。原《石头记》80回和吴氏石头记并非同一个人所作,然而两个本子可能源于一个共同的母本,吴氏石头记就是一个较早的版本。
关键词:癸酉本,吴氏石头记,《石头记》,词频,相关性
一,《红楼梦》及红学两大派别
《红楼梦》原名《石头记》,是中国古典文学的巅峰之作。一般认为,《红楼梦》的作者是清代作家“曹雪芹”。该书历史上流传下来很多版本,其中学界一般认为120回通行本的后40回不是“曹雪芹”的原著,而是后人的续作,但也有不同看法。一部没有最终结局的《红楼梦》引起了学界几百年的争论:《红楼梦》这部书到底创作的宗旨是什么?要表达什么思想?书中人物的结局分别是什么?由此还发展出一门红学。主要观点有两派:1,考证派。运用杜威实证主义方法,注重考证曹雪芹家事、《红楼梦》版本和成书过程。认为《红楼梦》是一部自传体小说,反映的是江宁织造曹家的兴衰史。这个学派的主要代表人物有胡适、周汝昌等。2,索隐派。又称政治索隐派。透过书中的谐音、拆字、藏头、谜语、谶纬等线索,用历史上或传闻中的人和事去考索《红楼梦》,考索出“所隐之事,所隐之人”。例如蔡元培先生的“吊明之亡,揭清之失”的观点。应该说上个世纪考证派是一个主流派别,索隐派被边缘化。
二,吴氏石头记及其来历
2005年刘心武先生在百家讲坛揭秘《红楼梦》,认为《红楼梦》是暗喻康雍乾三朝的宫廷政治斗争以及曹家在这场斗争中的家族兴亡史。2008年有一个网名叫何莉莉(又名赵文夕)的网友在网上公开了一个抄录本,就是后来被称作癸酉本或者吴氏石头记的第81回至108回,写的是原80回《石头记》后来的故事,有完整的回目和回前诗,情节出乎所有人的预料,但却和前80回的批语透漏出的人物故事结局高度吻合,也印证了蔡元培先生的排满之说,即明写青年男女的爱情故事及家族的兴衰,实际上是暗喻明清交际改朝换代的历史。为什么把此版本称为癸酉本或吴氏石头记呢,那是因为在此版本的最后一回结尾出现了这么一段批语:“本书至此告终,癸酉腊月全书誊清。梅村夙愿得偿,吾所受之托亦完。若有不妥,俟再增删之。虽不甚好,亦是尽心,故无憾矣。”从而可以得知此书的落款时间为癸酉年,故名"癸酉本";而批语中的梅村是指吴梅村(明末清初著名诗人,文学家),即本书的原作者,故又称“吴氏石头记”。此版本在社会上引起了轩然大波,支持者认为这才是《红楼梦》的真实结局,和前80回的情节遥相呼应堪称完美。但很快就有人指出该版本中很多诗词质量低劣,且文风和前80回迥然不同还夹杂着大量现代词语。何莉莉则解释目前发布的文字是其姐姐从原本上过录下来的,其姐姐文化水平不高,在抄写过程中对原文进行了相当程度的删改。后又有人指责上述关键批语是伪造等等,一时众说纷纭。目前主流红学界对此版本大都保持沉默,也有的持否定态度。
三,本研究的目的和使用的方法
面对这个有种种缺陷的吴氏石头记,我们想分析它的真伪肯定有相当的难度。我们采用的方法是考察吴氏石头记后28回的文字和原《石头记》前80回的文字相关性,即使用人工智能的词频统计软件对前后两部分高频词进行统计,比较两部分高频词使用状况的异同。另外我们也考察了一些特色词在两个版本中的出现情况。最后再综合分析给出一个客观的结论。
四,版本的选取
《红楼梦》的版本众多,版本之间的文字都稍有差异,我们在网上找了一个不带批语的120回通行本(人民文学出版社 1987.4),我们截取了前80回的文本,作为底本。然后为了慎重起见我们又找了一个带批语的《石头记》版本,也一并作为分析的底本。吴氏石头记的选取,最新一版的吴氏石头记和原版本的文字变异较大,综合考虑我们还是选取了比较忠实于吴氏石头记最初原貌的一个早期电子版本作为底本(出版人:金俊俊,何玄鹤)。
五,词频统计软件的选取
我们在网上查询了多家在线词频统计系统,各家的统计原理不尽相同,结果也有一定的差异,最后选取了两家,一个是图悦在线词频统计,它除了能统计词频还可以统计权重;另外一个就是sco在线词频查询,它的分词方式和图悦有差别,它会把两个字的词和包含这两个字的三字词分开统计,但它的优点是除了统计词频,还能统计出现率。最后我们把图悦作为我们的主要统计工具,sco作为补充工具。
六,词频统计结果及分析
首先我们要明确的是三个版本的字数规模,吴氏石头记后28回大约在21.8万字左右,不带批语的通行本80回约62.55万字,带批语的80回有71.8万字左右,也就是说吴氏石头记的正文大约是前80回正文的三分之一左右,那么吴氏石头记词频如果为前80回正文三分之一左右属高度相关,但可能受情节变化等因素的影响,一些词频可能有比较大的变化,我们为慎重起见,把吴氏石头记的词频高于前80回本词频六分之一规定为正常,低于六分之一为异常。
首先,脂批本有很多批语的专用词,如甲戌、庚辰这样的表达时间的词,这些词和不带批语版本进行比较是无意义的。另外表格里人名占了很大一部分,而且随着情节的变化,人名的频次和权重发生变化这是很正常的,所以我们把上述高频词分门别类进行比较,去掉无比较意义的批语专用词,把人名专用词和非人名词分开比较,以便观察各版本的分布特点。三个版本的人名和特指专人名词因为表格不能太长,只取6个分析如下:
三本人名高频词统计表(部分)