《红楼梦》等名著作者是谁?让数学来证明
《红楼梦》是一人所作?
《红楼梦》成书迄今已逾200年,作为中国最重要的一部小说,它不仅感动了中国人,也得到其它民族的重视与喜爱。《红楼梦》有各种不同的版本,数十种续书,流传到世界各国,被翻译成各种文字,透过不同的文字翻译,感动了不同民族的人民。
长期以来,人们普遍认为曹雪芹只写了《红楼梦》的前80回,后40回是高鹗续写,但数学统计进入文学领域后,这个定论遭到了计算机的质疑。1981年,首届国际《红楼梦》研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词汇上的统计论〈红楼梦〉作者的问题》的论文,首次借助计算机进行《红楼梦》研究,轰动了国际红学界。陈炳藻从字、词出现频率入手,通过计算机进行统计、处理、分析,对《红楼梦》后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。
语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现。这种风格可以在一定程序上通过数量特征来刻画。例如,句长和词长可以代表作者造词句的风格,当然,反映作者风格的不是单个词的词长和单个句子的句长,而是以一定数量的语料为基础的平均句长和平均词长;此外,字、词在作品中出现的频率也是个人风格的体现。利用计算机计算一部作品或作者平均词长和平均句长,对作品或作者使用的字、词、句的频率进行统计研究,从而了解作者的风格,这被称之为计算风格学。计算风格学现在在社会科学领域成为一门饶有兴味的学科,尤其在判断作者真伪,考证作者疑难方面更是大显身手。
让佚名作现身
“作者考证”有时是一个很困难的问题,计算风格学可被应用来解决这种问题。我们看看两个例子。
出现于16世纪90年代的一部五幕剧《爱德华三世》,表现了14世纪英王爱德华三世统治时期勇武的骑士精神。但该剧作者究竟是谁,戏剧界争论了几百年。不久前,通过电脑对该剧的语言风格进行分析,莎翁作品的权威机构——阿顿公司正式确认,《爱德华三世》是莎士比亚的一部早期作品。莎剧专家说,这部作品本身所表现出的深刻人性、博大精神和文辞语言的华丽无可辩驳地“用莎士比亚自己的声音”证明了它的来源。
1964年,美国统计学家摩斯泰勒和瑕莱斯考证了12篇署名“联邦主义者”的文章作者,可能的作者是两个人,一个是美国开国政治家汉密尔顿,另一位是美国第四任总统麦迪逊。究竟是哪一位呢?统计学家在进行分析时发现汉密尔顿和麦迪逊在已有著作中的平均句长几
乎完全相同。这使得这一能反映写作风格特征的数据此时失效了。于是,统计学家转而从用词习惯上来找出这两位作者的有区别性的风格特征,而且终于找到了两位作者在虚词的使用上有明显的不同。汉密尔顿他已有的18篇文章中,有14篇使用了“enough”一词;而麦迪逊在他的14篇文章中根本未使用“enough”一词。汉密尔顿喜欢用“while”,而麦迪逊总是用“whilst”。汉密尔顿喜欢用“upon”,而麦迪逊很少用。然后,再把两位可能的作者的上述风格特征指标,与未知的12篇署名“联邦主义者”的文章中表现出来的相应的风格特征进行比较。结果发现那位署名“联邦主义者”的作者就是美国第四任总统麦迪逊。这样就了结了这一考据学上长期悬而未决的公案。两位统计学家所使用的数学方法也得到了学术界的好评。