首页 >> 社科评价 >> 文献计量
关注经典作品语料 描绘语言历史面貌
2019年07月17日 11:34 来源:中国社会科学网-中国社会科学报 作者:衣莉 方圆 兰婧晰 字号

内容摘要:

关键词:

作者简介:

  汉语中不少词有“长—短”两种形式,如“老虎”可以称为“虎”。郭绍虞将其称为弹性词。前人相关研究大都针对现代汉语语料,且一般认为在古代汉语中,单音节词是话语的主流。对此,我们提出这样的问题:在古代汉语中是否存在大量双音节词;如果存在,这些双音节词的弹性如何。 

  宏观研究可从局部着手 

  古代汉语所涵盖的时间跨度很大,要在这个大框架下直接讨论此话题是不容易的,因此应考虑从一部具有代表性的作品着手。这样,一方面框定出研究的边界,使我们能够在一个相对较小的范围内展开对弹性词的研究;另一方面发挥典范之作的反推效力,从而“窥一斑而知全豹”。 

  基于此,在浏览大量的古代文献后我们发现,在唐诗中,有些用单音节词就足以表达意义的地方,却出现了双音节词,而且二者基本形成弹性对应。例如《静夜思》,其实可以删减为:“床前月光,疑是地霜。举头望月,低头思乡。”这里“明月—月”“地上—地”“故乡—乡”三组词要么是基本语义相同或相近,比如“故乡—乡”,要么是多余部分不提供明确语义,比如“地上”的“上”,同时,对应的两个词可以做到同义互换。根据黄丽君、端木三考察的长短词(弹性词)的类型,上面的三组词均满足成为弹性词的条件。所以,我们决定以唐诗选集的代表作——清代孙洙辑选的《唐诗三百首》(以下简称《唐三百》)这个有限的、封闭的数据库集合为研究对象。 

  经典作品集中体现语言时代特点 

  《唐三百》正文共18470字,其中出现双音节词3560次(同一个词出现在不同的诗中会重复计算)。我们将《唐三百》中的诗进一步划分为五言和七言,并分别对其制作关键词云图发现,五言和七言诗共享了“万里”“明月”“琵琶”等关键词,这些双音节词的使用不因诗句长短的变化而变化,为我们在《唐三百》的整体框架下讨论其中双音节词和弹性词的对应关系提供了有效的语料依据。 

  通过标注,我们将这些双音节词分为三大类:中心词在左、中心词在右、中心词左右等分。中心词在左的双音节词数量最少,只出现了67次。它还可以分为两个小类:“中心词+然”、“中心词+方位”。中心词在右的双音节词数量最多,出现了2258次。它还可以进一步分为九类:“虚词+中心词”,其中“相+中心词”出现频率最高;“方位+中心词”;“数词+中心词”,数字从一到十都出现过;“颜色+中心词”;“时间+中心词”;“名词+名词”,右面的名词更强;“形容词+名词”;“副词/名词+动词”;“动词+名词”。中心词左右等分的双音节词包含三类:叠音词;前后字意义相近或相同(包括双音节单语素词);前后字意义相反,其中 “天地”一词出现的频率最高。最后还有一类关于地名、人称等的专有名词,我们将这一类也归入“中心词左右等分”的范畴中。虽然这些词在早期也有左右中心的区别,但当它们成为专有名词的时候,左右中心的区别变得越来越不明显。 

  按照黄丽君和端木三对弹性词的分类,第一类是两词有相同语素(同源、同音、同词类)。《唐三百》中,中心词左右等分的双音节叠词就属于最典型的弹性词。 

  第二类弹性词是基本语义相同或相近,如所指相同,词典互注,这类词中前后两个字互相修饰,比如“草木”,既可以是“草”,也可以是“木”。除此之外,我们将“前后两字意义相反”也归入这一类弹性词中。虽然意义相反,但其中一个字实际上是为了衬托另一个字而出现的。 

  第三类弹性词是长词的多余部分,不提供明确语义。比如,“残月”和“明月”虽然都是“形容词+中心词”,但“明月”可以看成弹性词,“残月”却不行。这就要从语义的角度来谈了。这种结构的弹性词,可以暂定为不典型的弹性词。 

  经过统计我们发现,《唐三百》中弹性明显的词共1593个,占双音节词总数的45%,接近一半。由此,我们可以得出这样的结论:唐诗中存在大量双音节词,其中不少是弹性词。这些弹性词表明,早在古代,汉语中就出现了韵律和形态互动的现象,韵律不仅是现代汉语的一种形态特征,也是古代汉语的一种形态特征。 

  多学科交叉推进语言学研究 

  回顾整个研究进展,我们先是在梳理前人文献的过程中发现并提出问题,开创性地把古代汉语和弹性词放在同一水平面上进行探讨,然后缩小研究范围,将目光锁定在唐诗上面,进而确立《唐三百》为研究对象。接下来,我们根据研究内容制定了相应的研究方案,有目的地选取了穷举、统计分析、归纳等处理数据的方法,并以Excel、Xmind、Wordle等工具作为辅助手段,将研究方案逐条加以实现,得出《唐三百》的总行数和总字数;筛选并标注出所有的双音节词;用Wordle生成关键词云图;“按图索骥”对比云图的异同作为语料研究的依据;熟练运用Excel工具栏完成词的筛选分类、词频统计以及加减乘除等运算;通过“拆分法”判断词的弹性强弱进而“合并同类项”;统计出弹性明显的词的总数和所占比例;最后验证假设为真,结论即为假设的内容。 

  在筛选双音节词时,我们选用了穷举法。这种方法操作起来非常简单,即把所有连在一起的两个字都从诗句中挑出来,诗句在这里是原始材料,而第一次挑出来的“两个字”则是等待筛选的初加工材料。然后我们对这些初加工材料进行再加工,筛出无法成词的“字字组合”,留下的即为可以成词的“词组”,即合格的双音节词,将它们作为研究的语料。这样通过穷尽所有的“两个字”来挑出双音节词的方法,虽然耗时耗力,但胜在方法简单,可收集到的数据量也足够庞大。而庞大的数据量,正是我们研究可信度和准确度的可靠保障。 

  然后,就是“按图索骥”环节。双音节词的使用显然会受到韵律形态的影响,那么在无法排除“诗句长短对双音节词的使用没有影响”的情况下,我们就要将诗句长短纳入考量,证明其与双音节词的使用无关。只有证明没有影响,即五言和七言诗共享双音节词的情况下,后续问题才能在整个《唐三百》的框架下被研究。 

  接着我们用“拆分法”来分析判断词的弹性强弱。“拆分法”是研究弹性词常用的方法。把双音节词拆分为两个单字的过程中,可以明显感觉到单字和词组在含义的表达方面有无差异、差异大小。这样就可以判断出一个词是典型的弹性词还是不典型的弹性词。 

  最后,我们用“合并同类项法”,将弹性程度相近的词类合并。之前进行的工作都是由整体到局部,而这步是由局部到整体,其中体现出“归纳研究”的思想。我们希望从研究中得出一个复合型结论,而不是分散型结论。 

  总之,有目的地选择和使用多种研究方法,会大大提高研究的效率和准确率。 

  语言学研究从来不是孤立的。它既需要其他学科研究方法的支持,又需要多种计算机技术作为辅助。可以说,语言学是一门站在其他学科肩膀上不断成长起来的学科。 

  另外,我们也希望通过这篇文章给语言学研究者们提供这样一个思路:如果从大处不好下手,不妨换个思路,从小处着手,以小见大。《唐三百》就是例子。但同时我们不要忽视,《唐三百》虽是唐诗的典范之作,但与古代汉语整个冰山比起来,还不到一角。未知的远远比我们想象的还要多,而它们都等待也正在被发现。 

  (本文系国家社科基金一般项目“西北三声调方言的连字调研究”(17BYY074)阶段性成果) 

  (作者单位:中国农业大学人文与发展学院;北京外国语大学英语学院) 

作者简介

姓名:衣莉 方圆 兰婧晰 工作单位:中国农业大学人文与发展学院;北京外国语大学英语学院

课题:

本文系国家社科基金一般项目“西北三声调方言的连字调研究”(17BYY074)阶段性成果

转载请注明来源:中国社会科学网 (责编:赛音)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们