英语学习者与本族语者议论文词块的结构与功能特征*
———基于语料库的对比研究
胡元江1石海漫1季
萍2
(1.南京工业大学外国语学院,江苏南京211800;2.上海建桥学院,上海201306)
摘
要:本研究对比分析了学习者与本族语者语料库中三词词块的结构和功能特征。研究发现,英语专业一、二、三年级学
生使用的词块量均明显多于本族语者。三个年级共享词块约为2/3,而目标词块的输出仅为约1/3。学习者更多地依赖非目标词块表达各语用功能。本族语者与学习者产出的词块以动词类为主,其次为名词类和介词类,且均主要表达组篇和指示功能。本族语者带be 动词的短语片段产出最多;而各年级学习者带be 动词的短语片段和代词/名词+其他动词片段的产出均较多。四库共享词块主要表达组篇功能的话题阐明(说明)和指示功能的识别(聚焦),并主要通过动词类词块实现。关键词:学习者;本族语者;词块;结构;功能中图分类号:H319
文献标识码:A
文章编号:1005-7242(2017)04-0058-05
0.引言
笔语中的词块研究已成为二语写作和语料库语言
学研究领域的重要内容。作为整体储存、
识别和提取的语言单位(胡元江2011),词块可提高理解速度以及产
出流利度(曹宇,文秋芳,张钫炜2016
),因而在语言产出中发挥着重要作用。词块是预测写作水平高低的指标之一,也是区分新手与专家作者的标准之一(Hyland 2008a )。关于词块的定义有50多个术语,如词汇化句段
(lexicalized ntence stem
)、多词单位(multiword unit )、预制模块(prefabricated pattern )、语块(formulaic
quencecaprice
)、搭配(collocation )、词块(lexical bundle )等(Wray 2002:9;胡元江,娄喜祥2011)。这些定义可归结为从形义结合体角度基于短语学的定义(Wray 2002:9)和从词频角度基于语料库语言学的定义(Biber et al.1999;李德俊2014)两个维度(胡元江2015)。本研究中对词块的定义属于第二个维度,即将词块界定为在特殊语域中,按照特定频率和文本分布的标准,高频出现的
三词或多词序列(Biber et al.1999
)。1.研究背景近年来,研究者们越来越重视学习者与本族语者笔语中词块使用的对比研究,并取得了一些进展。其中包括对学习者和本族语者词块使用特征的比较(魧del &Erman 2012;Chen &Baker 2010;马广惠2009),不同语言水平学习者的词块特征比较(Staples et al.2013),以及本族语者与非本族语者期刊论文的比较(Pan et al.2016;R 觟mer 2009;潘璠2016)。此外,学科、体裁等因素对词块分布的影响也受到关注(Biber et al.2004;Grabowski 2015;Hyland 2008b )。研究表明,非本族语者与本族语者的常用词块在结构和功能上均存在差异
(Chen &Baker 2010;
R 觟mer 2009),这些差异制约着学习者语言产出的质量。但是,以往研究中尚缺乏对各阶段英语学习者与本族语者笔语词块在结构和功能特征方面的对比研究。因此,本研究通过语料库对比的方法,从结构和功能两个方面对比分析英语专业一、二、三年级与英语本族语者议论文三词词块的具体特点。
本研究以Biber et al.(1999)的词块结构分类和Biber et al.(2004)的功能分类为理论框架。Biber et al.(1999)根据语料分析结果,把学术书面语中的词块从结构上分为12类:(1)名词短语+of 短语片段;(2)名词短语+其他后修饰语片段;(3)介词短语+嵌带of 短语片段;(4)其他介词短语片段;(5)先行词it+动词短语/形容词短语片段;(6)被动动词+介词短语片段;(7)系动词be+名词短语/形容词短语片段;(8)(动词短语+)that 从句片段;(9)(动词/形容词+)to 从句片段;(10)副词从句
片段;(11
)代词/名词短语+be (+...)片段;(12)其他形式①。Biber et al.(2004)以课堂话语、教材、日常会话和学术语篇为语料,按语篇和语用功能将词块分成四类,即立场词块、组篇词块、指示词块和会话专用词块。本研究不含会话专用词块,只涉及前三个功能。立场词块表达愿望、责任、指令、意图、能力等态度,如be able to 、I don ’t know 等,可分为认知立场和态度情态立场;组篇词块表达话题引出、聚焦、阐述、说明等,用于建立上下文关系,如(on )the other hand 、as well as 等,可分为话题引出(聚焦)和话题阐述(说明);指示词块直接涉及实体或抽象
*本研究为教育部人文社科研究项目(编号:12YJC740033)、江苏省高校“青蓝工程”优秀青年骨干教师(苏教师﹝2014﹞23号)、江苏省
高等教育教改研究重点课题(编号:2015JSJG459)的阶段性成果。
2017,No 4Serial No 164
2017年第4期总第164期
外语研究
Foreign Languages Rearchtaper是什么意思
58··
体,表达识别、模糊、属性、时空、文本指示等,可分为3个子类:识别(聚焦)、属性规范和时空(文本指示),如in the world、in the past(Biber et al.2004)。
2.研究设计
2.1研究问题
fulltest
本文采用语料库对比的方法,具体考察两个问题:(1)不同年级中国英语学习者议论文词块的结构特征与本族语者相比,有何异同?(2)不同年级中国英语学习者议论文词块的功能特征与本族语者
相比,有何异同?
2.2研究语料
本研究学习者语料来自文秋芳等(2008)的中国学生英语口笔语语料库SWECCL2.0的笔语子库。语料来源于国内9所高校的1-4年级英语专业学生。本研究提取一二三年级的议论文作为学习者语料库。三库库容均为约22.8万。参照语料来自LOCNESS。该库是由比利时Louvain大学Sylvine Granger教授主持建立的一个英美大学生作文语料库,约32万余词。本研究提取该库的议论文,约22.8万词,作为参照语料库。四库库容相当,具有可比性。
2.3词块提取
首先进行数据清理与词形还原,共分为四步:(1)手动清除标题之类的无效信息;(2)使用Textforever 软件和编辑正则表达式批量处理有规律的无效信息;(3)使用削尾软件CST’s Lemmatizer词形还原;(4)用Textforever批量替换词块提取软件无法识别的部分文本内容,如基于软件自身的提取特点和局限,统一助动词否定形式等。然后利用AntConc3.4.4软件分别提取四个语料库中的三词词块。本研究采取较为保守的提取标准,即提取频点设为30次/mw,同时至少在5个文本中出现。然后手动删除与主题相关的词块。
3.结果和讨论
3.1四库词块的总体比较
本族语者最终提取了72个词块。一二三年级学习者最终提取的词块总数分别为144、124和121个。三个年级学习者使用的词块数量均明显多于本族语者,且一年级最多。这与以往研究一致(Pérez-Llantada2014;Staples et al.2013)。Pérez-Llantada(2014)发现高水平二语学习者使用的笔语词块并未遵循本族语者的词块使用特征。Staples et al.(2013)的研究也显示,低水平学习者使用的笔语词块多于高水平学习者。但以往研究并未对词块在结构和功能特征的差异方面进行深入的对比研究,这些具体差异将在以下几节中详细探讨。本族语者使用的词块为理想二语学习者应该掌握的词块,被称为“目标词块”(胡元江2015;马广惠2009)。本研究采用对数似然率(Log-likelihood Ratio)对四库中词块出现的频次进行了差异检验。图1为四库比较的结果:一二三年级目标词块的产出量分别为21、23和26个,其中与本族语者无显著差异的目标词块数均为11个。三个年级产出的约2/3词块为共享词块。一二年级达到提取频点的共享词块为95个,其中81个无显著差异;一三年级达到提取频点的共享词块为86个,其中68个无显著差异;二三年级达到提取频点的共享词块为85个,其中69个无显著差异。
3.2四库词块的结构分类比较
3.2.1本族语者词块结构特征
基于Biber et al.(1999)的词块结构分类标准,并参考马广惠(2009)和胡元江(2015)的研究,基于原分类的词性并把从句类统一归类,对提取的词块进行了重新分类。共分为五类:(1)基于动词短语的动词类词块,如there be many、to communicate with等;(2)基于名词短语的名词类词块,如a lot of、the u of等;(3)基于介词短语的介词类词块,如as a result、in the world等;(4)基于从句片段的从句类词块,如that it be等;(5)少量不属于以上四类的词块(如as well as)归为“其他类词块”。动词类词块包括任何含有动词成分的词语组合,名词类词块和介词类词块分别包含所有的名词短语和介词短语(Chen&Baker2010)。本研究中达到提取频点的从句类词块主要包含that从句片段和状语从句片段。
在72个目标词块中,动词类词块是本族语者产出最多的一类,共31个,约占总词块数的43%。这些词块中,动词类有5个子类:(1)代词/名词+be片段,如it be a、it would be等;(2)be+名词(介词/形容词)短语片段,如be able to、be the most等;(3)代词/名词+其他动词片段,如I don’t think、we have to等;(4)to do短语片段,如to be a、to get a等;(5)其他动词短语片段,如take care of、pay attention to等。本族语者动词类词块一个突出的特征是带be动词的短语片段较多,共25个,主要涉及there be+NP、it be+NP、be+VP、be+AP、be+PP、
NP 图1:四库共享词块差异比较
注:①显著性水平为.05;②前三个柱表示学习者与本族语者目标词块的比较;③后三个柱表示学习者两两年级间比较。
59
··
图2:
voter
学习者各类型词块产出比例表图3:四库各结构类型目标词块产出比例表
+be和to+be等结构。代词/名词+其他动词片段次之,共4个,如I feel that、I think that。名词类词块占本族语者总词块数的约25%(共18个)。名词类词块为名词短语+介词短语片段或+其他后修饰语片段。该类目标词块中有14个NP+of结构,如a lot of、all of this。介词类词块共13个,约占总词块数的18%,以in+NP结构居多,如in the world、in the past。从句类词块的占比约11%(共8个)。该类词块以that从句片段居多;其余为条件、让步状语从句片段,如if there be、as it be。其他类词块仅2个:as well as和more and more。
3.2.2英语学习者词块结构特征
学习者三个年级产出的达到提取频点的共享词块有76个。如图2所示,动词类词块占比最大,达到44%,共33个,包括12个代词/名词+其他动词类片段、8个代词/名词+be片段、4个be+名词(介词/形容词)短语片段、5个其他动词片段和4个to do短语片段。名词类词块占比22%,共17个,包括12个名词短语+介词短语片段和5个名词短语+其他后修饰语片段。介词类词块占21%,共16个。从句类词块占8%,共6个。其他类词块占5%,共4个。
在两库共享词块方面,一二、一三和二三年级产出的共享词块中,动词类词块均最多,分别为43、41和37个,分别占各组共享词块总数的45%、48%和43%。其中,代词/名词+其他动词片段数量最多,
三个共享组分别为15、13和13个;代词/名词+be片段次之,分别为9、9和8个;其他动词短语片段分别为8、7和7个;to do 短语片段分别为5、7和5个;be+名词(介词/形容词)短语片段分别为6、5和4个。一二、一三和二三年级产出的共享词块中名词类词块数量分别为20、18和20个,分别占三组共享词块总数的21%、20%和24%。其中,名词短语+介词短语片段最多,三个共享组分别为14、13和13个;名词短语+其他后修饰语片段次之,分别为6、5和7个。一二、一三和二三年级的共享词块中介词类词块数量分别为17、17和18个,分别占三组共享词块总数的18%、20%和21%;从句类共享词块数分别为11、6和6个,分别占三组共享词块总数的12%、7%和7%;其他类共享词块数均为4个,数量最少。
陌上桑翻译3.2.3英语学习者与本族语者词块结构特征对比
本族语者和各年级学习者产出的目标词块数量及比重均呈现出相同的特征,即动词类最多,其次为名词类和介词类,而从句类和其他类词块最少(见图3)。一二三年级目标词块的产出量分别为21、23和26个,其中动词类分别为9、11和11个,占各自年级目标词块产出总数的43%、48%和42%。其中,代词/名词+be片段数量最多,三个级分别为5、6和6个。三个年级产出的名词类目标词块数均为4个,分别为三个年级目标词块产出总数的19%、17%和15%。三个年级名词类目标词块的产出具有共性,均为3个名词短语+介词短语片段和1个名词短语+其他后修饰语片段。一二三年级产出的介词类目标词块数分别为5、5和7个,数量仅次于动词类词块,分别为三个年级目标词块产出总数的24%、22
%和27%;从句类目标词块数分别为1、1和2个,总数最少;其他类目标词块数均为2个。
学习者产出的达到提取频点的目标词块可视为已习得词块。但是,这些词块中能完全达到本族语式自动化产出能力的应为与本族语者无显著差异的词块。通过运用对数似然率(显著性水平.05),本研究发现,这些词块以动词类为主,其他类词块则数目极少。一年级有8个动词类词块与本族语者无显著差异,其中代词/名词+ be片段5个,代词/名词+其他动词片段1个,to do短语片段2个。二年级有9个动词类词块与本族语者无显著差异,以代词/名词+be片段为主,共6个。三年级有7个动词类词块与本族语者没有显著差异,其中代词/名词+ be片段5个,to do短语片段2个。
四库产出的共享词块17个。其中,动词类词块最多,共7个,约占共享词块总数的41%,包括5个代词/名词+be片段、1个to do短语片段和1个be+名词短语片段。名词类词块共3个,约占共享词块总数的18%。介词类词块、从句类词块和其他类词块数量分别为4、1和2个,分别约占共享词块总数的23%、6%和12%。一三年
60··
级达到提取频点但二年级没有达到提取频点的目标词块有8个:动词类5个、名词类2个、介词类1个。二三年级达到提取频点但一年级没有达到提取频点的目标词块共8个:动词类4个、名词类2个、介词类2个。
有道翻译在线翻译英语3.3四库词块的功能分类比较
3.3.1本族语者词块功能特征
本族语者立场词块数为10个,约占总词块数的14%。其中,认知立场2个:I think that和I feel that;态度情态立场8个,如have the right、be allow to、it would be、need to be、would have to等。组篇词块数为32个,约占总词块的44%。其中话题引出(聚焦)为13个,如the right to、if it be、if there be等;话题阐述(说明)为19个,如(on)the other hand、em to be、in the ca等。本族语者指示词块数为30个,约占总词块的42%。其中,识别(聚焦)10个,如one of the、the fact that、the problem of 等;属性规范12个,如the number of、there be many、part of the、all of this等;时空(文本指示)8个,如(at)the same time、in the past、the end of等。
3.3.2英语学习者词块功能特征
三个年级共享目标词块有76个。其中,立场类共享词块占比32%(见图4),共24个,包含13个认知立场和11个态度情态立场。组篇类词块占比36%,共28个,包含5个话题引出(聚焦)和23个话题阐述(说明)。指示类词块占比32%,共24个,包含7个识别(聚焦),7个属性规范,和10个时空(文本指示)。
在两库共享词块方面,一二、一三和二三年级产出的立场类共享词块数分别为31、26和24个,分别占三组共享词块总数的33%、30%和28%。其中,一二年级共享词块为18个认知立场和13个态度情态立
场,一三年级为13个认知立场和13个态度情态立场,二三年级为13个认知立场和11个态度情态立场。一二、一三和二三年级产出的组篇类共享词块数最多,分别为37、35和35个,分别占三组共享词块总数的39%、41%和41%。其中,一二年级共享词块为8个话题引出(聚焦)和29个话题阐明(说明),一三年级为10个话题引出(聚焦)
和25个话题阐明(说明),二三年级为9个话题引出(聚焦)和26个话题阐明(说明)。一二、一三和二三年级产出的指示类共享词块数分别为27、25和26个,分别占三组共享词块总数的28%、29%和31%。其中,一二年级共享词块为7个识别(聚焦)、8个属性规范和12个时空(文本指示),一三年级为7个识别(聚焦)、7个属性规范和11个时空(文本指示),二三年级为7个识别(聚焦)、7个属性规范和12个时空(文本指示)。
3.3.3英语学习者与本族语者词块功能特征对比
如图5所示,各年级学习者目标词块的语用功能呈现出相同特征:由多到少依次为指示词块、组篇词块和立场词块,而本族语者则依次为组篇词块、指示词块和立场词块。各年级目标词块的产出约为本族语者的1/3,这意味着学习者更多的依赖非目标词块表达各语用功能,尤其是组篇功能。而相当一部分非目标词块是Pérez-Llantada(2014)研究所显示的受到母语迁移影响的词块。由于母语的正迁移,这类词块最容易记忆,能快速的在心理词典中建立起较强的形式语义连接,在产出中使用较少的
注意力资源即可自动化产出。中国大学生产出的立场类目标词块偏少:三个年级均在2个以内。一二三年级产出的组篇类目标词块数分别为7、10和10个,约占各自年级产出的目标词块总数的33%、43%和38%。其中,一年级组篇目标词块为2个话题引出和5个话题阐明(说明),二年级为3个话题引出和7个话题阐明(说明),三年级为3个话题引出和7个话题阐明(说明)。一二三年级产出的指示类目标词块数分别为13、11和15个,约占各自年级目标词块总数的62%、48%和58%。其中,一年级为7个识别(聚焦)、3个属性规范和3个时空(文本指示),二年级为7个识别(聚焦)、3个属性规范和1个文本指示,三年级为9个识别(聚焦)、3个属性规范和3个时空(文本指示)。
特有
三个年级产出的立场类目标词块与本族语者均没有显著差异。一年级产出的组篇类目标词块有3个与本族语者没有显著差异;二年级组篇类词块有3
visit的名词
个没有显图5:
四库各功能目标词块产出比例表
图4:学习者各功能词块产出比例表
61
··
著差异;三年级组篇类词块有4个没有显著差异。一年级产出的指示类目标词块有7个与本族语者没有显著差异,主要为识别(聚焦)功能;二年级指示类词块有6个没有显著差异,主要表达属性规范;三年级指示类词块有7个没有显著差异,主要为识别(聚焦)功能。
四库共享的17个词块中,组篇类为7个,约占四库共享总词块数的41%,其中6个为话题阐明(说明)功能。指示类词块共10个,约占四库共享总词块数的59%,主要表达识别(聚焦)和属性规范功能。一二年级共享的目标词块为17个;一三年级共享的目标词块为19个;二三年级共享的目标词块为20个。这说明四库共享的17个词块在一年级就已习得,没有发生磨蚀,并在二三年级学习期间经过反复的输入输出任务以及重述等作用下,理解和产出能力达到拉平状态,实现了整存整取,是已经内化了的词块。一年级产出的另外四个目标词块,在二三年级由于缺乏输入输出等原因,形式语义衔接并不紧密,逐渐被磨蚀。而大量的没有达到提取频点的目标词块则仍处于中介语产出与反馈证据之间的矛盾中,而未能习得(Ellis2007)。
4.结语
本研究通过语料库对比的方法,分析了英语专业一二三年级与本族语者议论文中常用词块的结构和功能特征。研究发现,中国英语专业三个年级学生使用的词块量明显多于本族语者。三个年级共享词块约为2/3,但目标词块的输出却仅为本族语者的约1/3。本族语者和各年级学习者产出的词块均以动词类为主,其次为名词类和介词类,而从句类和其他类词块相对较少。具体而言,本族语者带be动词的短语片段产出最多。各年级学习者产出的词块则以带be动词的短语片段和代词/名词+其他动词片段均较多,而目标词块则以be动词的短语片段最多,代词/名词+其他动词片段则极少。本族语者各功能词块由多到少依次为组篇、指示和立场;三个年级学习者各功能目标词块呈现出相同特征,依次为指示、组篇和立场。各年级目标词块的产出率均较低,学习者更多的依赖非目标词块表达各语用功能,尤其是组篇功能。相当一部分非目标词块是受母语迁移影响而高频产出。四库共享的词块有17个,以动词类为主,主要表达组篇功能的话题阐明(说明)和指示功能的识别(聚焦)。本研究不仅对写作教学研究和实践有参考意义,也可为教材建设提供借鉴。
注释:
①结构分类子类别的中文版参照了马广惠(2009)的翻译。
参考文献:
曹宇,文秋芳,张钫炜.2016.中国英语学习者英语程式语表征方式研究——
—来自听觉搭配成分词判断的证据[J].外语与外语教学(4):21-27.
胡元江.2011.口语产出中的语块研究:回顾与展望[J].外语教学
理论与实践(2):55-63.
胡元江.2015.基于语料库的英语专业高年级学生口语词块结构特征研究[J].外语研究(5):26-30.
胡元江,娄喜祥.2011.程式化语言的多视角,多维度研究——
—《程式化语言》评介[J].外语教学与研究(4):626-632.
jadis李德俊.2014.短语及其自动识别研究评述[J].外语研究(6):8-13.马广惠.2009.英语专业学生二语限时写作中的词块研究[J].外语教学与研究(1):54-60.
潘璠.2016.语料库驱动的英语本族语和中国作者期刊论文词块结构和功能对比研究[J].外语与外语教学(4):115-123.
文秋芳,梁茂成,晏小琴.2008.中国学生英语口笔语语料库[M].北京:外语教学与研究出版社.
魧del,A.&B.Erman.2012.Recurrent word combinations in academic writing by native and non-native speakers of English:a lexical bundles approach[J].English for Specific Purpos31(2):81-92. Biber,D.,S.Conrad&V.Cortes.2004.If you :lexical bundles in university teaching and textbooks[J].Applied Linguistics25
(3):371-405.
Biber,D.,S.Johansson,G.Leech,S.Conrad&E.Finegan.1999.
Longman Grammar of Spoken and Written English[M].Beijing: Foreign Language Teaching and Rearch Press.
Chen,Y.&P.Baker.2010.Lexical bundles in L1and L2academic writing[J].Language Learner and Technology14(2):30-49. Ellis,N.C.2007.The associative-cognitive CREED[C]∥B.VanPatten &J.Williams.Theories in Second Language Acquisition.Mahwah, N.J.:Lawrence Erlbaum Associates:155-173.
Grabowski,L.2015.Keywords and lexical bundles within English pharmaceutical discour:a corpus-driven description[J].English for Specific Purpos38(2):23-33.
Hyland,K.2008a.Academic clusters:text patterning in published and postgraduate writing[J].International Journal of Applied Linguistics18(1):41-62.
Hyland,K.2008b.As can be en:lexical bundles and disciplinary variation[J].English for Specific Purpos27(1):4-21.
Pan,F.,R.Reppen& D.Biber.2016.Comparing patterns of L1 versus L2English academic professionals:lexical bundles in telecommunications rearch journals[J].Journal of English for Academic Purpos21(1):60-71.
Pérez-Llantada,C.2014.Formulaic language in L1and L2expert academic writing:convergent and divergent usage[J].Journal of English for Academic Purpos14(2):84-94.
R觟mer,U.2009.English in academia:does nativeness matter[J].
Anglistik:International Journal of English Studies20(2):89-100. Staples,S.,J.Egbert.,D.Biber&A.McClair.2013.Formulaic quences and EAP writing development:lexical bundles in the TOEFL iBT writing ction[J].Journal of English for Academic Purpos12(3): 214-225.
Wray,A.2002.Formulaic Language and the Lexicon[M].Cambridge: CUP.
estoque
收稿日期:2017-03-06
作者简介:胡元江,博士,副教授。研究方向:应用语言学,语料库语言学。石海漫,硕士。研究方向:语料库语言学。季萍,硕士,讲师。研究方向:应用语言学。
(责任编辑:李德俊)
62··