英语语篇易读度评测系统
任骥恺
北京市通州区潞河中学
摘要:为了保证英语教材、英语测试阅读任务等选材适宜得当,需要量化
英语语篇难易度。英语语篇易读度评测系统基于语篇衔接理论、金凯德年级公式
等,使用开发了能够判断语篇的中国年级水平的系统。经实验,该系统
可以准确地评测语篇水平。同时又可以按照选定的测量变量、目标词库和等级判
断对样本语篇和测试语篇进行比对。
关键词:英语语篇易读度评测
第一章引言
从基础教育到高等教育,英语教育都是重要内容,而阅读又是重要部分。英
语语篇易读度的研究十分必要。它可以保证学习材料贴切可靠,阅读试题难易适
度。对易读度的研究,最早始于20世纪20年代
[1]
。研究重心主要围绕两个方面
进行,即:影响英文易读度因素的研究和英文易读度的测定。在此两方面,国内
外研究者取得众多成果
[2][3][4][5][6][7]
。尤其是随着计算机科学技术的发展和进
步,英文易读度测定工作更是如虎添翼。但是,每项研究都是基于研究者本人认
为重要的影响因素而确定自己的评测变量,尤其是国外的系统,他们是基于母语
开展的易读度评测,明显不适用我国的英语作为外语的语篇评测需求。因此,开
发适合中国学生情况的语篇评测系统至关重要。
第二章中国英语语篇易读度评测方法
**系统的功能模块综述
系统开发的总体任务是便捷地实现英语语篇易读度评测。系统实现的功能主要有:
√英语语篇的输入(支持从Word文档,TXT文档导入)
√测评变量(单词平均长度、句子平均长度、分级单词判断、目标词库词
汇重叠率、弗莱士易读度公式1、弗莱士金凯德年级水平2、中国年级水
1Flesch易读度公式=206.85-1.105ASL-84.6ASW(ASL指每个句子的平均词数,由文本的单词总数
除以文本句子总数得出;ASW为每个单词的平均音节数,有文本的单词音节总数除以单词总数得出)。
2Flesch金凯德年级水平公式=0.39ASL+11.8ASW-15.59
平)的选择
√目标词库(中考、高中会考、高考、大学四级、大学六级、研究生)的
选择
√等级判断(中考、高中会考、高考、大学四级、大学六级、研究生)的
选择
√英语语篇易读度测评结果的输出(支持输出到Word文档和TXT文档)
√英语语篇易读度测评结果的统计图表(支持保存为图片)
每一项处理分析都包括对数据进行采集、加工和输出三个过程,在系统开发
中充分发挥了计算机的强大优势,对许多重要的英语语篇评估参数进行计算或优
化处理。
2.2系统相关数学模型
由于易读度的评测主要以定量的方法进行分析,因此下面列出系统中的几
个重要的信息处理的数学模型,方便用户理解。
**单词平均长度
单词平均长度ASW(averagesyllableperword)为每个单词的平均音节数,由语篇的单词
音节总数除以单词总数得出。单词音节数的判断是通过遍历方法对元音字母“a”“e”“i”
“o”“u”进行统计。
**句子平均长度
句子平均长度ASL(averagentencelength)是每个句子的平均词数,由语篇的单词总数
除以语篇句子总数得出。单词总数的获取采用如下步骤:首先将所有的大写字母替换成小
写字母,将非英文字符替换成空格,再将连续空格替换成单个空格,最后得出单词总数。
句子总数的由英语中的断句符号确定,包括句号、问号、感叹号和省略号。
**分级单词判断
为判断语篇内单词在各个词库中的比例,设定了分级单词判断的评测变量。其计算方式是:
首先得出语篇的所有单词,将单词逐个和各级词库进行对比。在某级词库中发现的单词总
数除以语篇总词数,得出分级单词评测结果。前一级检测出的词汇,不再进入下一级词汇
的检测计数。计入某个词库的单词占比越高,语篇的水平就越接近该层次水平。
**目标词库重叠率
此测量变量的运算方法是将语篇内所含的某个词库内可发现总词数除以语篇总词数。同分
级单词判断相比较,该数据是累计计算在不同词库中发现的单词总数。
**弗莱士易读度公式与弗莱士金凯德年级水平
学者们通过研究发现,已开发的众多的测量语篇难度的可读性公式中,最常用的是弗莱士
易读度公式和弗莱士金凯德年级水平公式。公式分别如下:弗莱士易读度
=206.85-1.105*ASL-84.6*ASW,公式中ASL和ASW的含义同上。弗莱士金凯德年级水平
=0.39*ASL+11.8*ASW-15.59.
**中国年级水平
语篇所属的中国年级水平的评测是以蓝思分级和中国学生英文阅读能力对照表
[9]
(见表1)
为参考而拟定的。确定对应关系的逻辑是:使用金凯德年级水平公式可知语篇所适应的美
国年级,依据对照表,参考蓝思分级数据,根据经验设定中国年级水平取值范围(见表2)。
任何语篇,根据金凯德年级公式得出其数值,比对表2中的取值范围,便可确定该语篇所
属中国年级水平。
表1蓝思分级和中国学生英文阅读能力对照表
美国教育年级LEXILE级别中国教育年级
美国学龄前0to100L中国学龄前
美国学龄前100Lto200L中国小学1-3年级
美国学龄前150Lto300L中人潮汹涌是什么意思 国小学4-6年级
美国小学1年级(1thGrade)200Lto400L中国初中1年级
美国小学2年级(2thGrade)300Lto500L中国初中2年级
美国小学3年级(3thGrade)500Lto700L中国初中3年级
美国小学4年级(4thGrade)650Lto850L中国高中1年级
美国小学5年级(5thGrade)750Lto950L中国高中2/3年级
美国小学6年级(6thGrade)850Lto1050L中国大学1年级
美国初中1年级(7thGrad)950Lto1075L中国大学2年级
美国初中2年级(8thGrade)1000Lto1100L中国大学3年级
美国初中3年级(9thGrade)1050Lto1150L中国大学4年级
美国高中1年级(10thGrade)1100Lto1200L中国研究生1年级
美国高中2/3年级(11th&12thGrade)1100Lto1300L中国研究生2年级
**.1300L中国博士生
表2中国年级水平取值范围
取值范围中国学生
**
小学
**
初中1年级
**
初中2年级
**
初中3年级
**
高中1年级
**
高中2年级
**
高中3年级
**
大学
≥20.51研究生
**等级判断
该系统的评测选项中设置了等级判断。评测要素选用了决定语篇难度的最基本的语篇词汇
重叠率和句子平均长度。其评测逻辑如下(见表3):
表3高考语篇等级评判标准
语篇词汇重叠率(%)句子平均长度(词数)等级结果
>93%≤14高考阅读的A篇
>93%>14高考阅读的B篇
≤93≤18高考阅读的C篇
≤93>18高考阅读的D篇
需要说明的是,93%和14、18均是经验值。获取该数值的基本步骤是:整
理北京最近5年的高考阅读语篇,对其语篇词汇重叠率和句子平均长度进行统
计分析和估测,最终得出上述经验值。
第三章系统的设计与实现
**开发软件的选用和设计思想
**是由微软(Microsoft)开发的,目前使用极为广泛的软件开发平台。由于其丰富的函
数和类库支持,因而成为了开发此系统的首选平台。在此基础上,该平台上的VB(Visual
Basic)语言不仅具有可视化编程的功能,还可以以简洁清晰的语法执行复杂的操作,所以
开发系统选用了语言框架。
除此之外,在设计系统的过程中,也运用到了面向对象编程的设计思想(ObjectOriented
Programming,OOP)和多线程技术。
利用OOP思想开发的软件达到了软件工程的三个主要目标:重用性、灵活
性和扩展性。重用性,即一个功能只需在一个程序中实现一次,就可在多处使用,
大大减少了编码人员重复的工作量,提高了计算机程序执行的效率;灵活性,程
序的功能被模块化,可以根据需求安装不同的模块并执行相应的运算,不需要的
模块不安装,不仅减少了占用空间,而且也避免了计算机执行无效运算;扩展性,
每当加入新功能时,只需简单地导入该功能对应的新模块,即可完成对应的更新
操作,无须重新安装软件,这大大提高了程序的易用度,用户不必费时费力反复
卸载安装,只需下载导入程序更新包即可。
多线程,是指从软件上实现多个线程并发执行的技术。具有多线程能力的计
算机因有硬件支持而能够在同一时间执行多于一个线程,红茶的泡法 进而提升软件运算的处
理性能。软件应用本技术能够在现代计算机上大大提高程序运算速度,起到有效
缩短程序运算时间的效果。
**人机交互界面
系统运行的主窗体(见右图)主要包括如下几个区域和功能设置:菜单区、快捷键区、评
测选项区、语篇输入和结果输出区。提交、重置、以及统计图输出按钮。顶端的菜单栏和
快捷工具栏,为使用者准备了各式各样的快捷操作,同时系统也实现了右键功能列表。窗
体底部的状态栏,用户可以通过观察下方的状态栏来实时判断程序的运行状态,状态栏由
进度条和提示文本组成,简明易懂。
第四章实验分析
为验证系统的合理性,使用北京2010至2016年共7年的高考英语阅读理解
语篇(7年4篇/年=28篇)和2017年北京市春季会考阅读理解语篇3篇进行了
实验。结果如下:
北京市高考和会考英语阅读语篇中国年级水平实验分析结果
A篇B篇C篇D篇
2010年高考初一高一高二高三
2011年高考初三高三高二高三
2012年高考大学高一大学高三
2013年高考高一初二高二大学
2014年高考大学初三高二高一
2015年高考初二高二高一高三
2016年高考高一高二高一大学
2017年会考高一高一高三无D篇
从评测结果来看,31篇文章,高中水平为21篇,占比67.7%。大学水平为
5篇,占比16%,如果考虑高考的选拔属性,试卷中出现大学水平的语篇也是必
然的,因此,系统测定出高考试题中有大学水平语篇,应该也是合理的。如果按
照高考会考的语篇能够测定为高一以上水平即为准确,则系统的评测准确率就是
84%。
下表所示是系统对2010至2016年北京高考阅读试题整体分析的结果。从A
篇至D篇,中国年级水平由低到高顺序排列,这完全符合命题规律和实际情况。
由此可以判断,系统对中国年级水平的判断是合理的、可靠的。
北京市高考英语阅读语篇中国年级水平统计
A篇B篇C篇D篇
2010至2016高一高一高二高三
第五章特色与创新分析
**理论创新
**中国年级水平评测
在我国的英语语篇易读度研究领域,研究者较多地是使用英语国家既定的公式开展研究。
但是,这些评测手段实施的前提是以英语为母语,他们不一定适合中国学生。尤其是一些
早期的易读度公式,仅仅依靠ASW和ASL等单词层面的数据来评测,已经不能适应现在
的需要。系统借助国外经验,创造性使用金凯德年级公式,使其计算值和某个分值范围对
应,确定语篇的中国年级水平,这是创新和突破。
**依托语篇衔接理论确定测量变量
系统中的测量变量基于胡壮麟的语篇衔接与连贯理论。从低到高,音系层,词汇层、语义
层均是可选择的。目标词库也是可选择的,包含北京中考考试说明词汇1746个、高中会考
考试说明词汇2851个、高考考试说明词汇3841个、大学四级词汇表5344个、大学六级词
汇表6684个和研究生大纲词汇6224个。
**实践创新:测试语篇和样本语篇的比对功能
系统不但可以用来单独检测语篇的各种变量情况,还提供样本语篇和测试语篇的比对功能。
假定使用者需要命制高考模拟试题,他可以将自己认为难易度适当的高考语篇作为样本,
新找的材料作为测试语篇进行评测。系统可以将量化的比对结果直观的展示出来。
第六章结论与讨论
随着计算机技术、语料库语言学、计算机语言学等的发展,人们会越来越
清楚地认识到计算机技术对语篇易读度分析的重要性。在此,我利用
编程技术开发了一个功能较完善的评测系统,它为英语语篇教学和科研提供了
一个实用工具。有了量化的语篇难易度,出版社、命题专家,一线英语教师等
在给学生、考生提供英语语篇材料时有了客观标准,避免了以往的仅仅依靠主
观经验命题获选择材料的窘境。以后老师可以将不同难易度的材料十分准确地
提供给不同学段、不同能力的学生。易读度评测要素的确定,是应用语言学的
一个重要内容,系统的逐步的实践,其结果也必然会对易读度要素的测定提供
研究样本。这对于阅读理论,阅读教学等也具有一定的理论意义。
但是,由于系统尚处于试验研究阶段,加之研究者课业繁重,计算机技术
能力有限,存在着以下不足有待改进:
1.分级单词评判后,未能将不在词库内的单词检测并罗列出来。
2.测试语篇和样本语篇比对时,统计图未能整合到一张柱状图中,为比较
结果的使用增加了难度。
3.未能加入批量处理功能,不能实现多语篇评测。
参考文献
[1]章辞.英文易读性研究-回顾与反思.[J]湖南工程学院学报.2010(3):47-52
[2]徐延勇.基于最大熵方法的统计语言模型.[J]计算机工程与应用.2002(5):
53-55
[3]晏生宏,黄莉.英文易读度测量程序开发探索.[J]重庆大学学报(社会科学
版).2005(2):92-97
[4]邢富坤.基于信息计算的英语易读性研究及IRMS应用系统开发.[D].2007
[5]蒋晶晶.CEPT阅读文本易读度描写秋雨的词语 分析及词汇检测工具的开发.[D].2009.
[6]许智坚.信息技术环境下的文本易读性分析及其工具.[J]龙岩学院学报.2014
(12):44-51
[7]江进林Coh-Metrix工具在外语教学与研究中的应用.[J]中国外语2016(13):
58-65
[8]胡壮麟.语篇的衔接与连贯[M].上海:上海外语教育出版社.1994.
[9]蓝思分级和中国学生英文阅读能力对照表**
Theevaluationsystem
forEnglishpassagereadability
RenJikai
LuheHighSchool,TongzhouDistrict,Beiijng
Super初学者钢琴指法 visor:LuoSenlin1RenWeijia2ZhaoTengren3
1BeijingInstituteofTechnology
2BeijingNo.80HighSchool
3LuheHighSchool,TongzhouDistrict,Beiijng
Abstract:InordertoguaranteetheEnglishpassagessuitableforasss传染病传播途径 ing
readingorcompilingtextbook,
systembadoncohesiontheory,FleschReadingEaScoreandFlesch-Kincaid
GradeLevelisdevelopedtoexplorethereadabilitystandardwithChine
ovedrightthatthenewlydevelopedsystemcantellthelevelof
ile,measuredvariable,targetwordsbankandthelevelof
passagescanbechonatwilltocomparesamplepassageandtargetpassage.
KeyWords:EnglishPassa美不胜收的意思 geReadabilityevaluating
作者简介:任骥恺,现就读于北京市通州区潞河中学。学习成绩优秀,
酷爱信息技术。通过自学,获得中国计算机学会颁发的2016年全国青少年信息
学奥赛提高组北京赛区二等奖,竞赛成绩209分(全国提高组一等奖基准分数
线为200分)。参加全国高等学校教学研究中心和浙江大学联合举办的PAT程
序设计能力考试(乙级),获得100分。参加甲级考试获得95分。参加中国计
算机学会举办软件能力认证考试(CSP),总成绩280分,当次排名前5.87%(认
证人数6426人),累计排名前10.04%(认证人数43479人)。完成北京大学
郭炜老师的“程序设计与算法”慕课课程,获得中国大学MOOC认证证书,成绩
优秀。完成清华大学邓俊辉老师的“数据结构(上)(自主模式)”慕课课程,
获得学堂在线和清华大学联合颁发的结课证明,成绩优秀。完成浙江大学陈越
老师和何钦铭老师的“数据结构”慕课课程,获得中国大学MOOC认证证书,成
绩优秀。
本文发布于:2023-03-26 02:13:01,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/1679767983388950.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:北京潞河中学.doc
本文 PDF 下载地址:北京潞河中学.pdf
留言与评论(共有 0 条评论) |