《汉字应用水平等级及测试大纲》研制报告

撰稿：编辑：发布时间: 2016-11-17

《汉字应用水平等级及测试大纲》研制报告

“汉字应用水平测试研究”课题组

提要汉字应用水平测试的目的是衡量中等以上受教育程度人群在以规范汉字为媒介的阅读或书面表达等活动中，使用汉字所达到的水平。这项测试既遵循国家通用语言文字的相关规范和标准，也遵循汉语汉字的约定俗成和使用规律，同时还采用了教育测量学的理论与方法构建测评体系。在确定测试范围及内容、测试形式、评分依据及标准、分数体系等过程中，广泛运用了语料库语言学、计算语言学、教育测量学等理论成果及操作方法，达到了理论与实践的有机结合。
关键词汉字应用水平等级测试大纲研制报告

《汉字应用水平等级及测试大纲》是国家语言文字应用“十五”科研规划重点项目“汉字应用水平测试研究”的最终成果，经专家鉴定委员会鉴定和国家语言文字工作委员会语言文字规范（标准）审定委员会审定后，2006年8月28日由中华人民共和国教育部和国家语言文字工作委员会作为语言文字规范（GF2002—2006）向社会正式发布，2007年2月1日起试行。

该项目由教育部语言文字应用管理司和语言文字信息管理司提出，批准立项时间是2002年11月，项目批准号WT105-31。项目研制任务由教育部语言文字应用研究所普通话和语言教学研究室承担。该项目是国家语委重点科研项目“汉字应用水平等级标准及测试大纲研究”的延续项目，前一项目属于调研性项目，工作重点是了解社会上有关行业汉字应用的现状和需求，特别是用于评核相关人员汉字应用水平的需求，为开展课题研究和将来开展测评工作提供依据和参考。

2002年延续立项后，明确了后续项目为标准研制项目，主要任务是在前一项目调查的基础上建立一整套科学的、标准化的测评系统和测量工具，用来衡量有关行业从业人员及高等院校学生等人群应用汉字的能力和水平。研制的主要内容包括作为标准颁布的汉字应用水平等级、汉字应用水平测试大纲，以及作为标准附件的汉字应用水平测试字表和作为测评系统辅助部分的汉字应用水平测试词语表、试题、试卷和题库等。

从2002年至2004年，课题组先后三次进行了相关行业人群和在校大学生识字情况调查，涉及的调查对象主要有新闻出版行业的编辑、记者，高等院校学生，中小学教师等，总计3600余人；然后整理、分析了调查数据；同时还对上述人群进行了试题、试卷方面的预测和试测。调研的省市有北京、天津、上海、河北、黑龙江、广东等。科研合作单位先后有广东教育出版社、山西大学、北京师范大学、北京教育学院等。在研制过程中，课题组还就汉字应用水平等级、汉字应用水平测试大纲和汉字应用水平测试字表反复征求了海内外30多位语言文字学、语言教学和教育测量学等领域专家的意见，并召开了10余次专家咨询、研讨和评审会。2005年还征求了全国15个地方语委办的意见。课题组对专家和各地语委办的意见做了深入、细致的分析和讨论，吸收了其中绝大多数意见和建议，进一步完善了测评系统。

下面就《汉字应用水平等级及测试大纲》一些主要内容的研制情况分别做一点说明。

一、研制《汉字应用水平测试字表》

《汉字应用水平测试字表》（以下简称《字表》）是这项课题的重点之一，因为建立测评系统很重要的一点就是测评的内容范围，对这项课题而言，就是确定测试用字的数量和范围，以便据此逐步建立汉字应用水平等级及测试大纲，并建设相应的测试题库，为等级的划分、测试大纲的编写及题库的建设等提供基本的内容和大致的范围。

研制《字表》，首先要考虑几个方面的问题：第一，《字表》与国家已经颁布过的有关汉字的规范或标准，特别是几种字表之间的关系；第二，《字表》与汉语真实文本中汉字使用情况的关系；第三，《字表》与相关人群掌握汉字情况的关系；第四，《字表》与现代汉语通用词语用字情况的关系；第五，《字表》与汉字自身系统性之间的关系。这几种关系是研制《字表》的最根本问题，既涉及到国家法律、政策层面的规范和标准，也涉及到现实社会语言生活的状况，比如汉字的使用频率、覆盖率、构词情况以及人们掌握汉字的平均数量和集中情况等，同时还涉及到汉字字形、读音、意义等方面的系统性，比如天干地支、节气等特定表义范畴的系列用字等。

按照上述思路，课题组以《现代汉语常用字表》所收3500常用字为测试用字的基本内容，在《现代汉语通用字表》所收7000通用字范围内，对社会上经常使用文字的人群先后三次进行了识字情况测查，并根据所获得的数据初步筛选了测试用字；同时，依据国家语委“现代汉语大型通用语料库”和国家高技术研究发展计划(863计划)《智能化中文信息处理平台》课题的子课题“超大规模通用平衡语料库”的汉字频率统计数据，对经测查而筛选出来的汉字进行了必要的对比分析和调整；随后，通过和测试词语表用字情况的对比，并着重考察了低频字的分布、构词能力、意义范畴等，对《字表》又做了部分微调；最终确定了测试用字的大致框架。

在研制《字表》过程中，我们所遵循的选字原则主要有以下几条：

1）规范性原则：测试用字均为规范的现代汉字字形，不规范的字形不收，如异体字；另外，属于方言语词范围的用字也一律不收，如：囡、伢、嬷、甭、掼、矬、撸等。

2）应用性原则：筛选测试用字均以抽样人群识字情况测查数据和语料库中字频的统计数据为重要参数，选取高识别率和高频率的字。同时依据频率统计原理，测试用字还要考虑到其在语料库中的覆盖率，尽量选取分布广泛、覆盖率大的字。另外，充分考虑现代汉字的实际使用情况，对于一些常用的口语用字，如：洇、焯、磴、硌、蕻、痄、搽等，虽然这些字在书面语中较少使用，字频统计或统计不到或频率很低，但在日常生活中却较常用，因此也适当选取了一些；对于现代通用汉字之外的文言用字，如：筮、笏、耜、骒等，一般不收。

3)系统性原则：对一些成系列的字要进行纵横相关的多种联想，综合考虑其取舍。如：天干地支、节气用字，数字的汉字大写用字，民族名称，省、自治区、直辖市的简称和别称，地、县级以上的地名用字以及连绵字等，我们都综合考虑，平等对待，成系列收取；其中为保持地县级以上的地名用字的完整性，我们收入了琊、埗、埇、猇等4个7000通用字以外的县级地名用字。对动植物名称，金属、化学元素名称以及姓氏、人名用字等则根据常用程度和频率的高低决定取舍。

在研制过程中，以上3条原则都不是孤立的，而是综合运用以决定字的取舍。最终，《字表》确定为5500字，并分成三个子表，其中甲表4000字；乙表500字；丙表1000字，成为《汉字应用水平等级及测试大纲》的附录A（规范性附录）。

《字表》的具体研制过程详见《语言文字应用》2004年第1期63-70页《汉字应用水平测试用字的统计与分级》。

二、研制《汉字应用水平等级》

研制《汉字应用水平等级》，实际上就是建立汉字应用水平的评价体系。与此同时，再依照一定的方法确定测量工具和测量方法。

建立一种特定的评价体系，实际上就相当于对人的身高、体重等指标或数据按照一定的参考值给予判断一样，例如是正常，还是偏高、偏矮，等等。进行这样的判断，大致又需要若干前提。其中主要有目标参照或常摸参照，也就是绝对标准或相对标准。前者是以要达到的目标为参照，重点考察、衡量所收集到的评价客体的数据与目标之间距离的大小，例如一个健身计划，目标是每位参与者都要将当前体重减少20千克，那么，计划结束时，评价健身效果就是考察每位参与者所减少的体重与20千克这个目标之间的差距。后者则是以常模数据为参照，重点考察、衡量所收集到的评价客体的数据与常模数据之间的差异，例如判断一名中国城市12岁男童身高方面的发育情况，就可以将他的身高数据与中国城市12岁男童身高方面的常模数据进行比较，然后对其发育情况进行推断和评估。

汉字应用水平等级一方面要明确使用汉字的目标，即绝对标准，例如关于汉字字形、读音、意义及用法方面的规范及依据；另一方面，也要以相关人群识字量调查、语料库的字频统计等数据为基础，整理出可供参照的相对标准。

在汉字应用水平等级中，目标和参照标准都要十分明确。首先，使用者在以规范汉字为媒介的阅读和书写活动中，辨别和使用法定的国家通用文字，必须遵循国家颁布的汉字字形规范、读音规范，而且还要了解和掌握汉字在权威工具书中的普通话读音和现代汉语义项及用法，并在应用过程中与其保持一致。评价使用者水平的高低，主要考察他们辨别和使用汉字时，在字形、读音、意义及用法几方面的表现与目标之间的差异程度。其次，源自一些实际调查、试测的客观数据，经严格的整理、分析后，也可以形成评价的参照标准。在能够掌握和使用的汉字数量方面，按照相关人群识字量调查收集到的平均识字量、集中识字量（众数）以及现代汉语真实文本中汉字的使用频度、分布情况等数据，三个等级的参照标准由低到高依次确定为3500-4000、4000-4500和4500-5500个汉字。与此同时，汉字应用水平测试并不是识字量的竞赛，因此能够掌握和使用的汉字数量也不是衡量水平高低的唯一参照标准。根据4000→4500→5500三级字量以及具体的汉字，考察它们在不同类别现代汉语真实文本中的使用频度、分布情况等数据，就可以从一个侧面建立起使用者阅读、书写综合表现的参照标准，因为不同数量、不同范围的汉字在不同类别文本中的覆盖率也是不同的，如果使用者所能驾御的汉字在数量和范围方面都是确定的，那么就可以推断他在应对不同类别汉语文献时可能具有的表现，例如他在阅读不同类别汉语文献时，碰到生字的概率肯定是不统一的，而这一点将直接影响到阅读的顺畅性。另外，不同人群在识字量调查和试测中的表现明显具有群体性特征，这些特征就可以固化为汉字应用水平不同等级的参照标准，例如是否具备了接受不同程度教育的汉字基础；是否具备了接受某种与汉字应用密切相关的工作任务的基本条件；在汉字应用水平测试中的基本表现，等等。作为汉字应用水平的评价体系，汉字应用水平等级主要由使用汉字时的规范性、准确性目标和基于实际调查、试测数据而构建的参照标准两部分组合而成。

在汉字应用水平等级中，还应当明确不同等级所对应的答对率、导出分数等最基本的测试表现，从而使评价体系与具体的测量工具和测量方法能够有明确的对应关系。

关于《汉字应用水平等级》的具体研制过程，详见《语言文字应用》2004年第1期56-62页“《汉字应用水平等级标准》研制报告”。

三、研制《汉字应用水平测试大纲》

研制测试大纲，要解决的问题主要有：测试的目的、性质和用途；测试的对象；测试的内容范围和形式；试题类型和试卷构成；评分依据；分数体系，等等。

关于测试目的，有测试本身的目的和由测试影响所及而预期的目的。前一个目的非常明确，就是通过测试的方法衡量应试者在阅读、书面表达以及其他与汉字应用有关的活动中，掌握汉字形、音、义以及使用汉字的正确程度和准确程度。后一个目的指的是测试本身并不是最终目的，而是通过测试提高使用者掌握汉字、应用汉字的能力和水平，其重要性更体现在贯彻《中华人民共和国国家通用语言文字法》，提高我国国民的语言文字规范意识，提倡准确、健康地使用国家通用语言文字，完善汉字应用环境，弘扬中华文化。

就测试本身的目的而言，这是衡量测试效度的最重要依据。一个测试的有效性如何，关键在于是否实现了测试目的。这个问题主要涉及试题、试卷的质量。如果试题的内容、形式和试卷的结构能够反映汉字应用的实际情况；试题的难度、鉴别度等指标适当，拼合试卷的程序规范，能够反映出不同能力水平的差异，那么，这样的测试就达到了预期目的。

在研制测试大纲过程中，课题组在逐步明确测试目的的同时，围绕测试内容、试题、试卷等相关问题进行了大量的数据采集、研究分析等工作，从收集到的数据和分析结果看，试卷的有效性非常显著。

测试的性质往往取决于测试的规模和标准化程度，反过来它也影响测试的规模和标准化程度。汉字应用水平测试是由教育部和国家语委组织研制并组织实施的一项国家级语言类标准化测试。它的信度、效度、施测程序、评分程序、题库的容量等都要符合和满足大规模标准化测试的要求。

测试的用途主要涉及预期的测验使用者，这里既有个人，也包括团体；既包括应试者，也包括希望测验结果能够为某种决策提供参考的单位或部门等。为满足这些潜在的需求，汉字应用水平测试须要尽可能准确、明确地向使用者提供测试结果，并合理地解释这些结果，而且这种解释必须具有稳定性和一致性。
测试对象与测试用途密切相关，它要解决的主要是谁来参加测试；或者说测试更适用于哪些应试者；测试分数和分数解释能提供什么信息；这些信息能够用于什么目的，等等。这些问题将直接影响到确定测试内容、编制试题、设定测试时限，等等。汉字应用水平测试是一项体现国家语言文字方针政策的举措，被赋予了衡量并间接提高有关行业从业人员和学生汉字应用水平的功能，因此，测试用途就必须体现这种功能。通过实际调查与试测，这项测试定位于“适用于公务员，编辑、记者、校对和文字录入人员，各级各类学校教师，文秘及办公室工作人员，广告业从业人员，中文字幕机操作人员，高等学校和专科类中等学校学生以及日常工作与汉字应用紧密相关的其他人员；同时也适用于想要了解自己汉字应用水平和能力的其他人士。”这些由测试用途而界定的测试对象，是一种可供操作的界定，而对于测试对象的概括性表述，则应当具有明确测试对象背景资格的作用，因此，在《汉字应用水平等级及测试大纲》中，与此相关的表述为“本规范规定了具有中等以上受教育程度人群使用汉字应当达到的水平”。

关于测试形式，汉字应用水平测试选择了集体作答的纸笔测验，试题卷和答题纸分开，以便机器阅卷。从将来的发展趋势看，计算机化无纸测验、计算机辅助自适应测验、基于网络技术支持的网上测验等，都是需要进一步研究的问题。

此外，由于考虑到机器阅卷，试题类型必须满足客观性要求，避免主观判断，因此，绝大部分试题都采用了四选一形式的选择题；另外还有一部分需要阅卷者依据统一标准判断的书写题。另外，根据汉字应用水平测试的目的，试卷构成要比较全面地反映应试者的汉字应用水平，因此，汉字的识别和书写、汉字形音义各要素的均衡等，都要反映在每一套试卷中。最后还有测试时间，应当充分考虑获得信息最大化所需的试题量以及与此相关的合理时限。

关于评分标准，也就是汉字形音义的正确与否如何判定，这里面存在着两种情况：一种是国家已经颁布了标准或规范的，比如规范汉字及其字形；另一种是国家还没有制定、颁布规范或标准，而是见于各权威工具书、并被广泛认可的研究成果，比如除《普通话异读词审音表》所涉及的汉字及读音之外的其他汉字的读音。课题组最终确定的评分依据为：字形指汉字的规范字形，规范字形的依据是《现代汉语通用字表》；字音指汉字的普通话读音，其依据是《普通话异读词审音表》和权威工具书中汉字的普通话读音；字义指权威工具书中汉字在现代汉语中的义项，以及某些字在部分词语中的特殊用法。

依照评分标准判断应试者在每一道试题以及整套试卷上的作答情况，就初步形成了应试者在特定试卷上所获得的原始分数，而对于标准化测试，原始分数并不是足以形成评价的最终分数，因此需要对原始分数按一定规则进行处理，从而产生导出分数。汉字应用水平测试采用的导出分数是500分为平均分，满分为800分。导出分数称HZC分数。

HZC分数是评价应试者汉字应用水平的主要依据。此外，考虑到汉字应用的现实状况、常用汉字的数量及范围、不同应试者个人的语言生活环境及经验等，为了更切近使用汉字的实际情况，并减少和避免由于个人因素的不确定性对测试结果产生误差影响，在用HZC分数确定应试者的汉字应用水平等级之前，测试大纲又规定了进入等级的标准。这个标准定为：对涉及测试字表甲表范围的试题，由于所涉及的汉字都是识别率和使用频率比较高的汉字，作答正确率必须达到80%（含）以上。满足此条件后，HZC分数在200分（含）至500分（不含）之间的，汉字应用水平评定为三级；HZC分数在500分（含）至600分（不含）之间的，汉字应用水平评定为二级；HZC分数达到600分（含）以上的，汉字应用水平评定为一级。

这里需要说明的是，80%的作答正确率指的是如果把涉及测试字表甲表的所有内容都编制成试题，那么作答正确率应当达到80%，但是具体到每一套试卷，都是在全部测试内容中进行抽样的结果，是一个具有一定代表性的样本，这个样本与全部测试内容的总体存在着一定的对应关系，因此首先要控制不同试卷之间总体质量的平衡，其次也要按照每一套试卷的特殊性，对测试结果进行转换，转换的目的是求出每套试卷的作答正确率和总体作答正确率之间的对应关系，确定试卷作答正确率中的哪一点，投射到总体作答正确率中相当于80%。所以说80%的作答正确率是一种转换后的结果。

最后，测试大纲还明确了测试的操作流程及备考要点，以便测试的使用者了解这项测试的相关信息。

四、研制汉字应用水平测试词语表、试题、试卷和题库等

汉字测试既针对汉字本身的属性，也针对汉字的使用情况，比如字形问题，既有笔画、偏旁和结构等方面的对错问题，也有具体使用中的正误问题，最明显的例子就是错字和别字。因此，衡量人使用汉字的正确程度和准确程度，既要针对单个的汉字，也要针对具体使用环境中的用字。课题组根据测试的目的、性质、需求等，同时参照词频统计数据和若干种权威工具书，以及一些关于成语、固定表达形式等材料，按照规范性、系统性原则，经过反复筛选、整理，确定了作为汉字使用环境及试题范围的参考词语46000余条，编制成《汉字应用水平测试词语表》列为附录B（资料性附录）。

除了使用环境的依托问题，汉字测试的本质还是要围绕汉字本身的形音义等属性。因此，课题组对汉字的形、音、义做了适用于测试的梳理，比如易错易混的笔画、部件、结构及整字，多音字的若干读音，汉字的现代汉语义项等。以汉字的读音为例，经过反复讨论修改，考核的要点最终落实为由于多音混淆而产生的错误，如揣度、提防、屏弃等；常见的读音错误，如缄、讪、炽等；不常用字的读音错误，如籼、膪、莠，等等。

在编制试题过程中，课题组逐渐认识到，汉字测试具有非常明显的特殊性，其中最突出的例子是相同类型、同一内容范畴的试题，其答案具有可组合性，例如：在词语中判断用字是否正确的四选一试题，如果确定在一份试卷中可以容纳10个题目，那么40个答案则可组合出91390道试题；而这些试题再以10个一组满足试卷需求，则会形成一个更可观的数量。当然，这里面还有两个问题需要解决：第一，因为有些相同的答案出现在不同的试题中，从而可能导致同一份试卷中出现相同的项目，这就需要有查重的筛选机制，当然这类筛选性程序就涉及到试题的指标标注、题库管理及拼卷程序等问题了；第二，这40个答案所有可能的组合虽然能够生成数量巨大的试题，但是，对标准化测试来说，每一道试题都是独立的，在正式使用前都要经过试测的检验，都需要标注相关的指标，以备拼合试卷时使用。

为检验试题试卷的质量，获取有关数据，课题组先后两次抽取具有一定代表性的样本数千名，进行了模拟实测。试测数据提供了非常必要的和重要的信息，其中一些主要信息如下：第一，根据预期分别代表汉字应用水平初、中、高三种程度的受测群体，在识字量调查（在字表上标出认识的字）和试测中的表现相关程度很高，三种人群识字量和试测得分的排序完全一致，调查结果进一步验证了此前做过的同类调查，试测得分组间差异显著，表明测验的效度较高；第二，整份试卷难易度适中，总体上稍稍偏低；第三，占总题量93%强的试题，鉴别度参数在可接受范围，表明绝大多数试题具有较好的鉴别作用；第四，选择判断试题与书写试题经因素分析，表明所考查的不是同一种能力，这也证实了汉字应用的综合性，要求各项能力均衡发展，不可偏废，特别是汉字应用水平测试更不能顾此失彼；第五，根据试题贡献率指标，可以看出题量不必太大，这个结果与此前一些专家的建议基本吻合，因此，两次试测题量虽然分别为200和170，但实测题量最终确定为130。

实测结果也为等级标准和应试人测验得分的对应关系提供了重要参考。实测结果表明：根据预期分别代表汉字应用水平初、中、高三种程度的受测群体，对占总题量70%涉及测试字表甲表内容的试题，按照试题的能力参数和特征参数，经转换后，作答正确率达到或超过80%的人分别占该受测人群总体的80.1%、82.5%和84.3%；三种程度的受测群体在这部分测试内容上的平均答对率分别为80.5%、81.7%和89.6%。代表汉字应用水平初、中程度的受测群体，虽然在平均答对率上差异不显著，但是所答对的试题质量上却有显著差异，因此获得的HZC分数也有显著差异。

实测结果除了满足试题、试卷的需求外，对于题库建设更具有非常重要的作用，因为根据实测数据，可以量化试题的各项指标，而这些指标是判断试题是否可以进入题库的重要依据，同时也是计算机生成试卷的必要条件。

给试题标注各项指标，涉及到题库的管理系统和运行系统。根据汉字应用水平测试的特殊性和题库建设的最新研究成果及其发展趋势，课题组采用项目反应理论（IRT）作试题分析和题库建设的基础；与此同时，题库还划分字形、字音、字义和综合运用几个部分，构建板块框架，进行板块管理，每一个进入题库的试题都要标注所要考查的方面，并且标注作为考点的字属于测试字表中的哪一级，以此满足试卷各部分按一定比例进行拼合的需求；最后，题库的运行系统中，还要包括查重、筛选的过滤程序，避免考点重复，尤其是涉及字形判断、书写方面的试题，不能在考查其他任何方面的试题中出现。

五、有待进一步研究解决的几个主要问题

从2002年底到现在，汉字应用水平测试的主体框架已经初现端倪，基本上能够满足实测的需求了，课题组感谢各方面的专家和同行在项目进行过程中所给予的支持和帮助，并将不断改进和完善测试框架和系统，以满足社会的需求。

在今后几年时间里，还有一些问题需要继续探索和研究。第一是根据国家语言文字政策、语言文字规范和标准的发展对测试的有关内容适时进行调整。第二是适应社会语文生活发展、变化的现实，处理好汉字应用水平测试的相关内容。第三是测试手段的现代化和多样化，比如计算机辅助测试、计算机化自适应测试等。第四是研究针对特定人群的等级标准和HZC分数对应，以至开发专门用于特定人群的测评子系统。第五是针对社会上整理传统文献等需求，以及台、港、澳和海外汉字应用的现状，研究涉及繁体字的测评方案问题。

参考文献

1.教育部国家语委 2006 《汉字应用水平等级及测试大纲》，广州：广东教育出版社

2.国家对外汉语教学领导小组办公室汉语水平考试部 1992 《汉语水平词汇与汉字等级大纲》，北京：北京语言学院出版社

3.张敏强 1998 《教育测量学》，北京：人民教育出版社

4.田万海 1995 《数学教学测量与评估》，上海：上海教育出版社

5.许嘉璐 1999 《语言文字学及其应用研究》，广州：广东教育出版社

6.张一清 2004 《汉字应用水平等级标准》研制报告，《语言文字应用》第1期，56-62页

7.孙曼均 2004 汉字应用水平测试用字的统计与分级，《语言文字应用》第1期，63-70页

8.Bernard Spolsky 1999 《Measured Words》，上海：上海外语教育出版社

9.Lyle F.Bachman & Adrian S.Palmer 1999 《Language Testing in Practice》，上海：上海外语教育出版社

10.J.Charles Alderson，Caroline Clapham，Dianne Wall 2000 《Language Test Construction and Evaluation》，北京：外语教学与研究出版社，剑桥大学出版社

11.Lyle F.Bachman 1999 《Fundamental Considerations in Language Testing》，上海：上海外语教育出版社

原文地址：

http://www.china-language.gov.cn/93/2007_11_23/1_93_3100_0_1195793708734.html