发表学术论文网

基于语言监测的新世纪汉语高频新词语研究

  摘要:语言总是处于不断的运动状态中,21 世纪以来随着社会的发展产生了大量的新词语。这些新词语在动态发展变化中呈现了复杂多变的语言现象。本文搜集整理了新世纪新词语表,与语言监测中的高频词语数据相结合,统计获得了2000—2020 年间的 173 个高频新词语,通过对其进行动态观测、描写、分析,绘制了历时词频发展变化轨迹,探索新世纪高频新词语的发展变化。

  关键词:高频新词语;动态;词频;发展曲线

高频词汇

  新词语是社会生活的一面镜子,真实的反映出语言和社会生活共变的特征。21 世纪以来,包括中国在内的世界处在一个重大的社会变革和转型时期,社会的政治、经济、科技以及人们的思想观念等都发生着巨大的变化,信息技术的发展又为词语传播提供了丰富的土壤和强大的驱动力。本文在建立新世纪新词语表的基础上,结合语言监测与数据分析,对高频新词语的动态发展变化进行初步的描写记录和归纳。

  一、新世纪新词语表的建立

  (一)新词语的界定

  新是一个模糊概念,也是一个时间概念,新出现的词语,在多久的时段里,可以算作新词语呢?刘叔新将这一时间段定为 15—20 年左右,产生在现在至 20 年前时间段内的,便是新词语。按照这种认识,新世纪新词语,则是指 21 世纪以来,即 2000 年以来“陆续产生而稳定地使用到今天的词语”[1],涵盖新形式、新意义、新用法,既包括新词也包括新语。

  (二)新词语表的建立

  本文的新词语从 2000 年以后出版的新词新语词典中进行选取,汇总 2000 年之后出版的新词新语词典共有近 20 部:周洪波主编的《新华新词语词典》[2],王均熙编撰的《新世纪汉语新词词典》[3],沈孟璎主编的《新中国 60 年新词新语词典》[4] ,刘海润、亢世勇主编《现代汉语新词语词典》[5],宋子然主编《100 年汉语新词新语大辞典》(1912 年—2011 年)[6]等。根据词典的出版时间、收词时间和编撰体例、书证选录原则等因素,我们从中选取了两部辞典、两组编年本系列词典作为新世纪新词语的选取来源。宋子然主编的《100 年汉语新词新语大辞典》在国内属于起步早、持续时间久、收词自成系统的出版物,其语料收集有代表性,词义释义客观公允,每个词目都有早期书证材料。在其下卷(1978—2011 年)中人工选取 2000 年及以后出现至 2011 年的新词新语条目共 2705个,收入词表。

  亢世勇,刘海润主编的《新世纪新词语大词典》(2000—2015 年)[7]以人民网为语料库进行检索统计,收录了2000—2015年间出现的新词语5400余条,全部收入词表。2000 年之后出现的编年本新词语词典有两组:第一组是宋子然主编的《汉语新词新语年编》(1997—2000)卷[8]、(2001—2002)卷[9]、(2003—2005)卷[10];宋子然、杨小平主编的《汉语新词新语年编》(2006—2008)卷[11]、(2009—2010)卷[12];取其中 2000 年—2010年词语 2784 个,收入词表。第二组是教育部语言文字信息管理司策划的系列编年本汉语新词语。从 2006 年至 2018 年每年国家语言资源监测与研究中心都在主流媒体中统计提取年度新词语,至今已出版 13 册①,共收录新词语 6439 个,收入词表。

  2019—2020 年度单册未出版,电子版可查询,新词新语共 511 个,收录词表。这两部辞典、两组系列编年本的出版时间都在 2000 年之后,所收录词语符合新世纪新词语的时间范围;收词原则基本一致,对于使用范围较窄,使用频度低的不稳定的词语不收录,低俗庸俗的词语也尽量不收录;每个词都有较早的书证材料,语料来源包括通行的报刊、书籍以及网络和一些有声媒体等,基本涵盖了不同地区、不同性质的文本,具有代表性。词表对这些新词语取并集,词目著录出现年代如有不一致,取早舍晚,选取有较早书证的年代。经过整理,建立了 2000—2020 年的新世纪汉语新词语表,共收词 12797 个。

  新词语表建立后,为保证新词语出现时间的准确性,人工查询了 BCC 语料库、CCL 语料库、人民日报图文数据库(1946—2021)、中国重要报纸全文数据库、《字母词词典》等,对词条进行了跨年度语料的回查、验证,对新词语的首次出现时间再次进行核准,对查找到了存在 2000 年以前书证材料的新词语进行了删除,力争所有新词语的首见书证都是在 2000年及以后,最终形成的 2000—2020 年新世纪汉语新词语表共有词条 10521 个,由新词语、首次出现时间组成。平均每年度产生新词语约 500 个。

  二、新世纪高频词语表的建立

  (一)高频词语的界定高频词语,顾名思义,是指使用频率高的词语。国家语言资源监测与研究中心自 2004年 6 月开始,以动态流通语料库为基本监测平台,对平面媒体、有声媒体、网络媒体、教育教材以及海外华语等 10 亿字次的 100 多万个文本文件的语言状况进行分析研究,发布当年最新的字词语统计数据。通过大规模语言实态调查的方式,统计出每年的词种数①约 200 多万②,再使用词频统计软件进行统计,覆盖 80%语料的词种数大约有 4000—5000 左右,覆盖90%语料的词种数大约有 1 万左右,覆盖 99%语料的词种数约十多万条。监测中心把覆盖率③达到 90%的词语称为高频词语④,也可以理解为频次⑤比较高的词语。

  (二)高频词语表及特点论文选取

  2005—2021 年《中国语言生活状况报告》中国家语言资源监测与研究中心发布的每年度“高频词语表”,共 16 个词表,每个词表约 1 万个词条①。词语表对人名类、地名类、专有名词类以及数字类(第一、第二或一、二、三等)做了人工排除,但保留概指性的地名和重要新闻事件的发生地、保留国际机构等重要机构名。词语表不区分同形词与多义词,没有考虑同一词形不同词性或词义的区别。高频词语的使用具有一定的稳定性。纵观 16 年的高频词语中,相同的词种数有 7983个,这近八千个词语在 16 年间呈稳定的高频分布状态,不同年度之间变化很小,没有随着时间增长或调查文本的增减而不断变化。

  三、新世纪新词语成长期动态监测

  新词语产生后,经过一段时间的使用,我们称为新词语的成长期,成长期的动态监测即通过对比分析各年度的新词语表与高频词语表,监测新词语成为高频词语的时间轨迹,描述新词语的动态发展变化。

  (一)动态监测的可行性新词语表来源于规范的新词语词典,语料来源包括通行的报刊、书籍以及网络和一些有声媒体等;高频词语表是以动态流通语料库为基本监测平台,以平面媒体、有声媒体、网络媒体等真实语料库文本为来源。其中《汉语新词语》编年本辞典系列本身就是《中国语言生活状况报告》中的一部分,都是由教育部语言文字信息管理司策划的,语料来源都是国家语言资源监测与研究中心的动态语料库。新词语表与高频词语表在词语提取方法、监测手段、语料来源等方面基本一致,为进行新词语成长期的动态监测提供了可行性。新世纪新词语表归纳的是 2000 年以来陆续产生而稳定使用的新词语,高频词语表统计的时间起点是 2005 年。从时间跨度上看,两个词语表的对比也具有可行性。

  (二)动态监测方法使用 Access 软件,把每一年作为一个监测时点,把 16 年作为监测时段,统计新词语进入到每年高频词语表中的词条,探索新词语的发展轨迹。由于语言监测工作实时性的特点以及监测手段的技术限制,高频词语表无法区分展示同一词形不同词性或词义的词频。所以统计每一年度新词语进入到高频词语表中时,对产生了新意义新用法的新词语进行了人工删除,只保留有新形式的新词语。如:微商,2013 年产生的新词语,2015 年即成为高频词语,但因与高等数学中“微商”概念词形一致,在词频统计中无法具体区分,属于已有词形产生了新意义的新词语,所以人工整理中予以删除。类似的词语还有微信号、土豪等。

  (三)动态监测结果新词语成为高频新词语分为两种情况:一种是新词语出现当年就成为高频词语,如:八荣八耻、沪港通、一带一路、H7N9 禽流感、新冠病毒、给力、余额宝、中国大妈等,因其所表示事物当年受到高度关注成为热点进而成为高频词语;另一种是新词语出现当年使用频次并不高,但随着时间推移新事物、新现象越来越受到人们的关注,使用频次大幅增高,如:博客、微博、微信、 支付宝、房企、动漫、小长假等,这些新词语占高频新词语的大多数,有些会语言生活中慢慢稳定下来,甚至成为常用词语。

  四、新世纪高频新词语特点

  语言动态监测就是在相对较长的时段内观察和记录语言使用状况,描述语言变化实态。纵观新世纪 21 年间新词语的发展变化,我们把产生之后能进入到高频词语表的新词语称为高频新词语。按照本文只统计以新形式出现的新词语的归纳原则,21 年间高频新词语的词种数是 173 个。本文从以下几个方面对高频新词语进行了考察分析,以进一步深化对高频新词语的认识。

  (一)语义类型

  高频新词语大多是随着新事物、新观念、新制度的产生而产生的新词语,从反映的内容和应用的领域来看,大致归纳为六个类别,包括政治、经济、科技、文化体育教育娱乐、社会生活、军事等。具体如下:

  1.政治类:共 23 个,占比 13%。自新世纪以来,我国政局稳定,全面依法治国,发展社会主义民主政治,正确处理改革、发展、稳定的关系,逐步消除贫困和改善民生,保障社会主义现代化建设顺利进行。这时期出现的高频新词语有:科学发展观、和谐社会、八荣八耻、人类命运共同体、美丽中国、精准扶贫、一带一路、两学一做、放管服、止暴制乱等,展示了中国社会的发展进程。2.经济类:共 48 个,占比 28%,是占比最多的高频新词语。经济类词汇在历时各个时期也都是占比较大的类型。新世纪以来,国民经济持续快速健康发展,综合国力进一步增强。供给侧结构性改革继续深化,新兴产业逐步壮大,居民收入增长与经济增长基本同步;生活质量也逐步提高。这类高频新词语有:房企、福彩、网银、夜经济、限价房、创客、消费券、欧债危机、刷单、自贸试验区、定向降准、首付贷、区块链、众创空间、校园贷、炒鞋、数字人民币等。

  3.科技类:26 个,占比 15%。21 世纪是信息技术的时代,信息技术的迅速发展和普及不断改变着人们的生产、生活方式。这一时期产生的科技类高频新词语主要表现为与互联网相关的一系列新生事物,如:博客、云计算、支付宝、大数据、3D 打印、微博、上网本、刷脸、微信、微信群、公众号、互联网+。4.文化体育教育娱乐类:共 31 个,占比 18%。物质生活的丰富促进了文化教育及娱乐的发展。这时期出现的高频新词语有:有表示文化现象的“工匠精神、申遗、非遗、文博会、女汉子、小鲜肉”;表示教育的“雅思、艺考”;表示体育的“福娃”;表示娱乐现象的“真人秀、报料、快男、恶搞、刷屏、网红、盲盒”等。5.社会生活类:共 42 个,占比 24%,比重仅次于最高的经济类。社会的发展科技的进步改变着人们生活的方方面面。如:月嫂、拼车、自驾游、群租、蚁族、海淘、失联、讨薪、业委会、光盘行动、非典、新冠、新冠病毒、绿码等6.军事类:3 个,分别是联合军演、恐袭、暴恐。由于涉及国家安全及特殊领域,因此这类高频新词语相对较少,仅限一些大型公开军事事件的描述。

  (二)来源类型高频新词语依据其具体情况有不同的产生来源与形成途径。具体有以下几类:

  1.由于新事物、新现象、新思想、新制度的出现而产生的新造词语,是高频新词语产生的主要来源途径,这类词语共 108 个占比 62%。如:由新事物出现而产生的“博客、福娃、微信、公众号、健康码”等,由新现象出现而产生的“交强险、群租、拼车、互联网+、炒鞋”等,由新思想、新制度出现而产生的“精准扶贫、万众创新、两学一做、四个自信、人类命运共同体”等。

  2.对现有事物现象等产生了新名称、新说法、新称谓,这类词语有 40 个,占比 23%。

  如:“月嫂”是新世纪以来对从事该行业人员的新称谓;“暖男、剩女、女汉子、小鲜肉、富二代、80 后”等都是使用形象丰富的语言对已有人员产生的新名称;随着社会发展语言不断求新求雅,产生了“颜值、呆萌、高富帅、驴友、给力、高冷、巨亏”等新说法新表达。

  3.对已有词语缩略后产生了新的词语,共有 18 个。如“公号、官微、新冠”是在“公众号、官方微博、新冠肺炎”等新世纪新词语产生后,较短时间内又形成了新的缩略词语;“动漫、社融、央企、恐袭”是在“动画和漫画、社会融资、中央企业、恐怖袭击”等 20世纪已有词语使用基础上,缩略而成的新词语。

  4.吸收外来词语形成的新词语,共有 7 个。如:脸书、推特、雅思、众筹、比特币等。

  (三)词语长度高频新词语中以二、三、四音节长度为主,双音节词语 77 个,三、四音节的词语共 89个。对于新词语来说,音节多表现力更丰富,因此三、四音节词语数量比双音节略多一些。五音节及以上的只有 7 个,多为专有名词。如“H7N9 禽流感、科学发展观、自贸试验区、上海合作组织、人类命运共同体”等。高频新词语中新词 118 个,占比 68%,其中三音节新词 21 个,四音节新词 13 个,三、四音节词长的占新词的 28.8%。新语共 55 个,其中 90%是三音节、四音节的词组。

  (四)词性分布高频新词语以名词动词为主。名词和名词词组共 126 个,占比 72%,如:央企、限价房、暖男、中国大妈等;动词和动词词组 41 个,如:讨薪、拼车、跟帖、合租等;形容词和形容词词组有 6 个,如:高富帅、呆萌、高大上、高冷等。五、高频新词语发展曲线

  对高频新词语成长期的动态监测就是要观察记录高频新词语的生命历程并研究其背后的语言学及社会学成因。一个新词语从产生到成为词汇系统中稳定的一员,都经历了不同的发展变化。纵观 16 年来高频新词语的发展,每个新词语的词频①都可以绘制成一条“历时词频发展变化曲线图”,具有不同特点、不同类型的新词语,历时词频发展曲线的类型也不同,由此反映出相应的政治、经济、文化等的社会发展变化。以上归纳的历时词频发展变化曲线图类型不能涵盖所有的高频新词语,新词语的词频变化方式更加多样,即使是具有典型曲线特征的新词语,也具有自己个性化的发展变化方式。

  语言方向投稿:语言学是ssci期刊发表方向吗

  同时,高频新词语的词频发展曲线是相对的,处于不断的发展变化中,本文归纳的孤点型、时段型随着时间的发展会演变成断续型,持续型曲线放到更长时间范围内看,也有可能发展成断续型或时段型。其中的成长型、衰减型更是处于不断的变化中。监测时间跨度越长,对高频新词语发展变化观测会越准。充满活力的语言,不仅是文化的基础要素和鲜明标志,更是促进历史发展和社会进步的重要力量。新世纪高频新词语真实记录反映了这 21 年间社会生活的发展变化,社会的发展变化也促使汉语词汇不断地发展变化、逐渐丰富和多元化。本文将汉语词汇的发展融入社会的发展、历史的考察中,以“共时中包含有历时和历时中包含有共时”的相对时间观为指导,基于语言监测技术整理归纳了新世纪高频新词语,厘清了高频新词语的产生时间、来源理据及发展变化,以此了解语言、认识社会进而规范语言、服务社会。

  [参考文献]

  [1]刘叔新.汉语描写词汇学[M].北京:商务印书馆,1990:249.

  [2] 周洪波.新华新词语词典[M].北京:商务印书馆,2003.

  [3] 王均熙.新世纪汉语新词词典[M].上海:汉语大词典出版社,2006.

  [4] 沈孟璎.新中国 60 年新词新语词典[M].成都:四川辞书出版社,2009.

  作者:郭伏良,侯丽

查阅更多的文史论文文章

扫码关注公众号

您身边的学术科研指导顾问,帮您解决论文、出书、专利难题。

热门推荐

申请发明专利注意的细节和技巧

教师出版专著有什么优势?

著作的版权页是指什么?包含哪些信息?

海牙体系外观专利申请相关疑问解答汇总

专利转让注意的问题有哪些

职称出书独著好还是合著好

学术专著怎么认定?

论文退修如何判断是小修还是大修

A&HCI索引期刊怎么确认期刊

论文质量提高方法

专利主要完成人的意思

国内率先实现导游评职称!山东未来将探索更多人才政策促进文旅融合

职称与论文专题
论文发表指导