全国普通话信息库包括哪些

投稿:一尘不染美少年 优质问答领域创作者 发布时间:2023-10-09 21:43:44
全国普通话信息库包括哪些

全国普通话信息库包括:

01. 国家语委现代汉语通用平衡语料库

该语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料。其中标注语料库为国家语委现代汉语通用平衡语料库全库的子集,该子集是按照预先设计的选材原则进行平衡抽样,对语料进行分词和词类标注,并经过三次人工校对,最后得到约5000万字符的标注语料库。

http://www.aihanyu.org/cncorpus/index.aspx

02. 北京语言大学语料库中心BCC语料库

BCC语料库是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。

http://bcc.blcu.edu.cn

03. 清华TH语料库

清华TH语料库于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。

全国普通话信息库包括哪些

普通话考生资料进行遍历,包括姓名、身份证号照片等信息。