200万对英汉平行句对该语料库的总体规模共约,数高达2亿词次英语和汉语词例,学问产权的双语词典尺度数据以及英汉双语对照文献其素材一方面来历于南京大学双语辞书核心具有自主,大量的英汉双语平行对语料另一方面也面向收集获取了。ess and Nanjing University Lexical Database) 英汉言语材料库南京大学双语辞书研究核心还跟商务印书馆结合开辟了CONULEXID(The Commercial Pr,94年正式起头建立该语料库系统于19,7年通过验收并于199。
对齐、句子对齐加工后成立的一个句子级对齐的双语言语消息和学问库中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落,汇集中英文篇章级对齐的双语文本该语料库借助互联网等其他媒体,域多体裁面向多领,对齐方式进行了文本对齐采用基于双语辞典的句子,齐成果实现主动评价并对双语文本句子对。
1994年6月建成清华TH语料库于,的分歧采用分级办理的准绳其总库按照对语料加工深度,和熟语料两大类分成了生语料,、论文、杂志、东西书等五类子库语料素材此中0级生语料分库涵盖了一般书、报纸。断的升级和更新颠末近年来不,HS-30语料库已改名为THC。
言文字工作委员会掌管该语料库是由国度语,言语文字的学术研究、语文教育以及言语文字的社会使用面向言语文字消息处置、言语文字规范和尺度的制定、,达1 亿字总体规模,919-2002年语料时间跨度为1,及分析三个大类约40个小类的语料收录了人文与社会科学、天然科学。汉语通用均衡语料库全库的子集此中标注语料库为国度语委现代,的选材准绳进行均衡抽样该子集是按照事后设想,词和词类标注对语料进行分,次人工校对并颠末三,万字符的标注语料库最初获得约5000。
资本检测与研究有声媒体核心开辟该语料库由中国传媒大学国度言语,年起头扶植2003,5年上线200,大语料规模其后不竭扩,进行了第三次改版并于2016年。的3万多个广播、电视节目标转写文本该语料库包罗2008-2013年,2.4 亿个总字符数达到,主动分词和词性标注并对所有文本进行了。
双语平行语料库(NJU_BDRCBC08. 南京大学双语辞书研究核心英汉)
料库用于处置当前文本时的不足为了填补北京大学人民日报语,2015年至2018年《人民日报》颁发的文章为对象2019年起头南京农业大学人文与社会计较研究核心以,语料库(简称NEPD建立了新时代人民日报,),6年1月、2017年1月、2018 年1月共9个月的分词语料目前该语料库涵盖了《人民日报》2015 年1-5 月、201,弥补最新语料 而且后续将不竭。
0万汉字均衡语料库中提取了100万汉字规模的语料文本该语料库从包含文学、学术、旧事、使用四大体裁的20,阐发后再进行人工校对颠末主动断句、句法,树的汉语句法树库语料构成了有完整句法布局。
料、古代汉语语料两类单语语料CCL语料库中包含现代汉语语,元前11世纪到现代涉及的文献时间从公。料约6 亿字符此中现代汉语语,、电视片子、学术文献、史传、相声小品、白话等多个类型涵盖了文学、戏剧、报刊、翻译作品、收集语料、使用文。汉语语料约2亿字符CCL语料库中古代,全唐诗、诸子百家、全元曲、全宋词、道藏、词典、蒙学读物等的杂类语料收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、。语料库的扩容外除了两大单语,融入了一些专题语料库近年来CCL语料库还,式语料库、中文学术文献语料库、海外汉文收集语料等等例如:晚期北京话材料、留学生汉语作文语料、汉语构。
两个平行语料库目前仍在扶植中由王克非担任建立的汉英和汉日。和3000万字词的通用型汉英平行语料库两个部门该语料库包罗2000万字的日汉对译文本语料库。对应语料分为文学与非文学、汉译日和日译汉存放目前2000万字的日汉对译文本语料库的平行,落级对齐做到段,各类词语、短语、句型和搭配上的检索使用所研制的检索东西可对汉日语料做。行语料库分为通用型汉英平,语句库”以及“专科语料库”四个子库“百科语料库”“翻译文本库”“双语,料已根基做到句级对齐目前3000万字词语,成最终校对、标注、双语链接此中2000万字词语料已完。
是以汉语为主BCC语料库,德语、土耳其语等言语的语料库兼有英语、西班牙语、法语、,模约150亿字此中汉语语料规,技、分析和古汉语等多范畴语料涵盖了报刊、文学、微博、科。词语料、词性标注语料和句法树BCC语料库包罗了生语料、分,、法语的语料进行词性标瞩目前已对现代汉语、英语。
典籍及其所对应的白话文和英文翻译基于十三经、《战国策》、前四史等,习响应模子设想了句对齐的算法南京农业大学王东波连系深度学,白话文和英文的对齐实现了古词句子与,行了分词、词性和实体标注并对古文、白话文和英文进,典籍平行语料库 构成了独具特色的。
室在国度“863 打算” 项目“ 互联网言语翻译系统研制” 的支撑下清华大学中英平行语料库()由清华大学天然言语处置与社会人文计较尝试,和双语句子主动对齐软件获取并处置获得的操纵本身研发的互联网平行网页获取软件,万中英平行句对共包含285。
加入高档汉语程度测验(HSK高档) 的作文测验的答卷语料该语料库收录了1992-2005年部门母语非汉语的外国人,2月上线版本2006年1,线万字现已上。之外除此,库、汉语进修者白话语料库等多品种型的汉语语料库北京言语大学还成立了首都外国留学生汉语文本语料。励了更多学者和单元投入到讲授导向的语料库的扶植中北京言语大学多个语料库的问世及相关的研究功效激,大学与兰卡斯特大学结合成立的Guangwai Lancaster汉语进修者语料库等已知语料库有:中山大学成立的留学生中介语语料库、汉语持续性中介语料库、广东外语外贸。
英、汉日双语语料库该语料库为大型汉,级对齐语料2万句对、汉英词汇级对齐语料1万对包含汉英句子级对齐语料20万句对、汉日句子,供给根本资本和尺度的评测语料 旨在为机械翻译等使用系统的研发。
型的现代汉语标注语料库该语料库是我国第一个大,8年的纯文本语料为根本以《人民日报》199,注、动词和描述词特殊用法标注、短语型标注等加工工作完成词语切分、词性标注、专出名词标注、语素子类标,00万字的规模现已扩充至35。0万字语料的词语切分、词性标注和汉语拼音标注的加工使命后来北京大学计较言语学研究地点此根本上完成了别的10,辞书》、参照《现代汉语辞书》还操纵所研制的《现代汉语语义,况对词义描写进行调整按照语料现实利用情,ese Word Sense Tagging Corpus研发了一个大规模、高质量的现代汉语词义标注语料库(Chin,C)ST。
原北京言语学院)于1992年起头扶植汉语中介语语料库由北京言语大学( 。学生共5774篇成篇成段的汉语作文或操练材料该语料库安身于汉语讲授已收录1635位外国,353万总字数约,颠末断句、分词和词性标注等加工处置此中1731 篇约104万字的语料。库仍处于勤奋扶植过程中目前该全球汉语中介语料,扶植全球汉语中介语语料库北京言语大学仍然勤奋于,5000万字其规模估计达,语语料和多模态子库包罗笔语语料、口。计达4500万字笔语语料规模预,将加工成为熟语料此中2000万字;450小时白话语料,00万字约合4;110小时多模态语料,00万字约合1。
|