BCC语料库全称为北京语言大学汉语语料库,由北京语言大学信息科学学院大数据与教育技术研究所开发的BCC汉语语料库,总字数约 150 亿字。
包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。
CCL语料库全称为北京大学汉语语言学研究中心语料库,它分为“古代汉语”和“现代汉语”两部分,古代汉语语料库收录了自周朝到民国共 15 个朝代的各种体裁的古代汉语语料 1059 个,现代汉语语料库收录现代报刊、文学作品等汉语语料 1696 个。

作文对译语料库该语料库收集了一些日语学习者(母语包括但不仅限于汉语)的作文,一部分有日语老师批改的痕迹。通过这些作文中反映出来的问题,我们对照自身,有则改之无则勉。
青空文库也是我们会经常用到的一个语料库。它收录了很多在日本国内版权到期或者作者允许公开发行的文学作品。不需要注册,可以直接在线观看。
1.BCC语料库
北京语言大学的BCC汉语语料库,总字数约 150 亿字,包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料。
网址:http://bcc.blcu.edu.cn/
网站页面如下图:
2.CCL语料库
北京大学中国语言学研究中心的CCL语料库,包括现代汉语语料库、古代汉语语料库、汉英双语语料库(仅限北大校内用户使用)。
网址:http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp
网站页面如下图:
3.语料库在线
功能强大,除了可以实现语料库检索功能以外,还可分析处理语料。语料库检索包括现代汉语语料库、古代汉语语料库、语料库字词索引。语料分析处理包括:分词和词性标注、汉语拼音标注、字词频率统计。
网址:http://corpus.zhonghuayuwen.org/index.aspx
网址页面如下:
4.澜科语言科技
澜科语言科技语料库包括汉语教材语料库、全球华语语料库、中小学作文语料库、网页分类新闻语料库。
网址:http://www.languagetech.cn/corpus/
网站页面如下:
小rainbow
2019.7.25
提供如下:
北京大学语料库http://ccl.pku.edu.cn/Yuliao_Contents.Asp
北语语言信息处理研究所CCRL 汉语检索通 (可以使用)
介绍:http://lib.blcu.edu.cn/qt/zy32.htm
使用http://202.112.195.6:800/
北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn
北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm
清华大学的汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm
山西大学的语料库: http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm
台湾中研院的语料库:
现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus
或 http://www.sinica.edu.tw/~tibe/2-words/modern-words/
或 http://www.sinica.edu.tw/ftms-bin/kiwi.sh
近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/
古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw3
或 http://www.eastasian.ucsb.edu/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi
或 http://www.sinica.edu.tw/~tibe/2-words/old-words/
台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/
闽南语典藏:http://southernmin.sinica.edu.tw/
汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/ 查找古籍用
或 http://www.sinica.edu.tw/ftms-bin/ftmsw3
香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.edu.hk/livac/
或 http://www.LIVAC.org
浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm
中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php
中文语言资源联盟:http://www.chineseldc.org/xyzy.htm
The Singapore Corpus of Research in Education
新加坡教育研究语料库 (SCoRE)
The International Corpus of Crosslinguistic Interlanguag
国际跨语言中介语语料库 (ICCI)
The Singapore Corpus of Preschoolers' Spoken Mandarin
新加坡学前儿童华语口语语料库 (Wordlist)
A Corpus of Mandarin Textbooks in Singapore and Malaysia
新加坡、马来西亚中小学华文课本语料库 (Textbook)
An Investigation in Peer Work and Peer Talk in Singapore Primary Classrooms
新加坡小学课堂小组对话语料库 (PWPT)
A Chinese-English Parallel Corpus of Newspaper Advertisements
新加坡报章广告汉英平行语料库 (Ads)
Hongloumeng Chinese-English Parallel Corpus
红楼梦汉英平行语料库 (HLM)
A Parallel Corpus of Chinese Legal Texts
中国法律文件汉英平行语料库 (LAW)
The Babel English-Chinese Parallel Corpus
巴比伦英汉平行语料库 (BABEL)
A Parallel Corpus and Web Concordances of Five Versions of Laozi
《老子》五种版本平行检索及字词索引 (LAOZI)
A Corpus Database of Xuan Ying's Glossary of Buddhist Sutra
玄应《众经音义》平行检索数据库 (Sutra)
The Lancaster Corpus of Mandarin Chinese
兰开斯特大学汉语语料库 (LCMC)
The UCLA Corpus of Written Chinese
洛杉矶加州大学汉语书面语语料库 (UCLAWC)
A Web Concordancer for Modern Chinese Literature
中国现当代文学作品检索演示版 (Literature1)
A Web Concordancer for Modern Chinese Literature (with Chinese segmentation and POS tagging)
中国现当代文学作品检索演示版 (附词性标注) (Literature2)
绍兴学院语料库大全http://corpus.zscas.edu.cn/
以上就是关于北京大学语料库全部的内容,如果了解更多相关内容,可以关注,你们的支持是我们更新的动力!
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【北京大学语料库】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
