手艺科普 | BCC汉语语料库:紧跟时代潮水的语料检索平台

2周前 (11-22 02:37)阅读1回复0
路亚哦哦哦
路亚哦哦哦
  • 管理员
  • 注册排名7
  • 经验值87030
  • 级别管理员
  • 主题17406
  • 回复0
楼主

1. 东西简介

北京语言大学语料库中心(BLCU Corpus Center,简称BCC)是以汉语为主、兼有英语和法语的在线语料库,是办事语言本体研究和语言利用研究的在线大数据系统。BCC语料库总字数约 150 亿字,包罗报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多范畴语料,是能够全面反映当今社会语言生活的大规模语料库。BCC语料库具有数据量大、范畴广和检索便当等长处。目前,已经撑持了百余篇论文的颁发。

BCC汉语语料库网址:

2. 图文教程

2.1 根本检索流程

1)在搜刮框里输进要检索的词汇或语句,能够抉择“多范畴”“文学”“报刊”“对话”“篇章检索”“古汉语”“历时检索”或“自定义”。如输进“标致的”。点击“搜刮”键,能够在单句范畴内,检契合检索式的语言片段。

2)点击“全文”,能够看见该词的出处。

3)点击“统计”,能够查询统计契合检索式的语言片段呈现的频次。

4)点击“挑选”,对检索成果进一步剔除或者仅仅保留契合挑选检索式的实例。

5)点击“下载”,能够下载10000条,但不克不及做贸易利用。

6)点击“高级”,设置检索成果的展现形式,掌握上下文字数。

2.2 历时检索

1)点击“历时检索 ”,输进“标致的”,检索成果能够看到检索式历年的呈现频次和频次,能够切换为柱状图、折线图两种展现体例。

2)点击“切换为频次图”,即可查看。

3)右上角依次为“数据视图”“切换为折线图”“切换为柱状图”“保留为图片”。

① 数据视图

② 折线视图

③ 保留的图片为png格局。

2.3 BCC检索式

1)下图为一些常见的检索式示例。

2)点击“文学”或“报刊”,输进根本检索式“爱v不v”。

3)此外,因为仅仅利用文字加英文的形式检索出来的内容其实不具有普遍性。因而,关于一个构造内部的精巧阐发,利用BCC的根本操做体例(链接)确实难以完成,无法一步到位。BCC在“报刊”“文学”两个频道数据晋级了高级检索功用。 4)高级检索式在根本检索式的根底上增加了前提语句或输出语句。语句之间用“;”离隔,写在根本检索式后的“{ }”中,形如:Query{condition1;condition2;...} Query表达根本检索式;{ }中的内容为限造语句,此中condition表达对检索内容停止前提限制。 检索式中被限制的部门需要用( )括起来,一个检索式中被限制的成分只能有两处,即只能呈现2个( )。根据( )呈现的挨次,利用$符号和序号指代该部门内容,在{ }中停止指称。 即$1表达第一个( )中呈现的内容,而$2表达第二个中的内容。 然而花括号里若何构造前提呢?通过内容限造([])长度限造(len)、次数限造(count)等操做符,BCC实现了更乖巧的检索。掌握体例详见下表。

好比,我们输进检索式示例:(v)了又(v){$1=$2;len($1)=1} 表达“动词+了又+动词”的构造。按“( )”呈现的挨次,两个动词可别离由“$1”“$2”获得。“{ }”中的限制前提表达前后两个动词不异,第一个动词长度为1。

2.4 其他功用

1)在首页下方,还能够看见“新闻”“搜刮示例”“下载”选项。

2)此中,“下载”选项里涵盖了树库资本,法语资本,HSK资本,汉字资本,词汇资本,外语资本及其他东西。便利利用者停止下载。

搜刮示例供给了响应句型的检索符号,便利检索者停止查阅。

3. 进修心得

BCC汉语语料库以汉语为主,兼有其他语种的语言大数据;为语言本体研究供给在线检索系统;为语言本体研究供给建构大数据的语言利用平台;撑持云办事;通过API挪用体例为开展常识抽取、模子构建供给便当。不只为汉语言喜好者供给便当专业的检索路子,也对处置中译外的译者及对外汉语教师供给了多角度,具有时效性的检索成果。同时,该检索东西搀扶帮助利用者们掌握更为细化的检索体例,进步了利用进修者们的搜刮技能。综上,BCC汉语语料库值得各人研究进修。

参考材料

[1]BCC汉语语料库官网-搀扶帮助栏

[2]肖丹、马路远BCC语料库 | 世界语言资本平台

做者:杨惠钧

编校:阿之

注:进修做品,仅供参考,欢送斧正。

0
回帖

手艺科普 | BCC汉语语料库:紧跟时代潮水的语料检索平台 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息