干货 | 如何快速从全世界语料中找到你想要的句子?

3周前 (11-20 09:56)阅读1回复0
路亚哦哦哦
路亚哦哦哦
  • 管理员
  • 注册排名7
  • 经验值89735
  • 级别管理员
  • 主题17947
  • 回复0
楼主

点击上方 “语言办事”能够订阅

又有神器来挽救文盲了!

气候太热只会念叨一句“热死了”?发伴侣圈翻来覆往才憋出几个字?

那个检索神器值得领会一下。

只要在搜刮框里输进你想表达的意思,如“热死了”。

立即就能有20个表达那一意思的句子任君挑选。

句子类型还能按需拔取,名言警句、歇后语、古诗文都不在话下。

而且给出的名言还会说明出处做者,那下再也不消啥话都往迅哥儿身上套了。

展开全文

怪不得网友曲唤:伴侣圈案牍高级表达查找替代系统。

并且,我们在试玩了几轮后发现,那个神器在hold住收集鄙谚“精华”上的表示有些出人意表。

好比那两天各人都在说的“精神内耗”。

它给出了一段卢梭的话,完全拿捏住了词语原来的意思,语言逼格立马提拔好几度。

以至还能找出意思附近的古诗文。

来自欧阳修《秋声赋》中的那句“百忧感其心,万事劳其形,有动乎中,必远其情”,说的意思就是焦虑使人精神怠倦。

果实是能通杀古今了。

于是,我们找来了更多收集时髦语喂给它,看看还能擦出什么火花~

听我说谢谢你,古诗版

第一个要测验考试的收集名句,是“听我说谢谢你”。

神器反向输出成果中,意思最为切近的是王维的那句“举世无了解,末身思旧恩”。

那句诗中明白表现了说话主体人表达 感激之意,称得上是“听我说谢谢你”的究极上流版。

还有在句式上十分接近的成果,是温庭筠笔下的“知我意,感君怜”。

最让人意想不到的,是神器反向输出了《将进酒》里的“与君歌一曲,请君为我倾耳听”。

乍看之下,那个谜底似乎是错的。

但要晓得“听我说谢谢你”能成为梗,就是因为防疫人员为难被迫听歌事务……

那么看,反向输出神器还不测扣了题。

不但是那句梗,还有良多收集用语,反向输出神器的答复都是貌似天南地北,但又让人觉得反常契合。

好比输进“无语子”,给出的诗句有:

满怀心腹事,尽在不言中。

那不就是各人表达无语时的实在心境吗?因为未便明说,所以缄默,所以无语。

还有那句“你品,你细品”,输出的诗句也都带有了认真品读、频频回味的意思。

那么,那个好用又好玩的神器,到底是什么来头呢?

来自清华的“据意查句”

以上说的那个好登西,是由清华推出的“据意查句”神器——WantQuotes。

降生自清华大学计算机系天然语言处置与社会人文计算尝试室(THUNLP),项目批示教师为孙茂松传授和刘知远副传授。

可以快速从全世界那么多语猜中找到你想要的句子,那个神器次要靠的是一个超大的数据集和一个选举模子。

数据集包罗了英语、现代汉语和文言文三大部门。

选举模子方面,本文提出利用BERT做为句子编码器来进修名言警句和相关文本表达。

但因为绝大大都名言警句的表达都十分凝练,但是可能此中每个背后的意义又包罗良多层,所以在本办法中,研究人员将义原引进到编码器中。

简单来说,义原是语言学中最小的语义单元。语言学家认为义原系统在任何语言中都适用,不与特定语言相关。

举个例子,“男孩”那个词能够由“人类”、“男性”、“儿童”那个三个义原表达,“女孩”则能够由“人类”、“女性”、“儿童”的组合来表达。

因而在模子中引进义原后,就能很好处理词义消歧的问题,而且能更准确地捕获到词与词之间的关系。

也就是让模子把语言学得愈加深入。

而在详细使命比照中能够看到,本文办法的性能均优于其他办法。

同时用消融尝试验证了操练办法的有效性(下表最初三行成果)。

在只给出左侧文本的前提下,本文办法的成果照旧优于过往办法。

还有反向词典和AI做诗系统

看到那里你可能觉得那项工做有点似曾了解。

没错,阿谁之前爆火的“反向词典”也来自那个尝试室。

所谓“反向”,就是和常规词典差别,不是按词觅义,而是反过来给词典一段描述,让它来帮你找词。

好比仍是那句“听我说谢谢你,因为有你,温热了四时”,用成语应该怎么说?

反向词典能够立马抛出几十甚至上百个选项出来,而且还会标注选举水平。

布景颜色越深,代表系统选举水平越高。

如果碰上啥看不懂的,鼠标一点,就能查看详细释义。

而除了挽救现代失语人外,他们还让AI测验考试过写古诗,之前也在收集上爆火过。

不能不说,THUNLP实是要把AI+中文玩出花了。

该尝试室由孙茂松传授领衔,教师步队中还有刘洋传授和刘知远副传授。

前不久,THUNLP还获得了ACL 2022更佳演示论文奖(Best Demo Paper Award)。

该奖项是ACL系列会议对System Demonstration论文授予的更佳论文奖项,每届会议基于评审人员评估的系统奉献度、完成度、影响力及会议演示综合效果的综合评判评选出一篇获奖论文。

One More Thing

目前,“反向词典”在网页端和微信小法式上都能利用,APP在路上了。

“据意查句”还只能在网页端利用(需要扫码存眷公家号)。

别的,团队表达仍是期看各人在利用时多给反应、多提定见。

好比给好的选举名句点赞,假设看到有错误之处也能间接斧正。

对了,研发团队还表达,做为开源项目随时欢送各人加进,参与项目设想开发、提出需求、反应问题。

感兴致的话就往官网戳戳通知布告吧~

“据意查句”官网:

/

“反向词典”官网:

/

本文来源:量子位

科研干货

重磅 | 最新版北大核心期刊目次及投稿体例大全(语言学)

重磅 | CSSCI(2021-2022)来源期刊(含扩展版)投稿体例大全(语言学)

干货 | 国际中文教导研究刊物集锦(含刊物简介及投稿体例)

重磅 | 2021版语言学类SSCI期刊名单出炉(附excel版下载)

干货 | 超适用的学术论文英语句式大全(附PDF格局下载)

干货 | 核心期刊主编收招:若何进步论文颁发胜利率?

干货 | 北师大学报主编:期刊编纂如何揣度一篇论文写得好欠好

干货 | 北大传授阐发了124篇不合格硕士学位论文,发现了那些典型问题

干货 | 北大教师抽检16275篇硕士学位论文,发现不合格论文的6个问题

干货 | 从全国“百篇优博”看学位论文选题关键

学苑 | 毛浩然:论文写做与课题申报六问——基于外国语言文学案例

干货 | 毛浩然传授:CSSCI论文写做的九大堵点与转折点(附PPT)

干货 | 研究生第一篇学术论文普及存在的九个问题

干货 | 学术论文的六个关键方面,贫乏一个都不是好论文!

干货 | 研究生论文写做四步曲

干货 | 博士学位论文立异的十个切进点(附论文写做指南)

干货 | 文科博士写好论文的十条定见

学苑 | 陈平:从现代语言学典范论著看语言学论文的写做与颁发

干货 | 论文的写做流程与写做身手

干货 | 外语教学论文写做与颁发

干货 | 论文写做中的语言及相关问题

干货丨论文原则构造及写律例范最全整理

干货 | 人民日报整理:若何写出一篇高量量论文?

干货 | 那个神器能够获取海量资本,写论文做课题必备

干货 | 英语教学及论文写做必备的12个语法检测东西

干货 | 知网检索系统更新了,那些新功用,你get到了吗?

干货 | 知网身手:若何在知网查询外文文献

干货丨那30个网站能够免费获取英文电子书和文献资本

干货 | 6本典范英英词典免费电子资本包(内附安拆教程)

干货 | 50个常用学术网站及利用指南

干货 | 全球免费数字藏书楼资本大全!

干货 | 选举收躲!130个学术网站和26个科研东西

干货 | 选举收躲!20个适用的语言文字检索数据库

干货 | 选举收躲!语言研究必备的37个常用语料库

干货 | 做科研最隐讳什么:以语言学研究为例

干货 | 新华社公布102个禁用词,三思然后言(附word版下载)

干货 | 各大收集平台违禁词清点(含小红书、B站、抖音、微博、微信等)

干货 | 39条涉台湾鼓吹用语当重视!

干货 | 全员警惕!期刊投稿常见的诈骗套路及鉴别指南

干货 | 超适用!“年度十大语文差错”合集(2012—2021)

干货 | 出错率更高的500个汉字,一不留心就坑到你!

干货 | 除了“谢谢”,PPT结尾页还能够说什么?

语言办事资本共享

学术资讯分享

学术资本共享

学术交换共进

还有适用干货和更多福利

尽在语言办事资本共享群

欢送加进

在【语言办事】公家号对话框

回复“资本共享”

获取进群体例

语言办事

17万+语言学人已存眷

ID:Language-service

投稿邮箱:yuyanfuwu@yeah.net

请联络语服君

微信号:yuyanfuwu2020

点击

阅读原文

获取更多适用干货

各人都“在看”,就差你啦~

0
回帖

干货 | 如何快速从全世界语料中找到你想要的句子? 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息