看问答购物注重力机制造用被高估了？苹果等机构新研究：把注重力矩阵替换成常数矩阵后，性能差异不大

注重力机制造用被高估了？苹果等机构新研究：把注重力矩阵替换成常数矩阵后，性能差异不大

3个月前 (11-20 17:48)阅读1回复0

猪脚

管理员
注册排名6
经验值117200
级别管理员
主题23440
回复0

楼主

萧箫发自凹非寺

量子位 | 公家号 QbitAI

要说Transformer的核心亮点，当然是重视力机造了。

但如今，一篇新研究却突然提出了带点火药味的看点：

重视力机造关于预操练Transformer有多重要，那事儿得打个问号。

研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学，他们提出了一种新的办法，用来权衡重视力机造在预操练Transformer模子中的重要性。

成果表白，即便往掉重视力机造，一些Transformer的性能也没太大改变，以至与本来的模子差别不到非常之一！

那个结论让很多人感应骇怪，有网友调侃：

你亵渎了那个范畴的神明！

所以，事实若何揣度重视力机造关于Transformer模子的重要性？

把重视力换成常数矩阵

那种新测试办法名喊 PAPA，全称“针对预操练语言模子重视力机造的探测阐发” （Probing Analysis for PLMs’ Attention）。

PAPA摘用的办法，是将预操练语言模子（PLMs）中依靠于输进的重视力矩阵替代成常数矩阵。

如下图所示，我们熟悉的重视力机造是通过Q和K矩阵，计算得到重视力权重，再感化于V得到整体权重和输出。

如今，Q和K的部门间接被替代成了一个常数矩阵C：

此中常数矩阵C的计算体例如下：

随后，用6个下流使命测试那些模子（CoLA、MRPC、SST-2、MNLI、NER、POS），比照摘用PAPA前后，模子的性能差距。

为了更好地查验重视力机造的重要性，模子的重视力矩阵并不是一次性全换成常数矩阵，而是逐次削减重视力头的数量。

如下图，研究先用了BERT-BASE、RoBERTa-BASE和DeBERTa-BASE做尝试，此中y轴表达性能，x轴是重视力头比拟本来削减的情状：

随后，研究又用了BERT-LARGE、RoBERTa-LARGE和DeBERTa-LARGE做尝试：

通过比力成果，研究人员发现了一些有意思的现象：

起首，用常数矩阵替代一半的重视矩阵，对模子性能的影响极小，某些情状下以至可能招致性能的提拔（x值到达½时，图中有些模子数值不减反增）。

其次，即便重视力头数量降低为0，均匀性能下降也就8%，与原始模子比拟最多不超越20%。

研究认为，那种现象表白预操练语言模子对重视力机造的依靠没那么大（moderate）。

模子性能越好，越依靠重视力机造

不外，即便是预操练Transformer模子之间，性能表示也不完全一样。

做者们将表示更好的Transformer模子和更差的Transformer模子停止了比照，发现本来性能更好的模子，在颠末PAPA的“测试”后，性能反而变得更差了。

如下图，此中y轴代表各模子本来的均匀性能，x轴代表将所有重视力矩阵替代为常数矩阵时（颠末PAPA测试）模子性能的相对降低分值：

能够看出，之前性能越好的模子，将重视力矩阵替代成常数矩阵遭到的缺失也越高。

那阐明假设模子自己性能越好，对重视力机造的操纵才能就越好。

关于那项研究，有网友觉得很赞：

听起来很酷，如今很多架构太重视各类计算和性能使命，却漠视了事实是什么给模子带来的改动。

但也有网友认为，不克不及单纯从数据来揣度架构改变能否重要。

例如在某些情状下，重视力机造给隐空间（latent space）中数据点带来的幅度改变仅有2-3%：

莫非那种情状下它就不敷重要了吗？纷歧定。

关于重视力机造在Transformer中的重要性，你怎么看？

论文地址：

— 完—

MEET 2023 大会定档！

首批嘉宾阵容公布

量子位「MEET2023智能将来大会」正式定档12月14日！

首批嘉宾包罗郑纬民院士、MSRA 刘铁岩、阿里贾扬清、百度段润尧、高通 Ziad Asghar、小冰李笛、海潮刘军以及中关村科金张杰等来自产学研界大咖嘉宾，更多重磅嘉宾陆续确认中。

点击 “预约”按钮，一键中转大会曲播现场！

点那里存眷我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~

阿里v任务

回帖 特斯拉回应撞人事故/iPhone 16或全系搭载3nm芯片/得物否认调手机权限删视频 超级平台争相布局，流量市场的这些转变你发现了吗

注重力机制造用被高估了？苹果等机构新研究：把注重力矩阵替换成常数矩阵后，性能差异不大期待您的回复！

取消

注重力机制造用被高估了？苹果等机构新研究：把注重力矩阵替换成常数矩阵后，性能差异不大

注重力机制造用被高估了？苹果等机构新研究：把注重力矩阵替换成常数矩阵后，性能差异不大 期待您的回复！

插入网络图片

注重力机制造用被高估了？苹果等机构新研究：把注重力矩阵替换成常数矩阵后，性能差异不大期待您的回复！