注重力机制造用被高估了?苹果等机构新研究:把注重力矩阵替换成常数矩阵后,性能差异不大

3个月前 (11-20 17:48)阅读1回复0
猪脚
猪脚
  • 管理员
  • 注册排名6
  • 经验值117200
  • 级别管理员
  • 主题23440
  • 回复0
楼主

萧箫 发自 凹非寺

量子位 | 公家号 QbitAI

要说Transformer的核心亮点,当然是 重视力机造了。

但如今,一篇新研究却突然提出了带点火药味的看点:

重视力机造关于预操练Transformer有多重要,那事儿得 打个问号。

研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学,他们提出了一种新的办法,用来权衡重视力机造在预操练Transformer模子中的重要性。

成果表白,即便往掉重视力机造,一些Transformer的性能也没太大改变,以至与本来的模子差别不到非常之一!

那个结论让很多人感应骇怪,有网友调侃:

你亵渎了那个范畴的神明!

所以,事实若何揣度重视力机造关于Transformer模子的重要性?

把重视力换成常数矩阵

那种新测试办法名喊 PAPA,全称“针对预操练语言模子重视力机造的探测阐发” (Probing Analysis for PLMs’ Attention)。

PAPA摘用的办法,是将预操练语言模子 (PLMs)中依靠于输进的重视力矩阵替代成常数矩阵。

如下图所示,我们熟悉的 重视力机造是通过Q和K矩阵,计算得到重视力权重,再感化于V得到整体权重和输出。

如今,Q和K的部门间接被替代成了一个 常数矩阵C:

此中常数矩阵C的计算体例如下:

随后,用6个下流使命测试那些模子 (CoLA、MRPC、SST-2、MNLI、NER、POS),比照摘用PAPA前后,模子的性能差距。

为了更好地查验重视力机造的重要性,模子的重视力矩阵并不是一次性全换成常数矩阵,而是逐次削减重视力头的数量。

如下图,研究先用了BERT-BASE、RoBERTa-BASE和DeBERTa-BASE做尝试,此中y轴表达性能,x轴是重视力头比拟本来削减的情状:

随后,研究又用了BERT-LARGE、RoBERTa-LARGE和DeBERTa-LARGE做尝试:

通过比力成果,研究人员发现了一些有意思的现象:

起首,用常数矩阵替代一半的重视矩阵,对模子性能的影响极小,某些情状下以至可能招致性能的提拔 (x值到达½时,图中有些模子数值不减反增)。

其次,即便重视力头数量降低为0,均匀性能下降也就8%,与原始模子比拟最多不超越20%。

研究认为,那种现象表白预操练语言模子对重视力机造的依靠没那么大 (moderate)。

模子性能越好,越依靠重视力机造

不外,即便是预操练Transformer模子之间,性能表示也不完全一样。

做者们将表示更好的Transformer模子和更差的Transformer模子停止了比照,发现本来性能更好的模子,在颠末PAPA的“测试”后, 性能反而变得更差了。

如下图,此中y轴代表各模子本来的均匀性能,x轴代表将所有重视力矩阵替代为常数矩阵时 (颠末PAPA测试)模子性能的相对降低分值:

能够看出,之前性能越好的模子,将重视力矩阵替代成常数矩阵遭到的缺失也越高。

那阐明假设模子自己性能越好,对重视力机造的操纵才能就越好。

关于那项研究,有网友觉得很赞:

听起来很酷,如今很多架构太重视各类计算和性能使命,却漠视了事实是什么给模子带来的改动。

但也有网友认为,不克不及单纯从 数据来揣度架构改变能否重要。

例如在某些情状下,重视力机造给隐空间 (latent space)中数据点带来的幅度改变仅有2-3%:

莫非那种情状下它就不敷重要了吗?纷歧定。

关于重视力机造在Transformer中的重要性,你怎么看?

论文地址:

— 完—

MEET 2023 大会定档!

首批嘉宾阵容公布

量子位「MEET2023智能将来大会」正式定档12月14日!

首批嘉宾包罗 郑纬民院士、MSRA 刘铁岩、阿里 贾扬清、百度 段润尧、高通 Ziad Asghar、小冰 李笛、海潮 刘军以及中关村科金 张杰等来自产学研界大咖嘉宾,更多重磅嘉宾陆续确认中。

点击 “预约”按钮,一键中转大会曲播现场!

点那里存眷我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~

0
回帖

注重力机制造用被高估了?苹果等机构新研究:把注重力矩阵替换成常数矩阵后,性能差异不大 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息