注重力机制造用被高估了?苹果等机构新研究:把注重力矩阵替换成常数矩阵后,性能差异不大
萧箫 发自 凹非寺
量子位 | 公家号 QbitAI
要说Transformer的核心亮点,当然是 重视力机造了。
但如今,一篇新研究却突然提出了带点火药味的看点:
重视力机造关于预操练Transformer有多重要,那事儿得 打个问号。
研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学,他们提出了一种新的办法,用来权衡重视力机造在预操练Transformer模子中的重要性。
成果表白,即便往掉重视力机造,一些Transformer的性能也没太大改变,以至与本来的模子差别不到非常之一!
那个结论让很多人感应骇怪,有网友调侃:
你亵渎了那个范畴的神明!
所以,事实若何揣度重视力机造关于Transformer模子的重要性?
把重视力换成常数矩阵
那种新测试办法名喊 PAPA,全称“针对预操练语言模子重视力机造的探测阐发” (Probing Analysis for PLMs’ Attention)。
PAPA摘用的办法,是将预操练语言模子 (PLMs)中依靠于输进的重视力矩阵替代成常数矩阵。
如下图所示,我们熟悉的 重视力机造是通过Q和K矩阵,计算得到重视力权重,再感化于V得到整体权重和输出。
如今,Q和K的部门间接被替代成了一个 常数矩阵C:
此中常数矩阵C的计算体例如下:
随后,用6个下流使命测试那些模子 (CoLA、MRPC、SST-2、MNLI、NER、POS),比照摘用PAPA前后,模子的性能差距。
为了更好地查验重视力机造的重要性,模子的重视力矩阵并不是一次性全换成常数矩阵,而是逐次削减重视力头的数量。
如下图,研究先用了BERT-BASE、RoBERTa-BASE和DeBERTa-BASE做尝试,此中y轴表达性能,x轴是重视力头比拟本来削减的情状:
随后,研究又用了BERT-LARGE、RoBERTa-LARGE和DeBERTa-LARGE做尝试:
通过比力成果,研究人员发现了一些有意思的现象:
起首,用常数矩阵替代一半的重视矩阵,对模子性能的影响极小,某些情状下以至可能招致性能的提拔 (x值到达½时,图中有些模子数值不减反增)。
其次,即便重视力头数量降低为0,均匀性能下降也就8%,与原始模子比拟最多不超越20%。
研究认为,那种现象表白预操练语言模子对重视力机造的依靠没那么大 (moderate)。
模子性能越好,越依靠重视力机造
不外,即便是预操练Transformer模子之间,性能表示也不完全一样。
做者们将表示更好的Transformer模子和更差的Transformer模子停止了比照,发现本来性能更好的模子,在颠末PAPA的“测试”后, 性能反而变得更差了。
如下图,此中y轴代表各模子本来的均匀性能,x轴代表将所有重视力矩阵替代为常数矩阵时 (颠末PAPA测试)模子性能的相对降低分值:
能够看出,之前性能越好的模子,将重视力矩阵替代成常数矩阵遭到的缺失也越高。
那阐明假设模子自己性能越好,对重视力机造的操纵才能就越好。
关于那项研究,有网友觉得很赞:
听起来很酷,如今很多架构太重视各类计算和性能使命,却漠视了事实是什么给模子带来的改动。
但也有网友认为,不克不及单纯从 数据来揣度架构改变能否重要。
例如在某些情状下,重视力机造给隐空间 (latent space)中数据点带来的幅度改变仅有2-3%:
莫非那种情状下它就不敷重要了吗?纷歧定。
关于重视力机造在Transformer中的重要性,你怎么看?
论文地址:
— 完—
MEET 2023 大会定档!
首批嘉宾阵容公布
量子位「MEET2023智能将来大会」正式定档12月14日!
首批嘉宾包罗 郑纬民院士、MSRA 刘铁岩、阿里 贾扬清、百度 段润尧、高通 Ziad Asghar、小冰 李笛、海潮 刘军以及中关村科金 张杰等来自产学研界大咖嘉宾,更多重磅嘉宾陆续确认中。
点击 “预约”按钮,一键中转大会曲播现场!
点那里存眷我 👇 记得标星噢 ~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~