微新创想(idea2003.com)5月10日 消息:AI领域重磅炸弹!谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文《Attention Is All Your Need》竟曝出惊人漏洞——原始图表与代码存在不一致问题。近日,谷歌的开创性论文《Attention Is All Your Need》中变压器架构的原始图表被发现存在错误,LayerNorm的位置标注有误。然而,一篇新论文指出,将Pre-LN和Post-LN结合起来可以有效解决梯度爆炸和消失的难题。该新论文已发布在arXiv上,具体地址为:https://arxiv.org/abs/1706.03762;相关代码已更新至GitHub,地址为:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e。
据悉,Transformer架构作为人工智能领域的基石,自2017年发表以来已被引用超过7万次,其影响力深远。此次图表错误曝光,不仅引发了对该领域其他开创性论文准确性的广泛质疑,更可能对Transformer架构的正确实现造成影响,进而波及使用该架构构建的各类模型的性能表现。目前,学术界正就Pre-LN与Post-LN的使用展开激烈讨论,新论文中提出的两种方法结合方案或将成为人工智能模型开发的新方向,推动该领域迈向更高层次的发展。