微新创想(Idea2003.com)5月10日 消息:人工智能领域传来重磅消息!谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文《Attention Is All Your Need》竟然出现了令人震惊的图与代码不一致问题。这一发现不仅引发了学术界的广泛关注,更对Transformer架构的广泛应用产生了深远影响。
今天,谷歌的开创性论文《Attention Is All Your Need》中变压器架构的原始图表被发现存在错误,具体表现为LayerNorm处于错误的位置。这一发现犹如一块巨石投入平静的湖面,激起了层层涟漪。然而,一篇新论文《Pre-LN and Post-LN for Transformer》表明,将Pre-LN和Post-LN结合起来可以解决梯度爆炸和消失的问题。该论文的地址为:https://arxiv.org/abs/1706.03762,代码地址为:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e。
据悉,Transformer架构是人工智能领域的基石,自2017年发表以来,该论文已被引用超过7万多次,其影响力之深远可见一斑。在图表中发现错误引发了对该领域其他开创性论文准确性的质疑。图中的错误可能导致转换器体系结构的不正确实现,这可能会影响使用它构建的模型的性能,进而影响整个AI领域的发展。
关于使用Pre-LN还是Post-LN的讨论正在进行中,新论文中提出的两种方法的结合可能会导致人工智能模型开发的进一步发展。这一发现不仅提醒我们在引用经典论文时需更加谨慎,也为AI模型的优化提供了新的思路。未来,随着研究的深入,我们有望看到更多突破性的进展,推动人工智能领域迈向新的高度。