OpenAI科学家Jason Wei：思维链灵感源自冥想书籍《Waking Up》

2023-09-07 08:30:31 互联网 114 次阅读

思维链、指令微调和智能涌现，这些关键思想正引领着大模型研发的浪潮。其中，思维链技术（Chain of Thought）更是被誉为现代大语言模型产生「涌现」现象的底层技术，为AI领域带来了前所未有的突破。思维链的核心目标，是通过向大语言模型展示少量样例，并详细解释其推理过程，引导模型在生成答案时展现逻辑推理，从而提升答案的准确性。这一技术犹如将黑盒深度学习的多步推理过程拆解开来，将各个步骤解耦，既减轻了模型每一步的压力，又增强了可解释性，最终实现了模型性能的提升。

思维链的灵感，源于一次偶然的阅读体验。CoT的提出者Jason Wei曾分享，他的灵感来自于美国无神论者、公共知识分子Sam Harris所著的《Waking up》一书。这本书从灵修的角度探讨了思维、意识和自我的关系，深深触动了Jason Wei。受此启发，他开始思考人类思维与AI模型之间的关系，最终孕育出了思维链的概念。

Jason Wei，这位达特茅斯大学毕业生，在大模型研发领域拥有丰富的经验和卓越的成就。在谷歌工作期间，他曾主导推广了大语言模型中的思维链提示、指令微调和模型涌现等一系列关键思想，为AI领域的发展做出了重要贡献。

对于许多华人家庭来说，美国梦曾是让孩子进入常春藤盟校，在华尔街谋得一份体面的工作。而Jason Wei却选择了人工智能研究，成为朋友圈中唯一的AI研究者。他的早期化学研究经历，教会了他如何提出严格的假设并进行测试，为他日后在AI领域的研究奠定了基础。在达特茅斯大学期间，他创建了第一个可以对肺癌进行分类的神经网络，尽管经历了六次被拒的挫折，但他最终成功发表了这篇论文。

Jason Wei在达特茅斯大学期间，曾与校友Sam Greydanus交流，后者给予了他许多宝贵的建议，包括阅读Arxiv、发布代码和撰写博客文章等。这些建议对Jason Wei的研究之路产生了深远的影响。

在谷歌AI Residency项目中，Jason Wei展现出了卓越的研究能力，最终成功留在谷歌担任长期研究员。思维链项目的灵感，来源于他对冥想的兴趣。他认为，人类和AI模型都可以拥有「思想流」，而思维链则是一种更有逻辑和组织性的思维过程。

Jason Wei在谷歌期间，也领导了finetuning（微调）项目，这项工作面临着防止过拟合、设计实验和进行消融实验等挑战。他和团队为模型手动编写了数百条指令，以防止过拟合，并率先在Google内部尝试微调大语言模型以遵循指令。

在团队中，Jason Wei与许多优秀的合作者一起工作，他们拥有极高的标准，不断推动彼此进步。他的同事Quoc V. Le经常挑战他，要求他用更小的模型实现同样的功能，这促使Jason Wei不断突破自我。

Jason Wei对上下文学习、思维链推理和U形缩放等涌现能力充满兴奋。他认为，未来AI模型可能会具备规划能力，并表现出更好的通用性。对于想要在AI领域开展职业生涯的人来说，Jason Wei建议他们要努力工作，选择合适的研究课题，并积极提升研究、实验、论文撰写和推广等方面的能力。

Jason Wei的工作方式，是每天工作到晚上10点或11点，每周休息一天。他认为，工作的时长和专注程度同样重要，而睡眠和锻炼对他来说至关重要。尽管工作繁忙，但他依然喜欢旅行，并积极参与各种会议，结识新朋友，探索新城市。

对于研究者来说，Jason Wei提出了四点建议：选择研究课题、进行实验、撰写论文和做宣传。他认为，推广和宣传工作虽然费时费力，但却非常重要，研究者应该花与实际工作一样多的时间来做宣传。

Jason Wei的研究经历和心得，为AI领域的研究者提供了宝贵的启示。他的努力和坚持，也为我们展示了通往AI未来的道路。