谷歌AI新方法Vantage测评协作创造力与批判性思维能力

2026-04-14 17:43:50 AI动态 3 次阅读

微新创想：在教育领域，传统的标准化测试可以评估学生是否掌握微积分或能够理解文本，但却难以测量学生在团队中解决分歧、在压力下产生创新想法或批判性分析论点的能力。这些被称为“持久技能”的能力，长期以来都缺乏有效、可扩展的测量工具。

微新创想：谷歌研究团队近日提出了一种新方法，名为Vantage。这是一种利用大语言模型（LLM）模拟真实群体互动并准确评分的技术。研究团队发现，评估持久技能的挑战在于生态有效性与心理测量学严谨性的矛盾。评估需要在真实世界情境中进行，同时又要具备可比性与可重复性。

微新创想：以往的一些尝试，例如PISA2015的协作问题解决评估，采用多项选择题与脚本化的模拟队友互动，虽然控制了变量，却失去了真实感。谷歌团队认为，LLM能够在这两方面取得平衡。Vantage的核心是“执行LLM”架构，它利用单一的LLM生成所有AI参与者的回应。

微新创想：这种方法的优势在于，它可以协调对话并根据预设的教育标准主动引导对话。例如，针对冲突解决技能，执行LLM可以让AI角色主动制造分歧，以此测试人类参与者的反应。研究显示，与不协调的独立代理相比，执行LLM的对话在两个协作子技能上表现更好，数据表明，执行LLM的表现显著提升了关键行为的证据率。

微新创想：研究团队招募了188名18至25岁的参与者，通过与AI角色进行30分钟的协作任务，收集了373份对话记录。对话的评分由纽约大学的两位人类评审员和AI评估工具共同完成，结果显示AI评分与人类专家的评分一致性良好。

微新创想：尤其在创造力和批判性思维方面，执行LLM的表现同样优于独立代理，为未来的教育评估提供了新思路。

2026年04月14日

19:17