小羊驼和排位赛的「幕后英雄」

编者按:本文来自微信公众号 新智元(ID:AI_era),作者:桃子 好困 ,微新创想经授权发布。在激烈的「排位赛」中,大模型们背后的秘密武器终于揭晓!UC伯克利重磅开源了神级LLM推理系统——vLLM,它凭借创新的PagedAttention技术,将性能提升至HuggingFace/Transformers的24倍,同时将GPU数量减半。过去两个月,UC伯克利的研究团队在Chatbot Arena平台上,为GPT-4等顶尖大语言模型搭建了一个公平竞技的擂台。这些模型通过随机对决,依据Elo评分体系进行排名。在比赛过程中,每当有用户访问网站,系统就需要同时启动两个不同的模型进行运算。他们是如何实现这一高并发操作的?答案就在UC伯克利最新开源的vLLM系统中。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图

vLLM是一个开源的LLM推理和服务引擎,它通过全新的注意力算法「PagedAttention」实现了对注意力键和值的智能管理。配备这一创新算法的vLLM,重新定义了LLM服务的性能标准:与HuggingFace Transformers相比,它实现了高达24倍的吞吐量提升,且无需对模型架构进行任何调整。值得一提的是,「小羊驼」Vicuna在demo演示中,正是采用了FastChat和vLLM的集成方案。正如研究者所强调,vLLM最大的优势在于提供易用、高效且成本经济的LLM服务。这意味着,未来即使是计算资源有限的小型研究团队,也能轻松部署自己的LLM服务。项目地址:https://github.com/vllm-project/vllm,相关论文也即将发布。

vLLM的性能表现全面超越了当前最先进的SOTA技术。LMSYS开放研究组织介绍道:「让我们一起见证vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少了一半,同时每天平均处理高达3万次请求。」vLLM的具体性能如何?UC伯克利团队将其吞吐量与HuggingFace Transformers(HF)和HuggingFace文本生成推理(TGI)等主流LLM库进行了对比。测试设置包括在NVIDIA A10G GPU上运行LLaMA-7B模型,以及在NVIDIA A100 GPU(40GB)上运行LLaMA-13B模型。研究人员从ShareGPT数据集中随机抽样,获取请求的输入/输出长度数据进行评估。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图1

实验结果显示,vLLM的吞吐量比HF高出高达24倍,比TGI高出3.5倍。在服务吞吐量测试中(每个请求只需一个输出完成时),vLLM比HF高出14-24倍,比TGI高出2.2-2.5倍。而在更复杂的场景下(每个请求需要3个并行输出完成时),vLLM依然比HF高出8.5-15倍,比TGI高出3.3-3.5倍。

vLLM的秘密武器:PagedAttention

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图2

在vLLM中,团队发现LLM服务的性能瓶颈主要在于内存限制。在自回归解码过程中,LLM会为每个输入token生成注意力键(key)和值(value)张量,并将这些张量缓存于GPU内存中,用于生成下一个token。这些缓存的键和值张量被称为KV缓存,具有以下特点:

1. 内存占用大:在LLaMA-13B模型中,单个序列的KV缓存可高达1.7GB。
2. 动态化:其大小取决于序列长度,而序列长度具有高度不确定性,难以预测。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图3

因此,有效管理KV缓存成为一大挑战。研究团队发现,现有系统因内存碎片化和过度保留,浪费了高达60%-80%的内存。正如团队导师Joey Gonzalez所言:「GPU内存碎片化=慢。」为解决这一问题,团队创新性地提出了PagedAttention算法,该算法灵感来源于操作系统中虚拟内存和分页的经典概念。

与传统的注意力算法不同,PagedAttention允许在非连续的内存空间中存储连续的键和值。具体来说,PagedAttention将每个序列的KV缓存分割为若干固定大小的块,每个块包含一定数量的token的键和值。在注意力计算过程中,PagedAttention内核能够高效地识别和提取这些块。由于这些块在内存中无需连续存储,因此可以像操作系统的虚拟内存一样,以更灵活的方式管理键和值——将块视为页,token视为字节,序列视为进程。序列的连续逻辑块通过块表映射到非连续的物理块。随着新token的生成,物理块会按需分配。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图4

PagedAttention将内存浪费严格控制在序列的最后一个块中,实践中内存使用效率接近最优,仅有不到4%的浪费。这种内存效率的提升,使得系统能够处理更多序列,提高GPU利用率,从而显著提升吞吐量。此外,PagedAttention还具有高效的内存共享能力。例如在并行采样场景中,可以从相同提示生成多个输出序列。此时,提示的计算和内存可以在不同输出序列间共享。PagedAttention通过块表自然地实现了内存共享,类似于进程共享物理页的方式,不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。为确保安全,PagedAttention会跟踪物理块的引用计数,并实现了写时复制机制。

PagedAttention的内存共享特性极大降低了复杂采样算法(如并行采样和束搜索)的内存开销,将它们的内存使用量减少了高达55%,同时将吞吐量提高了2.2倍。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图5

总结而言,PagedAttention是vLLM的核心技术,作为LLM推理和服务的引擎,它支持多种模型架构,具有高性能和易用性。GitHub上,团队也展示了vLLM对HuggingFace模型的兼容性,包括:

– GPT-2(gpt2、gpt2-xl等)
– GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
– LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
– OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图6

小羊驼和排位赛的「幕后英雄」

4月初,UC伯克利学者联合UCSD、CMU等顶尖高校,率先开源了130亿参数的全新模型——Vicuna,俗称「小羊驼」。自推出以来,Vicuna已在Chatbot Arena为数百万用户提供服务。最初,LMSYS的FastChat采用基于HF Transformers的服务后端来展示聊天demo。但随着demo的普及,峰值流量激增数倍,HF后端逐渐成为性能瓶颈。为解决这一挑战,LMSYS与vLLM团队紧密合作,开发了全新的FastChat-vLLM集成方案——通过将vLLM作为新的后端,满足日益增长的高并发需求(流量提升达5倍)。根据LMSYS内部微基准测试,vLLM服务后端的吞吐量比初始HF后端高出30倍。4-5月期间,Chatbot Arena已全面切换至FastChat-vLLM集成。实际上,超过一半的Chatbot Arena请求都由该集成提供支持。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图7

自4月中旬以来,Vicuna、Koala和LLaMA等热门语言模型都已成功采用FastChat-vLLM集成提供服务。FastChat作为多模型聊天服务前端,vLLM作为推理后端,LMSYS利用有限的学校赞助GPU,以高吞吐量和低延迟为数百万用户提供Vicuna服务。目前,LMSYS正将vLLM扩展到更多模型,包括Databricks Dolly、LAION的OpenAssistant和Stability AI的StableLM等。

vLLM使用教程

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图8

安装vLLM(查看完整安装指南):$ pip install vllm

vLLM支持离线推理和在线服务:

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图9

离线推理:
“`python
from vllm import LLM
prompts = [“Hello, my name is”, “The capital of France is”]
llm = LLM(model=”lmsys/vicuna-7b-v1.3″)
outputs = llm.generate(prompts)
“`

在线服务:
$ python -m vllm.entrypoints.openai.api_server –model lmsys/vicuna-7b-v1.3
查询服务器:
$ curl http://localhost:8000/v1/completions \
-H “Content-Type: application/json” \
-d ‘{“model”: “lmsys/vicuna-7b-v1.3″,”prompt”: “San Francisco is a”,”max_tokens”: 7,”temperature”: 0}’

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图10

更多使用方法,请参考快速入门指南:https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

团队介绍

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图11

Zhuohan Li:加州大学伯克利分校计算机科学博士生,研究方向为机器学习与分布式系统交叉领域。此前在北京大学计算机科学专业学习,导师为王立威和贺笛。

Woosuk Kwon:加州大学伯克利分校博士生,专注于为大型语言模型等新兴应用开发实用、灵活且高性能的软件系统。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图12

团队其他成员包括庄思远、盛颖、郑怜悯、Cody Yu。

团队导师:Joey Gonzalez、Ion Stoica和张昊。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图13

大部分团队成员同时也是LMSYS成员。

参考资料

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图14

https://vllm.ai

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图15

最新快讯

2025年12月06日

19:51
近期,国内多个地区接连曝出令人震惊的食品造假事件,暴露出食品安全领域存在的严峻问题。不法分子利用奶精、淀粉等廉价原料,精心调制出冒充奶粉的假产品,并伪造进口奶粉的包装,在各大电商平台以“平价进口爆款”的名义进行销售,企图欺骗消费者。与此同时,部分餐饮商家更是利欲熏心,公然以鸭肉制品冒充牛肉,堂而皇之地将“水煮牛肉”这一招牌挂在网络平台上,经营所谓的“幽灵外卖...
19:19
2025年12月5日,备受瞩目的战略合作签约仪式在山东隆重举行,标志着新风光电气与莱芜钢铁集团电子有限公司正式开启深度合作新篇章。双方高层领导及核心团队悉数出席,共同见证了这一具有里程碑意义的时刻 此次合作聚焦于高低压电气传动、电气自动化集成、智能装备研发以及信息化系统集成四大核心领域,旨在通过强强联合,实现技术与产业资源的优化配置。双方将充分发挥各自在...
19:19
2025年12月5日,备受瞩目的济源至新安高速公路关键控制性工程——黄河三峡大桥传来捷报,全部荷载试验圆满成功,标志着这条连接豫西北与豫东南的重要交通动脉正式进入通车冲刺阶段。这座雄踞黄河小浪底库区的桥梁,以其555米的主跨,创造了世界桥梁史上的新纪录,成为全球首座独塔地锚式回转缆悬索桥,展现了我国在超大跨径桥梁建设领域的卓越技术实力。 本次荷载试验规模空前...
19:19
2025年12月5日,备受瞩目的济源至新安高速公路关键控制性工程——黄河三峡大桥传来捷报,成功完成荷载试验,标志着这座桥梁的建设取得了重大突破。这座桥梁作为世界首创的独塔地锚式回转缆悬索桥,不仅在技术层面实现了创新突破,更为济源至新安高速的全线通车奠定了坚实基础,正式进入了最后冲刺阶段。 黄河三峡大桥的顺利贯通,将彻底改变黄河两岸的通行格局。大桥通车后,原本...
18:47
2025年12月6日,大众汽车集团首席执行官马蒂亚斯·奥博穆在德国《法兰克福汇报》的专访中,对保时捷电动化战略的进展与未来布局进行了深度解读。他特别强调,保时捷在电动化转型方面走在了行业前列,即将推出的全新电动卡宴车型有望成为行业标杆,为品牌注入新的活力。然而,奥博穆也坦言,中国和美国市场仍然是保时捷业绩的命脉所在,决定着品牌未来的发展高度。 针对近期中国销...
18:41
微新创想12月6日深度报道,近期网络流传出豆包手机助手可直接查询银行卡余额并绕过认证读取用户信息的虚假消息,引发广泛关注。对此,官方于今日下午紧急发布权威声明,明确辟谣并强调该功能已全面下线。以下是官方回应的详细内容: 关注到近日部分谣言声称豆包手机助手存在直接查询银行卡余额、绕过认证读取用户信息等违规操作,对此我们郑重说明如下: 首先,豆包手机助手在用户授...
18:15
2025年12月6日,备受瞩目的北京影响力企业家年会在盛大举行。在此次盛会中,零一万物CEO李开复发表了主题为《AI Agent引领企业变革》的精彩演讲,深入剖析了人工智能代理体(AI Agent)对企业运营模式的颠覆性影响。他指出,随着AI技术的飞速发展,未来企业将呈现出前所未有的灵活性,其组织架构将像搭积木一样快速重组,从传统的人力主导模式转变为由CEO...
18:15
2025年12月6日,别克旗下高端MPV子品牌至境正式推出全新旗舰车型——至境世家,官方指导价区间设定在43.99万至46.69万元。作为新能源家庭MPV市场的标杆之作,至境世家在空间布局、舒适体验、动力性能以及智能科技等多个维度上,均实现了全面超越,不仅超越了别克世纪、极氪009等主流竞品,更树立了全新的行业标杆。 新车整体尺寸长宽高分别为5260×202...
18:15
2025年12月6日 上海 —— AUDI品牌今日正式揭晓旗下第二款纯电旗舰SUV——奥迪E7X的惊艳外观设计。这款备受期待的车型基于备受瞩目的E SUV概念车打造,不仅高度还原了概念车的核心设计语言,更在细节上实现了创新突破。作为一款纯电大型SUV,奥迪E7X拥有长达5,049毫米的震撼车身尺寸,配合3,060毫米的豪华轴距,为驾乘者带来超乎想象的宽敞空间...
18:15
2025年12月6日,豆包手机助手正式发布公告,宣布全面下线所有涉及银行及互联网支付类APP的操作功能。针对近期网络上广泛流传的“豆包可绕过认证查询银行卡余额”的谣言,豆包方面迅速作出澄清,强调所有操作流程均需用户主动授权,并必须完成密码输入、人脸识别等多重验证步骤,坚决杜绝任何形式的越权访问行为。 为切实保障用户的资金安全,豆包平台在原有操作流程中已设...
17:45
2025年12月6日,蓝箭航天正式公布了朱雀三号火箭一子级回收飞行的关键技术验证细节,标志着我国在液氧甲烷可回收火箭领域迈出了重要一步。此次试验中,火箭在完成一级分离后,成功经历了超音速再入气动滑行阶段,并成功突破了最大动压环境下的三大核心技术难题:热防护系统、气动布局优化以及姿态精确控制。 在再入过程中,朱雀三号火箭展现出卓越的制导能力,无论是再入点火阶...
17:45
2025年12月6日,美国国家公路交通安全管理局正式发布安全召回公告,福特汽车公司因倒车灯系统存在潜在故障,在美国市场召回1195辆2025款林肯领航员车型。此次召回行动的起因是车辆后灯条的外透镜或焊缝部位可能存在细微裂纹。这些裂纹在长期使用过程中可能因外界因素导致水分渗透并积聚,进而引发倒车灯功能失效或出现异常闪烁现象,严重时甚至可能完全中断倒车灯的照明功...