小羊驼和排位赛的「幕后英雄」

编者按:本文来自微信公众号 新智元(ID:AI_era),作者:桃子 好困 ,微新创想经授权发布。在激烈的「排位赛」中,大模型们背后的秘密武器终于揭晓!UC伯克利重磅开源了神级LLM推理系统——vLLM,它凭借创新的PagedAttention技术,将性能提升至HuggingFace/Transformers的24倍,同时将GPU数量减半。过去两个月,UC伯克利的研究团队在Chatbot Arena平台上,为GPT-4等顶尖大语言模型搭建了一个公平竞技的擂台。这些模型通过随机对决,依据Elo评分体系进行排名。在比赛过程中,每当有用户访问网站,系统就需要同时启动两个不同的模型进行运算。他们是如何实现这一高并发操作的?答案就在UC伯克利最新开源的vLLM系统中。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图

vLLM是一个开源的LLM推理和服务引擎,它通过全新的注意力算法「PagedAttention」实现了对注意力键和值的智能管理。配备这一创新算法的vLLM,重新定义了LLM服务的性能标准:与HuggingFace Transformers相比,它实现了高达24倍的吞吐量提升,且无需对模型架构进行任何调整。值得一提的是,「小羊驼」Vicuna在demo演示中,正是采用了FastChat和vLLM的集成方案。正如研究者所强调,vLLM最大的优势在于提供易用、高效且成本经济的LLM服务。这意味着,未来即使是计算资源有限的小型研究团队,也能轻松部署自己的LLM服务。项目地址:https://github.com/vllm-project/vllm,相关论文也即将发布。

vLLM的性能表现全面超越了当前最先进的SOTA技术。LMSYS开放研究组织介绍道:「让我们一起见证vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少了一半,同时每天平均处理高达3万次请求。」vLLM的具体性能如何?UC伯克利团队将其吞吐量与HuggingFace Transformers(HF)和HuggingFace文本生成推理(TGI)等主流LLM库进行了对比。测试设置包括在NVIDIA A10G GPU上运行LLaMA-7B模型,以及在NVIDIA A100 GPU(40GB)上运行LLaMA-13B模型。研究人员从ShareGPT数据集中随机抽样,获取请求的输入/输出长度数据进行评估。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图1

实验结果显示,vLLM的吞吐量比HF高出高达24倍,比TGI高出3.5倍。在服务吞吐量测试中(每个请求只需一个输出完成时),vLLM比HF高出14-24倍,比TGI高出2.2-2.5倍。而在更复杂的场景下(每个请求需要3个并行输出完成时),vLLM依然比HF高出8.5-15倍,比TGI高出3.3-3.5倍。

vLLM的秘密武器:PagedAttention

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图2

在vLLM中,团队发现LLM服务的性能瓶颈主要在于内存限制。在自回归解码过程中,LLM会为每个输入token生成注意力键(key)和值(value)张量,并将这些张量缓存于GPU内存中,用于生成下一个token。这些缓存的键和值张量被称为KV缓存,具有以下特点:

1. 内存占用大:在LLaMA-13B模型中,单个序列的KV缓存可高达1.7GB。
2. 动态化:其大小取决于序列长度,而序列长度具有高度不确定性,难以预测。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图3

因此,有效管理KV缓存成为一大挑战。研究团队发现,现有系统因内存碎片化和过度保留,浪费了高达60%-80%的内存。正如团队导师Joey Gonzalez所言:「GPU内存碎片化=慢。」为解决这一问题,团队创新性地提出了PagedAttention算法,该算法灵感来源于操作系统中虚拟内存和分页的经典概念。

与传统的注意力算法不同,PagedAttention允许在非连续的内存空间中存储连续的键和值。具体来说,PagedAttention将每个序列的KV缓存分割为若干固定大小的块,每个块包含一定数量的token的键和值。在注意力计算过程中,PagedAttention内核能够高效地识别和提取这些块。由于这些块在内存中无需连续存储,因此可以像操作系统的虚拟内存一样,以更灵活的方式管理键和值——将块视为页,token视为字节,序列视为进程。序列的连续逻辑块通过块表映射到非连续的物理块。随着新token的生成,物理块会按需分配。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图4

PagedAttention将内存浪费严格控制在序列的最后一个块中,实践中内存使用效率接近最优,仅有不到4%的浪费。这种内存效率的提升,使得系统能够处理更多序列,提高GPU利用率,从而显著提升吞吐量。此外,PagedAttention还具有高效的内存共享能力。例如在并行采样场景中,可以从相同提示生成多个输出序列。此时,提示的计算和内存可以在不同输出序列间共享。PagedAttention通过块表自然地实现了内存共享,类似于进程共享物理页的方式,不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。为确保安全,PagedAttention会跟踪物理块的引用计数,并实现了写时复制机制。

PagedAttention的内存共享特性极大降低了复杂采样算法(如并行采样和束搜索)的内存开销,将它们的内存使用量减少了高达55%,同时将吞吐量提高了2.2倍。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图5

总结而言,PagedAttention是vLLM的核心技术,作为LLM推理和服务的引擎,它支持多种模型架构,具有高性能和易用性。GitHub上,团队也展示了vLLM对HuggingFace模型的兼容性,包括:

– GPT-2(gpt2、gpt2-xl等)
– GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
– LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
– OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图6

小羊驼和排位赛的「幕后英雄」

4月初,UC伯克利学者联合UCSD、CMU等顶尖高校,率先开源了130亿参数的全新模型——Vicuna,俗称「小羊驼」。自推出以来,Vicuna已在Chatbot Arena为数百万用户提供服务。最初,LMSYS的FastChat采用基于HF Transformers的服务后端来展示聊天demo。但随着demo的普及,峰值流量激增数倍,HF后端逐渐成为性能瓶颈。为解决这一挑战,LMSYS与vLLM团队紧密合作,开发了全新的FastChat-vLLM集成方案——通过将vLLM作为新的后端,满足日益增长的高并发需求(流量提升达5倍)。根据LMSYS内部微基准测试,vLLM服务后端的吞吐量比初始HF后端高出30倍。4-5月期间,Chatbot Arena已全面切换至FastChat-vLLM集成。实际上,超过一半的Chatbot Arena请求都由该集成提供支持。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图7

自4月中旬以来,Vicuna、Koala和LLaMA等热门语言模型都已成功采用FastChat-vLLM集成提供服务。FastChat作为多模型聊天服务前端,vLLM作为推理后端,LMSYS利用有限的学校赞助GPU,以高吞吐量和低延迟为数百万用户提供Vicuna服务。目前,LMSYS正将vLLM扩展到更多模型,包括Databricks Dolly、LAION的OpenAssistant和Stability AI的StableLM等。

vLLM使用教程

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图8

安装vLLM(查看完整安装指南):$ pip install vllm

vLLM支持离线推理和在线服务:

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图9

离线推理:
“`python
from vllm import LLM
prompts = [“Hello, my name is”, “The capital of France is”]
llm = LLM(model=”lmsys/vicuna-7b-v1.3″)
outputs = llm.generate(prompts)
“`

在线服务:
$ python -m vllm.entrypoints.openai.api_server –model lmsys/vicuna-7b-v1.3
查询服务器:
$ curl http://localhost:8000/v1/completions \
-H “Content-Type: application/json” \
-d ‘{“model”: “lmsys/vicuna-7b-v1.3″,”prompt”: “San Francisco is a”,”max_tokens”: 7,”temperature”: 0}’

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图10

更多使用方法,请参考快速入门指南:https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

团队介绍

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图11

Zhuohan Li:加州大学伯克利分校计算机科学博士生,研究方向为机器学习与分布式系统交叉领域。此前在北京大学计算机科学专业学习,导师为王立威和贺笛。

Woosuk Kwon:加州大学伯克利分校博士生,专注于为大型语言模型等新兴应用开发实用、灵活且高性能的软件系统。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图12

团队其他成员包括庄思远、盛颖、郑怜悯、Cody Yu。

团队导师:Joey Gonzalez、Ion Stoica和张昊。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图13

大部分团队成员同时也是LMSYS成员。

参考资料

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图14

https://vllm.ai

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

伯克利vLLM开源:性能碾压SOTA,推理快24倍GPU减半插图15

最新快讯

2026年03月30日

18:36
3月30日,vivo官网正式上架Y500s新机。该机主打超大容量电池与高等级防护,配备7200mAh电池、IP69级防尘防水,搭载骁龙4 Gen 2处理器,支持44W有线充电。机身重219g,采用6.75英寸120Hz LCD屏,前置8MP镜头,后置50MP主摄。提供曜石黑、星河银、凤迎金三色,内存组合含8GB+256GB(1799元)、12GB+256G...
18:36
2026年3月,本土新能源充电服务运营商贰玖科技宣布完成3000万元人民币A轮融资,投资方为中经金控投资有限公司。本轮融资将用于加速充电桩在居民社区、商业综合体、产业园区及景区、酒店等全场景的全域布局,升级数字化运营管理系统,并拓展合作生态。公司已构建覆盖多类基础与特色场景的充电网络,依托精细化运营与智能调度,显著提升桩均使用效率与资源价值。
18:36
3月28日,武汉丽思卡尔顿酒店在湖北武汉正式开业。该酒店位于越秀国际金融中心顶部,高度330米,地处长江与汉水交汇处,坐拥“九省通衢”地理优势。作为越秀商管中西部战略的标杆项目,酒店以高端定位强化区域高端文旅与商务配套能力。开业标志着国际奢华酒店品牌进一步深入华中核心城市。
18:36
3月30日,雅高集团位于江苏常州的高新索菲特酒店正式揭幕。该酒店为雅高在大中华区的第800家运营酒店,也是索菲特品牌首次进驻常州。此举标志着雅高持续深化中国市场布局,同步推进规模扩张与品质升级。酒店选址常州高新区,由雅高与本地合作伙伴共同打造,将提供高端法式 hospitality 体验。此次落成是雅高2025—2026年在华加速拓展战略的重要节点。
18:36
微新创想:2026年3月,瑞典家居纺织品品牌Nordic Knots宣布完成8600万欧元战略融资。本轮融资由美国风投机构Imaginary Ventures领投,Lauren Santo Domingo、IRIS Ventures及Creades跟投。公司总部位于斯德哥尔摩,专注于设计与电商销售地毯及全品类家居纺织品,产品覆盖多种尺寸与材质。 本轮资金将用...
18:36
2026年3月30日,华领医药公布截至2025年12月31日止年度经审核综合业绩。公司核心产品——全球首创GKA类抗糖尿病新药华堂宁®(多格列艾汀片)实现研发、生产与商业化全链条推进;自主商业化团队在运营首年即高效组建并全面运转;研发管线持续拓展;全年财务表现创历史最佳。业绩突破主要源于华堂宁®市场准入加速、学术推广深化及销售体系快速落地。
18:36
微新创想:2026年3月,北京互联网法院审结了一起涉及AI生成内容侵害名誉权的案件。该案引发广泛关注,成为人工智能技术应用与法律边界探讨的重要案例。 原告为某直播机构,其主张被告在社交平台上发布了一段由AI生成的视频,内容涉及已故主播的不实信息。视频中声称该主播“每日直播15小时”“随身携带抗抑郁药”等,这些说法严重偏离了事实真相,对原告造成了不良影响。 被...
18:35
声明:本文来自于微信公众号 新榜,作者:哪吒,授权站长之家转载发布。与“龙虾”(OpenClaw)有关的热议仍在继续。近期,我们发现有一些创作者在小红书等平台分享“龙虾”接入短剧工作流的帖子。有人分享“我用‘龙虾’做AI短剧,效率直接提升了10倍!”,还有人说“养成‘龙虾’后,一句话就能生成一部短剧”。似乎在“龙虾”的加持下,A...
18:34
微新创想:3月30号凌晨3点多,河南洛阳的常先生出门遛狗,没想到这一遛,还碰上件让人揪心的事儿。常先生走到一所学校门口时,发现有个穿着校服的小学生孤零零地站在那儿,身边就只拎着一个文具袋,也没个大人陪着。 常先生心里“咯噔”一下,赶紧走上前去询问情况。这一问才知道,孩子是被她爷爷大半夜送过来的。孩子爷爷年纪已经很大,八十多岁了,凌晨1点40分就把孩子送到了校...
18:32
百度旗下的PaddleOCR项目正式登顶 GitHub Star 排名,成为全球 OCR(光学字符识别)领域关注度最高的开源项目。这一里程碑标志着以飞桨(PaddlePaddle)为代表的中国深度学习开源框架,在垂直技术领域已经具备了国际领先的影响力,成功超越了包括 Tesseract 在内的众多老牌国际开源项目。技术实力支撑:超轻量模型与全栈能力Paddl...
18:32
微新创想:办公软件的竞争下半场,已经从“功能竞赛”全面转向“AI 生态”的博弈。近日在武汉召开的金山办公2026企业合作伙伴大会上,北京金山办公软件股份有限公司正式宣布全面开放AI办公市场。这一举措意味着金山办公将向渠道伙伴开放多赛道资源,试图通过生态力量重新定义数智化办公的标准。 核心武器:WPS 365 构筑企业“智能知识基座”作为此次开放战略的核心载体...
18:06
微新创想:3月27日,广州天赐高新材料股份有限公司向港交所递交上市申请,摩根大通、中信证券与广发证券担任联席保荐人。此举是公司自2025年9月首次递表失效后的第二次尝试。公司自2000年成立以来,一直专注于锂离子电池材料、日化材料及特种化学品的研发与生产。在2024年,公司在全球电解液市场中占据了35.7%的市场份额,显示出其在行业中的领先地位。 2025年...