StreamDiT:开启实时AI视频生成新纪元

Meta与加州大学伯克利分校的科研团队联合研发的StreamDiT模型,正引领AI视频生成技术迈向全新高度。这款革命性AI能够以惊人的每秒16帧速度,实时渲染512p高清视频,且仅需单块高端GPU即可驱动运行。这一突破性进展彻底颠覆了传统视频生成模式——以往需要完整渲染整个视频片段才能播放,而StreamDiT实现了逐帧实时视频流生成,为动态内容创作带来无限可能。

StreamDiT模型拥有40亿参数,展现出令人惊叹的多功能性。它不仅能即时生成长达一分钟的视频,还能响应交互式提示,甚至支持实时编辑现有视频。在一场令人印象深刻的演示中,StreamDiT成功将视频中一头猪实时替换为猫咪,且背景保持完美同步,这一能力充分彰显了其强大的视频处理技术。

定制架构实现卓越速度

StreamDiT的核心优势在于其专为速度优化设计的定制架构。该系统采用移动缓冲区技术,能够同时处理多个视频帧,实现输出前一帧的同时处理下一帧的流畅循环。虽然新帧初始状态可能略显嘈杂,但会通过持续优化逐步达到理想显示效果。根据研究论文数据,该系统仅需半秒即可生成两帧,经过处理后可转化为八张高质量最终图像。StreamDiT将缓冲区巧妙划分为固定参考帧和短块,在去噪过程中图像相似度会逐步降低,最终形成连贯的视频帧序列。

多功能训练与加速技术

为了提升模型的通用性,StreamDiT的训练过程融合了多种视频创作方法。研究团队使用了3000个高质量视频和包含260万个视频的超大规模数据集进行训练。训练过程在128块Nvidia H100 GPU上并行进行,研究发现混合使用1到16帧的块大小能获得最佳效果。为实现实时性能,团队创新性地将计算步骤从128步大幅缩减至仅8步,同时最大程度保留图像质量。StreamDiT的架构针对效率进行了深度优化,信息仅在局部区域之间交换,而非每个图像元素都与其他元素交互,这种设计显著提升了处理速度。

性能超越现有方法

在直接对比测试中,StreamDiT在处理包含大量运动的视频时,表现明显优于ReuseDiffuse和FIFO扩散等现有方法。传统模型往往难以处理动态场景,而StreamDiT能够生成更具动态感和自然感的运动效果。人工评估员对StreamDiT在动作流畅度、动画完整性、帧间一致性以及整体质量方面的表现进行了全面评估。在对时长8秒、512p的视频测试中,StreamDiT在所有类别中均名列前茅,展现出卓越的视频生成能力。

更大模型的潜力与现有局限

研究团队还尝试了一个300亿参数的更大模型版本,该模型提供了更高的视频质量,尽管其速度尚不足以实现实时使用。这一发现表明StreamDiT的方法具有可扩展性,预示着未来更高质量实时视频生成的无限可能。尽管取得了显著进展,StreamDiT仍存在一些限制。例如,它对视频前半部分的”记忆”能力有限,且各部分之间偶尔会出现可见的过渡。研究人员表示,他们正在积极研究解决方案以克服这些挑战。

AI视频生成领域的竞争与创新

值得注意的是,其他公司也在积极探索实时AI视频生成领域。例如,Odyssey最近推出了一种自回归世界模型,能够根据用户输入逐帧调整视频,从而提供更便捷的交互体验。StreamDiT的出现标志着AI视频生成技术的一个重要里程碑,预示着实时交互式视频内容创作的广阔前景。随着技术的不断进步,我们有望见证AI视频生成从实验室走向大众,为内容创作带来革命性变革。

最新快讯

2025年08月15日

18:08
在郑州某小学门口,一辆电动车上的烧饼摊位格外引人注目,金黄酥脆的“AK47”、“Labubu”、“皮卡丘”等造型烧饼琳琅满目,吸引着孩子们蜂拥而至排队抢购。这个被孩子们亲切称为“烧饼军火库”的创意摊位,现场火爆,一饼难求。这些烧饼不仅造型独特,更承载着满满的创意与情感,成为街头巷尾的网红打卡点。 图片源自抖音,摊主@去年毕业的小杨从5月发布第一条视频起,凭借...
18:08
Cohere 公司近日宣布成功完成一轮高达5亿美元的融资,这一重大里程碑由 Radical Ventures 和 Inovia Capital 联合领投,Nvidia、AMD Ventures、Salesforce Ventures 等众多知名机构投资者积极参与。此次融资显著提升了 Cohere 的市场价值,其估值从50亿美元跃升至68亿美元,彰显了资本市场...
18:08
近年来,人工智能技术的迅猛发展将大型 AI 模型的训练数据来源问题推向了业界焦点。众多知名企业在构建 AI 模型时,似乎都倾向于使用大量未授权的版权内容作为数据基础,这一做法引发了激烈的法律争议,将硅谷的科技巨头们推上了风口浪尖。2023年,《纽约时报》率先对 OpenAI 和微软提起诉讼,正式拉开了这场法律之战的序幕。随后,Meta 因其 Llama 模型...
18:08
OpenAI正酝酿在ChatGPT中引入广告功能,这一消息迅速在人工智能领域掀起波澜。ChatGPT负责人Nick Turley在接受《The Verge》旗下《Decoder》节目采访时首次公开回应,明确表示公司保留添加广告的可能性。Turley透露,尽管OpenAI目前没有具体的广告计划,但"保持选择权是明智的战略举措"。他特别强调,若要引入广告,必须"...
18:08
2025年8月15日,腾讯公司正式宣布对其在中金公司H股的持股比例进行调整,从原有的9.09%降至8.93%。此次减持的具体交易金额和操作方式尚未向公众披露。腾讯方面在公告中强调,此举属于公司正常投资管理范畴内的合理操作,旨在优化其投资组合结构。尽管减持幅度相对较小,但市场分析师普遍认为,这一调整可能反映出腾讯正在对其整体资产配置策略进行重新评估,以适应当前...
18:08
2025年8月11日,国际知名投资银行摩根大通再次展现其对中石化这只重要蓝筹股的坚定看好,宣布将其在中国石油化工股份有限公司的持股比例从4.99%小幅提升至5.05%。此次增持行动的平均成交价为每股4.3714港元,不仅体现了摩根大通对中石化当前股价的认可,更彰显了其对该企业长期发展前景的充分信心。作为全球金融市场的风向标,摩根大通的战略布局往往被市场视为重...
18:08
2025年上半年,石头科技交出了6.8亿元的净利润成绩单,较去年同期大幅下滑39.55%。这一业绩波动背后,既有市场环境变化的深刻影响,也折射出行业竞争日趋白热化的现实挑战。面对盈利能力的明显下滑,石头科技展现出积极应对的姿态,公司管理层明确表示将通过优化产品结构、强化成本控制等双轮驱动策略,全面提升企业的抗风险能力。这一系列举措不仅体现了企业对当前市场形势...
18:08
2025年8月15日,科兴制药正式宣布一项重要的资本运作计划,公司决定向中国银行间市场交易商协会提交科技创新债券的注册申请。根据公告内容,此次拟发行的债券总额最高不超过人民币8亿元,包含8亿元在内。这一举措旨在为科兴制药在科技创新领域的持续发展提供坚实的资金支持,助力公司在生物制药、疫苗研发等前沿科技领域的突破与创新。通过发行科技创新债券,科兴制药将进一步优...
18:08
2025年8月15日,国家金融监督管理总局最新发布的数据显示,我国银行业金融机构在本季度末展现出强劲的增长势头,其本外币资产总额已攀升至467.3万亿元大关,同比增长率高达7.9%。这一数据不仅反映了银行业整体的健康运行态势,更凸显了金融体系在支持经济社会发展中的核心作用。 在各类银行机构中,大型商业银行的表现尤为突出,其资产总额达到204.2万亿元,同比增...
18:08
2025年8月15日,中国领先的特种纤维及先进复合材料供应商安利股份传来振奋人心的消息,其位于越南的剩余两条干法生产线正式投入运营。这一战略举措标志着安利股份在东南亚市场产能布局的完美收官,将显著增强公司在该区域的生产能力和市场竞争力。作为国内复合材料行业的标杆企业,安利股份通过持续优化全球产能布局,进一步巩固了其在国际市场的领先地位。 据悉,这两条新建干法...
18:08
近日,清华大学计算机系量子软件研究中心陈建鑫课题组与北京量子信息科学研究院燕飞团队在量子计算机体系结构领域取得突破性进展。研究团队成功开发出支持任意两比特量子门直接编程的指令集架构AshN,这一创新成果以“基于统一控制方案的任意两比特门的高效实现”为题,发表在国际顶级期刊《自然·物理》。该研究不仅为量子计算系统的发展开辟了新路径,更显著提升了量子程序的表达能...
18:08
2025年8月15日,IFR国际金融评论发布独家报道,透露舶望制药正积极筹备香港首次公开募股(IPO),计划筹集约3亿美元资金。此次募资的核心目标是为公司多款关键在研药物的临床试验及后续研发提供充足资金支持,同时助力企业业务版图的进一步扩张。值得注意的是,报道中并未披露具体的上市时间表以及拟发行股份的占比细节,市场对于该事件的后续进展将持续保持高度关注。此次...