Anthropic开源8亿参数Persimmon-8B模型 16K上下文长度免许可

2023-09-14 09:15:18 互联网 47 次阅读

微新创想（idea2003.com）9月13日消息：Anthropic公司近日宣布开源了Persimmon-8B模型，这一突破性举措使其成为目前参数量低于10亿范围内最强大的完全免许可语言模型。该模型基于Apache许可证发布，其代码与权重已全面开源至GitHub平台，为全球开发者提供了宝贵的资源。

Anthropic公司致力于打造能够辅助用户完成各类计算机操作的AI助手，而非专注于单一语言模型的开发。Persimmon-8B作为其模型扩展计划的重要成果，为社区贡献了一个功能强大的8亿参数语言模型，将极大地推动创新应用的开发进程。这一模型在技术特性上展现出显著优势：首先，作为开源领域参数量少于10亿的顶级语言模型，其免许可特性打破了传统商业模型的限制；其次，Persimmon-8B采用16K的上下文长度进行训练，这一指标远超LLaMA2的4K和GPT-3等主流模型的2K标准，大幅提升了模型处理长文本的能力；此外，尽管训练数据量仅为LLaMA2的37%，但Persimmon-8B的基础模型性能却超越了后者，充分展现了其技术效率。

模型在架构设计上也颇具创新：保留70K个词向量以支持多模态扩展，并采用稀疏激活技术，这些设计不仅增强了模型的泛化能力，也为未来功能拓展留下了充足空间。特别值得一提的是，其灵活高效的推理代码实现，使得单块A100 GPU即可实现每秒56个token的生成速度，大幅降低了高性能计算资源的需求门槛。

通过直接长序列训练方法，Persimmon-8B能够精准捕捉长距离上下文关系，这一特性为自然语言处理领域带来了革命性突破。无论是内容创作、代码辅助还是智能客服等场景，该模型都能提供卓越表现。Anthropic公司表示，此次开源仅为模型发展的早期阶段，未来将持续贡献更多技术资源，并热忱欢迎社区反馈与协作。这一开放举动标志着AI技术民主化进程的又一重要里程碑，将加速全球范围内人工智能创新生态的建设与发展。

2026年02月11日

10:19

Anthropic开源8亿参数Persimmon-8B模型 16K上下文长度免许可

最新快讯

2026年02月11日

中国城市基建330万港元收购智联飞创60%股权强化智慧基建技术能力

Trust发布2026新款超薄无线鼠标Seron Slim，轻便静音续航长

小米SU7门把手提前达标新国标解决低温故障提升安全性能

安徽中通安庆宿松网点暖冬助学关爱特殊儿童成长

海圣医疗北交所上市首日股价表现分析

我国超低温锂电池在漠河实测成功实现极寒环境长续航飞行

《阿凡达3》全球票房14亿未达盈亏平衡线业内分析续集前景

小米汽车春节服务全面开启覆盖158城保障用户需求

顺丰饶河智能仓启用助力县域物流升级与乡村振兴

京东上线有奖发票抽奖服务激活线上线下消费活力

曜越发布49英寸DQHD曲面显示器TGM-V49CDQ 240Hz高刷旗舰款

小米高阶驾驶培训成本人均2000元 2025年或将按成本价收费