
微新创想:京东于2月14日在Hugging Face平台上正式开源了其最新的大模型JoyAI-LLM-Flash。这一举动标志着京东在人工智能领域迈出了重要的一步,展示了其在自然语言处理技术上的深厚积累和创新能力。
JoyAI-LLM-Flash的总参数量高达48亿,其中激活参数为3亿。该模型经过20万亿文本Token的预训练,具备出色的前沿知识理解能力、强大的推理能力和卓越的编程技能。这些特性使其在多种应用场景中表现出色,能够处理复杂任务并提供高质量的输出。
为了提升模型的性能和稳定性,京东团队采用了全新的FiberPO优化框架。该框架巧妙地将纤维丛理论引入强化学习领域,结合Muon优化器和稠密多Token预测技术,有效解决了传统大模型在规模扩展过程中可能出现的不稳定问题。这种创新性的技术组合不仅提升了模型的训练效率,还增强了其在实际应用中的可靠性。
与非MTP版本相比,JoyAI-LLM-Flash的吞吐量提升了1.3倍至1.7倍。这一显著提升意味着模型在处理大规模数据时能够更快地完成训练和推理任务,从而大幅缩短了响应时间,提高了整体效率。对于需要实时处理和分析数据的企业和开发者而言,这一进步具有重要的实际意义。
JoyAI-LLM-Flash的架构基于混合专家模型(MoE),拥有40层的结构设计,支持高达128K的上下文长度和129K的词表大小。这样的设计使得模型能够更好地理解和生成长文本内容,同时具备处理复杂语言结构的能力。这一突破性的架构为模型在实际应用中的表现提供了坚实的基础。
京东此次开源JoyAI-LLM-Flash,不仅展示了其在AI技术上的领先地位,也为广大开发者和研究者提供了宝贵的学习和实践资源。通过开放这一模型,京东希望推动人工智能技术的进一步发展,促进更多创新应用的诞生。
