新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2025年12月10日

22:33
微新创想12月10日重磅消息,Redmi K系列迎来重大升级,正式升档为"冠军旗舰"阵营,而Turbo系列则接过接力棒,成为REDMI在2000-3000元价位段的核心主力机型。这一战略调整标志着Redmi成功构建起以四大产品线为核心的矩阵体系,分别为Turbo系列(性能旗舰)、K系列(全能旗舰)、Note系列和数字系列,实现了对全价位段的全面覆盖,为消费者...
22:33
微新创想12月10日深度报道 服装店主遭遇奇葩退货事件引发热议 近日,一位名叫刘先生的服装店老板在网上发布了一段令人震惊的视频。视频中,他展示了一件售价仅五六十元的表演服,该服装本应属于一次性使用性质,却遭顾客购买后直接退回。更令刘先生无法接受的是,当他仔细检查退回的衣物时,发现衣服上已经明显沾染了污渍,甚至能看出穿着过的痕迹。更令人咋舌的是,顾客为了逃...
22:33
微新创想12月10日讯 从最新消息来看,SpaceX创始人埃隆马斯克近日在一场访谈节目中再次谈及《钢铁侠》电影与其之间的渊源。这位科技巨头明确表示:"电影中的钢铁侠形象确实是以我为原型的,不仅如此,我还曾客串出演《钢铁侠》系列电影,小罗伯特唐尼和乔恩法夫洛都曾邀请我参与其中,并带我参观了SpaceX的发射基地。事实上,《钢铁侠2》中不少关键场景的拍摄工作就设...
22:33
微新创想12月10日讯 近期,网络博主"爱吃蛋"在分享水煮蛋视频时,一条精准到秒的评论引爆了网络:"水开后下蛋,9分12秒捞出,立即过冷水。"这细致到秒的烹煮时间引发了网友们的强烈好奇与热议。然而,也有部分网友对如此精确的描述表示怀疑。面对质疑,博主"爱吃蛋"大方回应:"别怀疑,我一天要吃四十个水煮蛋,天天吃,连续五年了。水煮蛋这块,每一秒我都知道啥火候。"...
22:33
微新创想12月10日消息,《阿凡达3》将在下周五上映,你准备第一时间去电影院观看吗?IMAX官网显示,该片时长达到了3小时15分钟(片长195分钟),是目前三部曲中最长的一部(比《阿凡达2》多2分钟,比《阿凡达1》多33分钟)。为了帮助大家能够不间断观看《阿凡达3》,导演卡梅隆给出了一些建议。卡梅隆在接受采访时表示:建议看《阿凡...
22:33
微新创想12月10日讯 从今天起,苹果中国正式推出备受期待的"三小时快送"服务,为用户提供前所未有的极速购物体验。这一重要升级标志着苹果在完善中国区物流体系方面迈出关键一步,将极大提升用户的即时消费满意度。 苹果官网特别设置了醒目的服务入口,用户在选购商品时可便捷选择此项服务。根据官方说明,现货商品中符合配送条件的将享受免费送货,其他商品则需支付45元基础运...
22:01
2025年12月10日,全球科技巨头Meta正式宣布一项重大战略调整,计划对其虚拟现实设备进行价格上调并延长硬件换代周期。这一决策由公司元宇宙业务负责人Gabriel Aul与Ryan Cairns在内部备忘录中明确提出,旨在应对日益严峻的成本压力,特别是针对潜在的国际关税波动。据行业分析,此举标志着Meta在元宇宙商业化道路上迈出的关键一步,预示着未来产品...
22:01
2025年12月10日下午,中国航空工业集团自主研发的AR-E800重载电动垂直起降飞行器在景德镇高新机场成功完成首飞。这款先进的航空装备自重与载重合计达到800公斤,最大任务载重能力高达300公斤,充分展现了其强大的运输性能。AR-E800采用创新的多旋翼构型设计,并融合了模块化理念,使其在结构布局上更加灵活高效。特别值得一提的是,该飞行器配备了可快速拆卸...
22:01
2025年12月10日,北京时间,人工智能巨头OpenAI发布重磅消息,宣布将Adobe旗下三大创意软件Photoshop、Acrobat和Adobe Express无缝集成至ChatGPT平台。这一创新合作将彻底改变人机交互模式,让用户能够通过自然语言指令直接操控专业级设计工具。据悉,用户在使用前需绑定Adobe账号,所有功能调用均通过MCP(Meta C...
22:01
三星Galaxy S26标准版的后置摄像头配置或将延续S25的经典设计,维持着广角5000万、超广角1200万和长焦1000万的三摄组合。原本计划通过提升像素来进一步增强影像表现,但在当前市场环境下,三星选择了更为务实的策略。面对iPhone 17标准版799美元的定价压力,以及激烈的市场竞争,三星决定暂时搁置像素升级计划,以控制成本并保持产品的市场竞争力。...
22:01
2025年12月10日,江汽集团正式宣布与北京理工大学合装院、阿尔特汽车强强联手,共同成立飞行汽车联合实验室。这一具有里程碑意义的合作,将集中资源攻克飞行汽车关键技术难题,为未来空中交通奠定坚实基础。实验室将围绕气动构型优化、新型能源驱动系统、智能飞行控制系统等九大核心领域展开深入研究,致力于构建覆盖设计、制造、测试全流程的完整技术体系,并搭建世界一流的试验...
22:01
2025年12月,Linux年度维护者峰会上传来重磅消息,开发者正式宣布Rust语言在Linux内核中的实验性地位已彻底终结,其备受瞩目的"实验性"标签将被永久移除这一历史性时刻标志着Rust语言已正式晋升为Linux内核的核心技术组件,开启了与操作系统深度融合的新篇章 自2022年Linux 6.1 RC版本首次引入Rust语言支持以来,双方的合作便进入了...