新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年01月16日

07:43
2026年1月16日,台积电在一场备受瞩目的法人说明会上正式公布了其2026年度的资本支出计划,预计投资总额将在520至560亿美元之间。这一数字相较于市场先前普遍预期的450至500亿美元,无疑展现出了显著的提升空间。业界普遍认为,台积电此次上调资本支出预期,很大程度上得益于其核心客户如英伟达等企业所展现出的强劲需求态势。 据相关消息透露,英伟达CEO黄仁...
07:43
2026年1月,KRAFTON在内部会议中披露最新战略,聚焦核心游戏业务并审慎打造系列化IP。目前公司有26款游戏在研,其中12款预计未来两年内发布,包括《Subnautica 2》《Palworld Mobile》等。公司通过强化创意领导层和升级研发体系,提升项目成功率。KRAFTON将继续扩展《绝地求生》IP生态,加强UGC内容建设,该作Steam同时...
07:43
2026年1月16日,国际媒体率先曝光了劳斯莱斯库里南的下一代测试谍照,新车在北欧的严寒环境中进行了严格的性能验证。从曝光的图片来看,全新库里南在外观设计上大胆突破,采用了劳斯莱斯全新的设计语言,分体式LED灯组、加宽的格栅以及纵向贯穿式的尾灯设计,都清晰地传递出电动化时代的特征。 作为劳斯莱斯首款纯电动旗舰SUV,下一代库里南将完全摆脱传统燃油车的束缚...
07:43
2026年1月15日,谷歌重磅发布基于Gemma 3架构的TranslateGemma系列开源翻译模型,为全球语言服务领域带来革命性突破。该系列模型提供4B、12B和27B三种参数版本,全面覆盖55种核心语言,并创新性地支持多模态图像翻译功能,将视觉与语言处理技术完美融合。值得注意的是,TranslateGemma系列已同步登陆Kaggle、Hugging ...
07:13
当地时间1月15日,阿根廷首都布宜诺斯艾利斯市及周边城镇发生大面积停电,持续近三小时,影响约120万家庭,超440万居民受波及。事故因连日高温达35摄氏度,导致用电负荷激增,多个变电站和输电设备损坏。电力公司紧急抢修后,供电逐步恢复。此次停电凸显电网在极端天气下的脆弱性。
07:13
2026年1月16日,沃尔玛国际宣布首席执行官Kathryn McLay将卸任。 McLay已执掌沃尔玛国际多年,此次交接将在公司全球业务调整背景下进行。 沃尔玛方面表示,新任负责人将尽快公布,以确保国际业务平稳过渡。
07:13
2026年1月16日,日本与意大利据悉将达成太空开发合作共识。双方将在地球观测、卫星技术和深空探测等领域展开协作。此次合作旨在整合两国在航天科技方面的优势资源,提升联合研发能力。合作共识预计将在近期举行的高层科技对话中正式宣布。此举被视为推动国际航天合作的重要进展。
07:13
2026年1月16日,据称GROQ正在接触潜在竞购方,计划出售其云端服务单元。此次出售涉及该公司在云计算领域的相关业务和技术资产。此举旨在优化公司核心业务结构,聚焦于主营业务发展。目前交易尚处于初步洽谈阶段,尚未确定最终买方或交易金额。后续进展将视谈判情况而定。
07:13
2026年1月,《死亡岛2》在Steam冬促期间迎来1折史低,国区售价降至18.58元。叠加“The Carnage Collection”合集包上线,大幅降低入门成本。据SteamDB数据,该游戏1月11日在线峰值达18721人,较此前日均450人增长约40倍。《死亡岛2》于2023年4月21日发售,融合恐怖与黑色幽默元素,截至2024年10月全平台玩家...
05:41
2026年1月16日,JB亨特物流公司公布第四财季营收为31亿美元,略低于市场预估的31.1亿美元。此次财报反映了公司在当前物流市场环境下的经营表现。营收同比变化及具体业务板块表现未在初步数据中披露。该消息于当日对外发布,投资者正关注其后续影响。
05:41
2026年1月16日4时10分,我国在山东附近海域成功发射谷神星一号海射型遥七运载火箭。此次发射由太原卫星发射中心执行,搭载的天启星座06组卫星顺利进入预定轨道。任务标志着谷神星一号运载火箭第23次飞行圆满完成,进一步验证了其海上发射的可靠性与灵活性。
03:38
2026年1月16日,全球领先的流媒体巨头奈飞与索尼影业正式宣布达成一项具有里程碑意义的战略合作协议,将共同拓展索尼电影在全球范围内的流媒体播放服务。根据双方签署的协议条款,奈飞将在索尼影业完成电影院线放映后,获得这些影片在全球范围内的独家流媒体播放权。这一合作将显著增强奈飞的内容供应链,为其平台注入更多优质电影资源,从而大幅提升全球用户的观影选择与体验质量...