新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年01月17日

22:40
2026年1月17日,美光科技宣布拟以18亿美元收购力积电位于中国台湾铜锣的P5晶圆厂设施。此举旨在扩充其存储芯片产能,交易预计于第二季度完成。美光计划分阶段提升该厂区的DRAM产量,并预计在2027年下半年实现显著晶圆产出。同时,双方将就晶圆后段封装与组装展开合作,美光亦将支持力积电的传统DRAM产品业务。
22:40
2026年1月17日,中国航发集团传来振奋人心的消息,其自主研发的"太行7""太行15""太行110"燃气轮机示范项目顺利通过国家能源局组织的评估验收。这一重大突破不仅彰显了中国在高端装备制造领域的强大实力,更标志着我国在燃气轮机全产业链上实现了从跟跑到并跑再到领跑的历史性跨越。 作为中国航空发动机集团的核心项目,此次通过验收的燃气轮机示范项目涵盖了自主研发...
22:40
2026年中央广播电视总台春节联欢晚会于1月17日完成首次彩排。本次春晚以“科技+艺术”为核心,融合智能技术与舞美设计,提升视听体验。彩排中,各类节目与技术创新、视觉效果初步整合,展现全新年味想象。继去年智能机器人表演扭秧歌引发关注后,今年机器人将再次亮相,通过创意编排展示我国科技发展成果。演出旨在以科技范和新颖形式营造新春氛围。
22:40
2026年1月16日,罗永浩在朋友圈证实其微博账号被禁言15天,并称将此“善意解读为保护”。此前,他与西贝董事长贾国龙因预制菜话题公开争执,双方微博账号随后均被禁言。罗永浩表示个人不再回应此事,未来若有重大谣言将由公司发布合规澄清声明。微博CEO王高飞同日发文强调,网络名人不得组织约架论战,应通过媒体采访方式表达争议,以减少网络戾气。
22:07
2026年1月17日,绿联在海外市场发布MagFlow二合一Magsafe充电宝。该产品支持Qi2无线充电,内置20000mAh电池,配备数显屏显示电量与功率。正面磁吸面板最高输出25W,内置小充电板可为TWS耳机充5W电,上盖可调角度便于查看手机。自带USB-C编织线支持100W输出,可为笔记本快充,自充最高达65W。机身含USB-A和USB-C接口,A...
22:07
2026年1月13日,CD Projekt确认旗下《巫师》系列游戏全球销量已超8500万份。其中《巫师3:狂猎》达6000万份,居系列首位。《巫师2》和《巫师1》分别售出1500万、1000万份。数据由波兰记者Michał Król披露,公司CEO随后转发确认。此次更新展示了CD Projekt旗下多款游戏的强劲市场表现。
21:08
2026年1月17日,德石股份传来振奋人心的消息,其自主研发的超耐磨高压酸化压裂软管成功斩获北美市场首笔高端订单。这一里程碑事件不仅彰显了德石股份在高端油田装备领域的卓越技术实力,更标志着公司正式迈入全球油气勘探开发技术的前沿市场行列。此次订单的成功获取,充分验证了德石股份产品在严苛工况下的可靠性能和卓越竞争力,为公司在国际市场的持续扩张奠定了坚实基础。随着...
21:08
HMD近日公布DUB X50 Pro真无线耳机,支持主动降噪与蓝牙5.3。该耳机采用入耳式设计,搭载DUB白金音效技术,配备四麦克风矩阵和AI降噪,提供蓝色、灰色两种配色,支持IPX4级防水。内置70mAh耳机电池和600mAh充电盒,最长续航达60小时,支持USB-C快充,充电10分钟可播放185分钟。产品已于官网发布,旨在提升音乐细节与通话清晰度。
20:37
2026年1月17日,阿维塔公司就1月6日发生在南宁的严重交通事故正式发布官方声明。这起事件中,一辆阿维塔07车型在超速行驶状态下连续撞击了15辆其他车辆,造成重大影响。根据当地交警部门出具的最终认定结果,驾驶员在此次事故中承担全部责任。 阿维塔公司通过声明强调,事故发生时该车辆的辅助驾驶系统并未处于激活状态,且车辆安全气囊正常弹出,符合安全设计标准。公...
20:37
2026年1月17日,GNOME 50桌面环境在GNOME Shell中合并新功能,可在设定就寝时间后阻止用户解锁电脑。该功能属“数字健康”项目,管理员可设置睡眠时段,届时系统禁止解锁,也可选择延长使用时间。此举旨在帮助用户管理屏幕使用时长。同期更新还包括Nautilus文件管理器支持Git管理应用Turtle、主题自定义工具Rewaita,以及发布GNO...
20:37
2025年,我国全社会用电量达103682亿千瓦时,同比增长5.0%,首次突破10万亿千瓦时大关。第一产业用电量1494亿千瓦时,增长9.9%;第二产业66366亿千瓦时,增长3.7%;第三产业19942亿千瓦时,增长8.2%;居民生活用电15880亿千瓦时,增长6.3%。第三产业与居民用电对增长贡献率达50%。其中,充换电服务业和信息传输、软件业用电增速...
20:06
2026年1月15日下午,顺丰航空O3263航班从南京禄口国际机场顺利起飞,标志着南京至台北的定班货运航线正式投入运营。这条全新的航空货运通道由波音757-200全货机执飞,每周稳定运行2个班次,不仅实现了南京与台北之间固定班期、固定时刻的运输服务,更开创了两岸间首条公开销售的固定时刻航空货运航线。这一重要举措由南京交控航空物流、顺丰航空以及苏瑞亚(南京)航...