新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年02月12日

15:21
微新创想:2026年2月12日,三星显示正式推出高端技术品牌“QD-OLED Penta-Tandem”。这项技术代表了显示行业的一项重大突破,采用了五层有机发光叠层结构。相比去年推出的四层设计,这项新技术在发光效率方面实现了显著提升,达到了1.3倍的增长。同时,其使用寿命也延长了两倍,为用户提供了更长久的使用体验。 微新创想:该技术的峰值亮度表现尤为突出,...
15:21
微新创想:2月12日,361°宣布与京东秒送达成深度合作,全国160余个城市超千家门店已同步入驻。此举旨在布局即时零售赛道,实现线上下单、门店发货、爆款商品免费送达的便捷服务。合作覆盖运动服饰及装备品类,支撑其“随时运动,随时装备”品牌理念落地。此次合作是361°加速数字化转型、提升终端履约效率的关键一步。
15:21
微新创想:2026年2月12日,DXC Technology位于英国伦敦金融城的客户体验中心(CEC)正式投入运营。该中心由DXC主导建设,聚焦自动化、生成式AI与智能代理技术,整合AdvisoryX咨询、安全运营及企业基础设施等服务能力。中心将支持企业在英爱地区加速AI落地,计划招募150名AI专家,推动AI运营化应用并培养数字化转型领导者。此举旨在强化D...
15:21
微新创想:2025年5月,固特异轮胎橡胶公司昆山制造工厂建成12.3兆瓦太阳能项目,并于6月正式并网运行。该项目位于江苏昆山,由固特异投资建设并运营,旨在提升可再生能源使用比例。太阳能系统的投入使用,标志着固特异在绿色制造领域迈出了坚实的一步。 微新创想:据测算,2025年该系统已满足工厂约10%的全年用电需求;预计今后每年供电占比将稳定超过12%。这一成果...
15:21
微新创想:2026年2月12日,Steam Deck OLED版在美国及日本、韩国等市场突然售罄。此次断货现象不仅出现在Steam美区官网,也波及到合作伙伴Komodo在亚洲的销售渠道,而部分欧洲地区仍保持有库存。日本用户在Komodo网站上看到提示称‘库存将于2月恢复’,显示出市场对这款设备的高度关注。Valve早在2025年12月就已经停产LCD版Ste...
15:21
微新创想:2026年2月11日,映泰(BIOSTAR)宣布推出DDR5 16GB UDIMM内存模组。这款新产品采用非ECC设计,没有散热片,适用于多种主流平台。它提供了两种频率规格,分别是4800MT/s(CL40-40-40-77)和5600MT/s(CL46-45-45-90),工作电压为1.1V。内存模组采用288-Pin接口与32Bank架构,确保...
15:21
微新创想:2026年2月11日,美国企业服务集团QXO宣布完成对建材分销商Kodiak的全资收购,交易金额为22.5亿美元。此次交易标志着QXO在拓展其业务版图方面迈出了重要一步。 Kodiak总部位于美国,是一家专注于建筑产品的分销商。公司主要经营木材、桁架、门窗、屋面及防水材料等建材,并为客户提供组装、加工与安装等增值服务。凭借其广泛的市场覆盖和专业的服...
15:21
微新创想:2月12日,豆包宣布视频生成模型Seedance 2.0正式上线,同步接入豆包App、电脑端及网页版。这一更新标志着豆包在AI视频生成领域迈出了重要一步,为用户提供了更加便捷和高效的视频创作工具。 用户可在对话框中选择新入口,输入提示词即可生成5秒或10秒的视频内容。这一功能不仅简化了视频创作流程,还大大降低了用户的技术门槛,让每个人都能轻松制作个...
15:21
微新创想:2026年2月12日,世界最长最高城市电梯——重庆巫山县神女大扶梯正式启动免费试运营。这一工程奇迹全长达到905米,垂直提升高度超过242米,坡度最高可达60度,成为全球城市交通建设中的新标杆。 神女大扶梯配备了21部扶梯及相关配套设施,为市民和游客提供了更加便捷的通行方式。在试乘期间,即2月12日至16日,每天9:00至17:00对外开放,市民可...
15:21
微新创想:2026年2月11日,Meta旗下社交平台Threads在美、英、澳、新西兰等地上线了Dear Algo功能。这一创新功能让用户能够发布以“Dear Algo”开头的公开动态,直接向平台算法传达自己的内容偏好。例如,用户可以选择关注体育新闻或避免剧透内容,从而影响信息流的推荐方向。 该功能上线后仅需三天时间,信息流就会根据用户的Dear Algo动...
15:21
微新创想:2026年2月2日,日本NIPPON EXPRESS HOLDINGS株式会社通过其子公司NX South Asia & Oceania公司,完成了对巴基斯坦物流商TCS Logistics(Private)Limited少数股权的收购。此次交易标志着日通在南亚地区进一步扩大其业务布局。 TCS Logistics隶属于1983年成立于卡拉...
15:21
微新创想:2026年2月,彭博新能源财经(BNEF)发布2026年第一季度Tier 1全球一级储能厂商榜单,德赛电池成功入选。该榜单于2026年2月12日前后正式发布,评估覆盖全球储能系统集成商及电池制造商。德赛电池作为中国储能行业的领军企业,此次是连续第四年获得这一权威认证。评选标准涵盖银行可融资性、项目交付记录、财务健康度及技术实力等多个维度。这一成绩不...