新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年01月21日

20:54
2026年1月21日,在Pwn2Own Automotive 2026汽车安全黑客大赛中,Synacktiv团队通过组合USB相关漏洞,成功获取特斯拉车载信息娱乐系统root权限,获3.5万美元奖金。该团队还攻破索尼XAV-9500ES设备,额外获奖2万美元。Fuzzware.io、DDOS和PetoWorks等团队也分别在充电桩和控制器项目中取得突破,累...
20:54
2026年1月21日,智己汽车重磅发布了旗下中大型SUV——智己LS8的官方设计图。这款新车在定位上略低于品牌旗舰车型LS9,展现出更为亲民的姿态。其车身尺寸长宽高分别为5085毫米、2000毫米和1807毫米,轴距达到了3060毫米,确保了宽敞舒适的内部空间,为用户带来卓越的乘坐体验。 外观设计方面,智己LS8延续了家族式风格,采用了封闭式前脸设计,彰显出...
20:54
2026年1月21日,美国银行宣布上调星巴克公司股票目标价。此次调整将目标价从106美元升至114美元,反映出对星巴克未来业绩增长的乐观预期。分析认为,提价主要基于星巴克在北美及中国市场的持续复苏、门店扩张策略以及数字化转型进展。该举措旨在增强投资者信心,应对当前消费环境变化带来的挑战。
20:54
2026年1月21日,摩尔线程发布上市后首份业绩预告,预计2025年营收达14.5亿至15.2亿元,同比增长超230%;净亏损9.5亿至10.6亿元,同比收窄34.5%至41.3%。公司聚焦全功能GPU研发,推出旗舰产品MTT S5000并实现量产,支撑万亿参数大模型训练。尽管收入增长显著,但因持续高研发投入,尚未实现盈利。受益于人工智能产业需求旺盛,市场...
20:54
2026年1月21日,在达沃斯世界经济论坛上,谷歌DeepMind CEO德米斯·哈萨比斯表示,中国科技公司如字节跳动仅比全球AI前沿水平落后约六个月。他称赞DeepSeek模型表现令人印象深刻,但认为市场对其R1模型的反应属“严重过度”。哈萨比斯指出,中国企业擅长快速追赶, yet尚未证明具备引领性创新能力。与此同时,DeepMind正推动Gemini助...
20:54
2026年1月21日,导演维宾斯基在采访中指出,虚幻引擎虽提升影视特效制作效率,但导致画面真实感下降,易陷入“恐怖谷”效应。他对比玛雅等传统软件,认为虚幻引擎在光线模拟、皮肤反射和动态呈现上存在缺陷,尤其在生物角色动画中问题明显。维宾斯基强调,动画的真实感不仅依赖光影,更取决于动作逻辑的精准。他批评行业为追求效率牺牲质量,称虚幻引擎取代玛雅是“行业倒退”。
19:54
自2027年1月1日起,工信部将施行新修订的《道路机动车辆生产企业及产品准入审查要求》。新规明确新能源汽车企业须建立产品全生命周期档案,跟踪记录使用、维护、维修及动力电池回收情况。企业应建设运行安全监测平台,按协议监测所有在售车辆运行状态,涵盖安全、故障、充电等数据,并与国家和地方平台对接。同时,需设立隐患排查机制,制定安全事故应急预案,独立存储动力电池并...
19:54
2026年1月20日,字节跳动旗下豆包宣布与上海浦东美术馆达成合作,成为“图案的奇迹”与“非常毕加索”两大国际展的官方AI讲解员。此举标志着AI产品首次担纲美术馆官方导览角色。基于Seed 1.8模型,豆包可理解观众视角变化,支持视频通话或拍照提问,实现即看即问、即问即答的互动体验。系统能精准解读毕加索画作氛围营造、伊朗细密画技法细节等复杂艺术内容,涵盖历...
19:54
2026年1月21日,中国市场监管总局正式宣布全国电子计价秤智慧计量监管平台正式启动试运行,标志着我国计量监管体系迈入数字化智能化新纪元。这一创新平台实现了对电子计价秤从型式评价、生产制造到检定使用等全生命周期的非现场穿透式监管,构建起全方位的监管网络。目前已有134家电子计价秤生产企业、2163家检定机构等权威单位成功入驻,形成覆盖全行业的监管矩阵。 该平...
19:54
2026年1月21日,供应链消息称,华邦电、南亚科等存储大厂近期签订的长期供货合约(LTA)期限已延长至两年以上,部分大客户合作框架甚至接近2030年。此次长单模式由以往“锁价又锁量”转为“锁量不锁价”,旨在保障产能优先分配与出货稳定,同时保留价格浮动空间。此举可确保厂商产能利用率及基本获利,但因价格随市调整,毛利率上限受限,盈利弹性下降。行业认为,新模式...
19:54
2026年1月21日,在达沃斯世界经济论坛上,英伟达CEO黄仁勋表示,人工智能正引发一场“平台转变”。他指出,为支持AI发展,全球需建设价值“数万亿”的基础设施。该言论强调了AI对算力、数据中心和网络架构的庞大需求。黄仁勋认为,这一转型将深刻影响科技与经济格局。
19:54
2026年1月21日,滨海能源宣布拟投资5.48亿元,在河北邢台和内蒙古包头分别建设1,000吨/年多孔碳项目和2,000吨/年硅碳负极材料项目。其中,邢台项目投资1.21亿元,包头项目投资4.27亿元,两项目将分步建设、分期投产。此次投资旨在丰富公司负极材料产品结构,提升综合竞争力。目前项目尚未启动实施,正办理相关手续及前期准备工作。