新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年02月25日

14:52
微新创想:2026年2月25日,阿里云百炼平台正式推出Coding Plan,集成Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5四大开源大模型的API服务。该服务面向全球开发者开放,支持代码生成、多语言理解与推理等场景。目前,阿里云是全球首家提供此类多模型一站式开源API服务的云厂商。此举旨在降低大模型应用门槛,加速企业级AI开发效...
14:51
微新创想:2026年2月,法国游戏公司育碧宣布启动新一轮大规模重组,目标削减2亿欧元(约13.78亿元人民币)运营成本。此次调整涵盖多个层面,包括拆分公司为多个IP导向的创意工作室、终止或调整部分项目、严格控制招聘,并在全球范围内裁员超2000人。其中,巴黎工作室已裁撤200个岗位。 此次重组被视为育碧应对市场变化和财务压力的重要举措。公司CEO伊夫·吉列莫...
14:51
微新创想:2026年2月16日(除夕)前,小马智行在深圳完成的付费订单数已突破2025年全年总量。这一成绩标志着公司在自动驾驶出行服务领域取得了显著进展。数据显示,2月15日至23日春节假期期间,其在北京、上海、广州、深圳四地的运营数据持续增长,深圳单日付费订单量屡创新高。 此次突破主要得益于自动驾驶服务覆盖范围的扩大,用户对自动驾驶技术的接受度也在不断提升...
14:51
微新创想:2026年2月,北京科技企业空山慈宣布完成Pre-A轮融资,由云启资本独家领投。此次融资为公司的发展注入了新的动力,助力其在精神与认知障碍领域持续深耕。 空山慈专注于高性能神经调控技术的研发与临床转化,致力于解决精神与认知障碍相关问题。公司技术团队汇聚了神经科学、医工交叉及临床医学等多领域专家,具备深厚的专业背景和丰富的实践经验。 凭借自主研发的技...
14:51
微新创想:广州哈罗国际学校(AISL哈罗广州)将于2026年9月正式开学 即日起开放3月探校预约 广州哈罗国际学校坐落于中国南方的经济中心广州 为外籍人员及港澳台居民的子女提供优质的国际教育服务 该校面向2至18岁学生招生 课程体系采用英国国家课程标准 高中阶段将开设IGCSE与A Level课程 为学生提供全面的学术发展路径 学校支持寄宿服务 为学生创造一...
14:51
微新创想:2026年2月25日,中国民航局发布《正常类动力提升无人驾驶航空器系统(不载人)适航标准(征求意见稿)》和《正常类多旋翼无人驾驶航空器系统(不载人)适航标准(征求意见稿))》,面向社会公开征求意见 此次发布的两项适航标准旨在进一步完善民用无人驾驶航空器的适航审定法规体系,为低空经济的快速发展提供更加坚实的制度保障。随着无人机技术的不断进步和应用场景...
14:51
微新创想:2月25日14时00分 云南德宏州盈江县发生3.6级地震 2月25日14时00分 云南德宏州盈江县发生3.6级地震 此次地震的震中位于北纬24.72度 东经97.73度 震源深度为10千米 属于浅源地震 地震发生后 未发布海啸预警 当地初步了解情况显示 无人员伤亡和明显财产损失报告 交通 通信等基础设施运行正常 未受到明显影响 云南省地震局已启动应...
14:51
微新创想:2026年2月25日,汇丰银行正式公布其全年业绩报告,整体奖金池达到39.3亿美元,相比上一年度增长了10%。这一增幅标志着至少十年来奖金池的最高水平,显示出银行在多个业务领域的强劲表现。 此次业绩增长主要得益于投资银行业务的出色表现以及亚洲财富管理板块的持续发展。这两个板块的强劲增长有效推动了集团整体净利润的提升,同比增长幅度达到了12%。这一成...
14:51
微新创想:德国数据中心运营商Hetzner于2月23日宣布自2026年4月1日起对现有及新订单产品统一提价 此次调价覆盖了Hetzner所有的IT基础设施服务 Hetzner表示此次价格调整的主要原因是行业性成本持续上涨 电力、硬件采购以及运维支出等关键成本项目均出现显著上升 这些成本的增加已经超出了企业的单方面承受能力 公司强调在此次调价之前已尽力优化成本...
14:51
微新创想:2月24日(正月初八),全国铁路发送旅客1810.1万人次,连续5天超1500万人次。自2月2日春运启动以来,累计发送旅客已达到3.13亿人次。铁路部门持续加大运力投入,确保旅客出行需求得到满足。 2月25日预计发送旅客1665万人次,加开列车1549列。铁路运输能力在节后持续增强,为返程客流提供了有力保障。面对日益增长的出行需求,铁路系统不断优化...
14:51
微新创想:SHEIN韩国站正式开放半托管模式招商 SHEIN韩国站于2月25日宣布启动半托管模式招商计划 此次招商模式主要面向韩国本土企业 入驻企业需满足一定的资质条件 包括持有有效的韩国税号 并在韩国拥有自有库存和自主发货能力 同时商家需具备韩国电商运营经验 符合近三个月销售额超过10万美元或上年度在其他平台韩国站销售额达到40万美元的任一标准 SHEIN...
14:51
微新创想:2026年2月23日,南侨食品(SH605339)发布公告,公司实际控制人之一陈飞龙近日逝世。陈飞龙出生于1937年10月,自1974年起接掌南侨工业,带领企业从化工行业转型至食品领域。在他的领导下,南侨食品逐步发展成为国内知名的食品生产企业,并于2021年成功在上海证券交易所上市。 陈飞龙生前并未在公司担任具体职务,因此他的逝世不会对公司日常的生...