新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年04月13日

23:53
微新创想:2026年4月13日,消息人士Igor Bogdanov在X平台发布大疆Osmo Pocket 4 Pro手持云台相机谍照。该机采用双摄像头设计,云台模组体积明显增大,疑似重点提升光学变焦能力;底部屏幕延续现款Pocket系列布局。目前官方尚未公布具体配置与上市时间。 微新创想:值得注意的是,大疆Osmo Pocket 4系列将于4月16日20:0...
23:22
微新创想:2026年4月13日,宁德时代与上汽通用五菱在福建宁德正式签署战略合作协议。此次合作标志着双方在新能源汽车领域迈出了重要一步,未来将围绕产业规模化、乘商兼容换电、联合出海与生态协同四大方向展开深度合作。 宁德时代将作为五菱全谱系新能源车型的核心动力电池供应商,覆盖超过15款不同类型的车型。这一合作不仅提升了五菱新能源产品的竞争力,也为消费者提供了更...
23:22
微新创想:4月12日 爆料人@SadlyItsBradley在X平台透露Valve公司上周于美国收到了首批标为“无线PC控制器”的货物。这一消息引发了业界广泛关注,因为该控制器的设计与功能被认为与即将于2025年11月发布的Steam Controller手柄高度相似。 目前尚无法确认这批货物是否为Steam Controller的正式版本。不过从其命名和设...
23:22
微新创想:青藏铁路自2006年7月1日全线开通以来,已经安全稳定运行了整整20年。这条铁路的建成不仅标志着西藏结束了没有铁路的历史,也极大地促进了西藏与内地的经济联系和文化交流。截至2026年4月13日,青藏铁路累计运输进出藏货物总量已超过1亿吨,成为连接西藏与全国的重要物流通道。 在过去的二十年里,青藏铁路的货运能力实现了显著提升。2006年通车初期,全年...
22:51
微新创想:2026年4月12日,小岛秀夫工作室宣布谍战题材新作《Physint》(代号“Shimmer”)进入演员遴选阶段。这一消息引发了广泛关注,标志着小岛秀夫在影视领域的新尝试。 该剧由小岛秀夫亲自执导,已确定马东锡、查莉·弗雷泽、浜辺美波参演。这三位演员的加入为项目增添了丰富的角色层次和国际影响力。 剧组正在积极寻找一名兼具麦斯·米科尔森式外形与精神错...
22:51
微新创想:2026年4月13日,安全公司Noma披露Grafana AI助手存在‘GrafanaGhost’漏洞,攻击者可通过外部网页嵌入恶意指令,利用间接提示注入诱导AI泄露敏感数据至外部服务器。 该漏洞需要攻击者已经获得用户端权限,并且通过多次交互才能触发,因此不属于零点击类型。这意味着攻击者必须在用户不知情的情况下,逐步引导用户执行某些操作,才能实现数...
22:51
微新创想:2026年4月10日,两名前Epic员工向彭博社透露,Epic游戏商店虽然通过免费游戏活动在短期内提升了用户数量,但大多数玩家在活动结束后又回到了Steam平台。这反映出Epic在用户留存方面仍存在明显短板。 跨平台切换的不便成为玩家流失的重要原因之一。许多用户在使用Epic游戏商店时发现,游戏的跨平台体验并不如预期般顺畅,尤其是在不同设备之间同步...
22:51
微新创想 4月13日,华为终端正式发布鸿蒙智行首款MPV智界V9的智能交互式侧门光毯视频,并宣布刘亦菲成为鸿蒙智行智界品牌代言人。此次发布不仅展示了智界V9在智能交互方面的创新设计,也标志着刘亦菲与鸿蒙智行品牌合作迈入新阶段。 视频中,刘亦菲身着鎏金深V礼裙优雅登场,展现出独特的气质与魅力。当她靠近智界V9时,车辆通过毫米波雷达主动感知,侧滑门随即自动开启,...
22:51
微新创想:近日,郴州市第一人民医院小儿普外科接诊了一名10岁患儿小颖(化名),其因一次好奇将8颗磁力珠塞入肛门,险些酿成危及生命的严重后果。起初,家长并未察觉异常,直到小颖出现持续腹痛、腹胀等不适症状,使用开塞露通便后仅排出5颗磁力珠,剩余3颗滞留体内。 家人紧急送医,经检查确诊为直肠穿孔,情况十分危急。医生在手术中发现小颖肠道存在多处穿孔,随即为其实施直肠...
22:51
微新创想 很多人习惯把生肉放在水龙头下直接冲洗,觉得这样更干净。但其实,正确的做法是浸泡着洗。直接用水冲洗生肉,到底错在哪里? 冲水溅射,污染厨房 生肉表面可能携带致病菌,直接用水冲洗时,飞溅的水花会将病菌带到水槽、台面、餐具甚至其他食物上。如果之后再用这些被污染的器具接触即食食品,就可能造成交叉污染,增加食源性疾病的感染风险。 生肉表面常见的食源性致病菌包...
22:51
微新创想:近日河南方城县发生一起因代驾服务引发的悲剧事件引发广泛关注。一名男子庞某在饮酒后呼叫代驾服务,却在代驾师徒将其车辆停放后不幸身亡。此事件不仅牵动了公众对代驾行业安全责任的关注,也引发了对服务合同履行标准的深入思考。 庞某在2025年10月12日晚于方城县某餐饮店与朋友聚餐,期间大量饮用白酒。当晚20时许,聚餐结束,庞某通过代驾平台呼叫代驾服务。代驾...
22:20
微新创想:4A Games于2026年4月13日宣布《地铁》系列第四部正统作品定名为《地铁2039》。这是继《地铁2033》《地铁:最后的曙光》《地铁:离乡》之后推出的又一力作。游戏的全球首发直播将由微软Xbox在北京时间4月17日凌晨1时15分进行。此次直播将是玩家首次了解新作的详细信息。 目前官方尚未公布《地铁2039》的剧情与玩法等正式内容。不过,此前...