新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年02月17日

14:34
微新创想: 2026年马年春晚,人形机器人首次大规模登上舞台,留下了诸多令人印象深刻的名场面。二十多台机器人在聚光灯下完成Airflare大回旋七周半;仿生机器人以1:1比例复刻蔡明的面部表情,连挑眉的细节都能同步;轮式双臂机器人在复杂环境中自主完成捡玻璃、叠衣服等精细操作;还有的机器人能翻桌跑酷,或是“醉倒”后迅速起身……这些精彩的表现背后,是四家公司不惜...
14:34
微新创想:徐兵不抵触AI。他的公司正在做一部腾讯投资的AI电影,而且已经开始做了。“未来肯定是AI的天下。”他说,“因为现在拍戏太累了,一堆人搭景、布光、布机位,‘劳民伤财’,平台也投得捉襟见肘。AI迟早会把这些事取代掉——因为它经济,因为它高效。”但这并不意味着徐兵会向什么东西妥协。“从《红色》开始我就是自己写了,写一个高兴的,写完之后找演员,找好了之后找...
14:34
微新创想:马年春晚开播两小时内,一个原本只存在于实验室和产业论坛里的赛道,被迅速拉进了现实世界。2月16日晚20:00至22:00,当亿万观众沉浸在歌舞与小品营造的喜庆氛围中时,京东后台的数据流却正在经历一场无声的海啸。机器人相关搜索量环比暴增300%,客服问询增长460%,订单量增长150%。在除夕夜10点的黄金节点,“春晚同款”机器人上线几分钟内即被抢空...
14:34
微新创想:在刚刚结束的2月16日马年除夕夜,松延动力、宇树科技、魔法原子和银河通用这四家机器人公司集体亮相央视春晚,成为今年春晚舞台上最具科技感的亮点之一。这种高密度的国民级曝光不仅吸引了观众的目光,也迅速点燃了消费市场的热情。数据显示,春晚开播仅两小时,京东平台上的机器人相关搜索量就环比增长超过300%,客服咨询量更是激增460%,订单量增长150%。这些...
14:34
微新创想 2026年春晚舞台上,宇树科技的机器人与塔沟武校的功夫少年联袂演绎的《武BOT》节目引发了观众的强烈反响。节目以武术与科技的完美融合为亮点,展现出机器人在动作控制与表现力上的巨大潜力。随着节目播出,不少网友开始关注春晚同款机器人何时能够开售以及其价格区间,相关话题迅速登上热搜,成为讨论热点。 宇树科技的这款机器人因其流畅精准的武术动作而受到广泛赞誉...
14:34
微新创想:2 月 17 日凌晨 阿里千问App官方发布“千问请客”春节活动核心数据 活动期间超1.3亿用户通过千问完成点奶茶、囤年货、买电影票、订机票酒店等各类生活服务操作 过去11天用户累计喊出50亿次“千问帮我” AI助手深度融入春节消费与生活场景 千问方面表示 “千问帮我”正逐渐成为用户的生活习惯 自2月14日第二波请客活动开启后 平台AI买电影票...
14:34
微新创想:2026年2月16日晚,宇树机器人在央视春晚的武术节目《舞 BOT》中震撼亮相,与多名儿童共同演绎精彩的武术表演。此次表演不仅展现了机器人与人类协同的非凡能力,更以高难度动作赢得了观众的热烈掌声。 宇树科技透露,其人形机器人此次在表演中突破了多个运动极限,刷新了全球多项记录。其中包括空翻最大高度超过3米,单脚连续空翻,以及最快任意跑位速度达到4m/...
14:13
微新创想:2026年3月,Unity将在美国旧金山举行的游戏开发者大会(GDC)上推出全新Unity AI测试版。这一发布标志着Unity在人工智能领域的重大进展。该公司CEO马修·布罗姆伯格宣布,该工具支持自然语言输入,可直接生成完整休闲游戏,无需编写代码。这一创新功能将极大改变游戏开发的方式,使更多人能够轻松参与游戏创作。 此次推出的AI工具不仅适用于非...
14:13
微新创想:2025年,中国商业航天迎来快速发展阶段,全年计划发射次数达到92次,其中商业发射占比高达54%。这一数据不仅反映了中国航天产业的蓬勃增长,也标志着商业航天在国家整体航天战略中的重要地位日益凸显。据相关数据显示,2025年中国商业航天的总产值预计将突破2.8万亿元,展现出巨大的市场潜力和经济价值。 中国火箭公司作为行业内的佼佼者,在这一年中完成了1...
13:28
微新创想:2026年2月17日,银河通用宣布其春晚亮相机器人Galbot G1因热销紧急扩产。该机型于除夕22时在京东上线后数分钟内售罄,24小时内订单超数百台,其中近300台为沈腾、马丽小品中同款。公司已连夜调配产能、组织加班,全力保障交付。 此次爆单源于马年春晚高曝光带动消费热情,70万元机型成市场焦点。Galbot G1凭借其独特的外形设计和出色的互动...
13:28
微新创想:2026年2月17日,美国企业丹纳赫公司接近达成协议,将以约100亿美元收购医疗设备厂商Masimo。这项交易若顺利完成,将显著增强丹纳赫在患者监护与生命支持领域的市场地位。目前双方尚未正式公布消息,但据可靠消息来源透露,相关谈判已经进入最后阶段。 此次收购的动因在于整合双方的技术资源,进一步扩大在全球医疗市场的影响力。丹纳赫希望通过此次合作,提升...
13:28
微新创想:2月17日,应急管理部召开视频调度会,部署春节假期安全防范工作。会议强调,烟花爆竹仍是当前最大风险源,须强化生产、运输、储存、销售、燃放等全链条监管。 会议要求紧盯重点行业、人员密集场所、高风险单位及事故多发环节,精准防控重大安全风险。同时举一反三加强矿山、危化品、工贸等领域监管,严把节后复工复产安全关。 督促企业落实风险防控措施,坚决防范重特大事...