新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年03月08日

15:56
微新创想:2026年3月,卡内基梅隆大学与斯坦福大学联合研究发现当前主流AI智能体在基准测试中的任务分布存在明显失衡 当前43个主流AI智能体基准测试中,92%以上任务集中在计算机与数学领域 这一领域仅占美国就业的7.6%而管理、法律、工程等高数字化、高经济价值领域覆盖不足1.5% 研究基于O*NET数据库将72342项任务映射至1016种职业揭示智能体在人...
15:56
微新创想:3月8日,本来生活与朝取农业在贵州毕节签署合作协议,共同成立本真朝取(毕节)农业科技有限公司。此次合作标志着双方在推动中国非笼养蛋鸡产业高质量发展方面迈出了重要一步。 双方计划在未来两年内投入不少于2亿元资金,用于建设高标准的非笼养蛋鸡养殖场及相关配套设施。项目涵盖从养殖到研发、品牌、销售以及物流的全链条运营,形成完整的产业生态体系。 通过此次合作...
15:56
微新创想:2026年3月8日,海思科子公司四川海思科制药收到国家药监局签发的HSK39297片上市许可申请《受理通知书》。这一消息标志着该药物正式进入国家药品审评审批流程,是其研发过程中的重要里程碑。 微新创想:HSK39297片为四川海思科制药自主研发的补体B因子小分子抑制剂。该药物拟用于治疗成人阵发性睡眠性血红蛋白尿症(PNH),这是一种罕见的血液系统疾...
15:56
微新创想:2026年2月 微软Defender专家团队监测到多起由未知威胁行为者发起的钓鱼攻击 攻击者利用办公场景作为伪装手段 例如会议邀请和发票等 通过伪造PDF附件及仿冒下载页面诱导用户执行恶意可执行文件 该恶意文件带有TrustConnect Software PTY LTD EV证书签名 并部署了ScreenConnect、Tactical RMM及...
15:56
微新创想:2026年3月8日,微软威胁情报部门发布报告指出,多个国家级网络攻击组织正系统性利用生成式人工智能开展侦察、钓鱼、伪造身份、恶意软件开发及基础设施搭建等攻击活动 报告中提到,朝鲜关联的‘碧玉冰雨’‘珊瑚冰雨’等组织正在将AI技术融入其网络攻击流程,以提高攻击效率和隐蔽性。这些攻击组织利用AI生成多语种钓鱼邮件,使攻击更具针对性和欺骗性,从而更容易诱...
15:56
微新创想:2025年印度PC市场出货量达到1590万台,同比增长10.2%,首次突破1500万台大关。这一显著增长得益于疫情后设备更新潮的持续影响,同时伴随着数字化进程的加快,越来越多的企业和个人开始升级他们的计算设备。此外,小微企业采购需求的上升以及小城市渠道的下沉,也为市场注入了新的活力。 商用采购在整体市场中占据重要地位,占比达到52.9%。随着Win...
15:56
微新创想:2026年3月8日,OpenWrt项目正式发布25.12版本。此次更新将默认包管理器从opkg更换为APK(Alpine Package Keeper)。这一变动的主要原因是opkg长期缺乏维护,导致其在功能和安全性方面无法满足当前需求。APK作为更现代的包管理工具,能够提供更好的性能和稳定性。 此次版本更新还对命令语法进行了调整,以适应APK的使...
15:08
微新创想:2026年3月8日,中影集团董事长傅若清透露,《流浪地球3》预计于2026年5月杀青。该片由郭帆执导,吴京、刘德华、屈楚萧、赵今麦等主演,改编自刘慈欣同名小说。影片首次采用上下两部形式,上部定档2027年春节档,下部拟于2027年暑期档或2028年春节档上映。 影片延续太阳危机背景,聚焦年轻一代在2500年‘流浪地球’计划中的生死救援。制作方强调两...
15:07
微新创想:2026年2月,国际天文学家团队利用詹姆斯·韦伯太空望远镜成功观测到近地小行星2024 YR4 该天体被确认将在2032年12月22日以超过2万公里的距离飞越月球 此前由于轨道不确定性,2024 YR4曾引发广泛关注,NASA甚至一度评估了核防御方案 此次观测在极窄视场与微弱信号条件下完成,展现了韦布望远镜在近红外波段的卓越性能 通过高精度定位技术...
15:07
微新创想:3月8日,全球权威医疗大模型评测平台MedBench更新多模态大模型榜单,京东健康自研医疗大模型‘京医千询’以综合得分第一登顶。该模型由京东健康研发,于2025年2月首次以96.1分位居MedBench综合评测榜首,本次在多模态能力维度再创行业新高。 评测覆盖医学图像理解、图文推理、跨模态诊断支持等关键场景,凸显其在医疗AI领域的技术领先性。此次登...
14:33
微新创想:2026年春运进入第35天,3月8日(星期日)全国全社会跨区域人员流动量预计达到19409万人次。与前一日相比,流动量略有下降,降幅为1.5%。但相较于2025年同期,整体增长4.0%,显示出春运期间人员流动的持续活跃态势。尽管单日数据有所波动,但整体客流仍维持在较高水平,显示出春节假期后返程高峰的强劲势头。 微新创想:为了满足不同人群的出行需求,...
14:33
微新创想:2026年3月8日 特斯拉官方宣布其电动半挂卡车Semi正在美国阿拉斯加进行冬季极端环境测试 并同步发布实车雪地外观图 此次测试旨在验证车辆在低温 积雪等严苛条件下的性能表现 特斯拉希望通过实际环境数据确保Semi在各种气候条件下都能稳定运行 Semi项目始于2017年 2022年12月启动小批量交付 目前量产工厂正建于内华达超级工厂附近 这标志着...