新加坡科技设计大学的研究团队近日推出了一款名为TinyLlama的AI模型,这款模型以其惊人的小巧体积和强大的性能能力,在人工智能领域引起了广泛关注。TinyLlama仅占用550MB的内存空间,却具备出色的智能处理能力,使其成为边缘设备应用的理想选择。

TinyLlama采用了先进的稳定扩散XL技术,并计划在90天内利用3万亿token的数据集进行深度训练。这一庞大的数据集将为模型提供丰富的学习资源,使其能够适应内存受限的边缘设备环境。该项目的主要目标是为这些设备提供高性能的人工智能解决方案,满足日益增长的开发者对小型AI模型的需求。

随着边缘设备的普及,对内存和计算能力有限制的设备来说,小型AI模型的优势愈发明显。这些模型不仅能够独立运行多种应用,还能协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所强调的。TinyLlama正是基于这一理念设计而成,其紧凑的架构使其能够高效运行在资源有限的设备上。

TinyLlama项目由新加坡科技设计大学的研究助理领衔,他们致力于在三万亿token的数据集上预训练一个11亿token的Llama模型。这个轻量级的模型不仅内存占用极低,而且具备广泛的应用潜力,特别是在需要受限计算和内存占用的场景中,如无需互联网连接的实时机器翻译等。

TinyLlama的训练工作于9月1日正式启动,团队使用了16个A100-40G GPU进行加速,计划在90天内完成整个训练过程。截至目前,团队已成功完成了1050亿token的训练任务。模型的构建者表示,TinyLlama采用了与Meta用于训练Llama2的“完全相同的架构和分词器”,这将使其能够轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集进行训练。这些数据集曾用于训练StarCoder,这是一个代码生成模型,其丰富的内容将为TinyLlama提供强大的学习基础。

一旦训练完成,TinyLlama将加入众多小型语言模型的行列,这些模型正被开发者用于构建各种创新应用。与此同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b等模型也在不断取得进展,共同推动着小型AI技术的发展。

项目网址:https://github.com/eivindbohler/tinyllama

最新快讯

2026年03月05日

09:10
微新创想:最近,一位中药学专业的女大学生在网络上可是火了一把。她叫小华紫,是湖南怀化通道侗族自治县人,现在是一名大四学生。小华紫从小就跟着外公上山采药,对山里的草药了如指掌。最近,她把自己进山尝草药的视频发到了网上,没想到一下子就走红了。 在这些视频里,小华紫背着小背篓,带着小狗,在山里寻找各种草药。她不仅会讲解草药的特性和用途,还会亲自品尝,让网友们大开眼...
09:10
微新创想:近日,江西景德镇瑶里景区里一只名叫“赛虎”的网红狗成了大家关注的焦点。这只已经17岁高龄的狗狗,最近身体状况不太好,出现了咳嗽、行走不稳的症状,让不少游客和网友都揪起了心。 据了解,赛虎可是景区的“老住户”了,多年来一直陪伴着游客,被大家亲切地称为现实版的“忠犬八公”。它的故事感动了许多人,不仅因为它的忠诚,更因为它与游客之间建立的深厚情感纽带。 ...
09:10
微新创想:最近国际金价一直在高位徘徊,不少手里有黄金的市民都琢磨着要不要变现。黄金作为传统投资品,其价格波动一直备受关注。随着市场行情的变化,一些持有黄金制品的投资者开始考虑是否将其变现以获取收益。 在新街口的一家典当行,一位女士小心翼翼地从包里拿出一本珍藏多年的第三套人民币(纯金)纪念册。这本纪念册对她而言有着特殊的意义,不仅承载着回忆,也寄托着投资的期望...
09:10
微新创想:2026年2月13日 南京诺令生物科技股份有限公司正式向港交所主板递交上市申请 建银国际担任独家保荐人 公司成立于2018年 专注于一氧化氮吸入疗法的研发与商业化推广 其核心产品iNOwill是全球首款采用电化学催化法进行iNO治疗的治疗仪 在该领域具有显著的技术优势和市场影响力 截至2025年9月 公司已获得5款产品上市批准 并有4款产品处于研发...
09:10
微新创想:2026年3月4日,X平台用户jakeu+曝光了雷蛇毒蝰V4 PRO专业版白色款的外包装盒,显示该鼠标即将上市。这一消息引起了众多电竞爱好者的关注。毒蝰V4 PRO专业版延续了毒蝰V4系列的经典设计,采用了对称式偏右手结构,进一步优化了人体工学体验。同时,该款鼠标在重量控制方面表现出色,是一款超轻量化的产品,适合需要长时间操作的玩家。 该鼠标配备了...
09:10
微新创想:美国国防科技领域正经历一场由监管政策冲突引发的供应动荡。据TechCrunch披露,尽管Anthropic开发的Claude模型目前仍被美军用于实战支持,但特朗普政府近期发布的一系列重叠且互抵的禁令,已导致大量国防科技承包商加速弃用该系统。 根据最新指令,民事机构被要求立即停止使用Anthropic产品,而国防部则获得六个月的过渡期。然而,在政策尚...
09:10
微新创想:微软近日在其开发者社区发布了一款名为 Phi-4-Reasoning-Vision-15B 的新型开源 AI 模型。这款模型不仅具备高分辨率的视觉感知能力,还能够进行深度推理,标志着 Phi-4 系列的一个重要突破。 作为首个同时具备 “看得清楚” 和 “想得深入” 特性的 “小语言模型”(SLM),Phi-4 的问世将为开发者开辟新的智能应用场景...
09:10
微新创想:微软近日正式发布了全新的开源权重多模态大模型 Phi-4-reasoning-vision-15B。这款模型最大的技术突破在于其具备“自主决定思考时机”的能力——它能够智能判断任务难度,自主选择是快速给出答案,还是启动深度的逻辑推理。这种特性在目前的开源轻量级模型中极为罕见。 作为 Phi-4 系列的新成员,该模型拥有150亿参数,专门针对图像描述...
09:09
微新创想 苹果公司于3月4日向行业合作伙伴发布简报宣布将在Apple Music中引入全新的AI透明度标签制度 此举旨在通过升级元数据管理系统提升平台内人工智能参与创作内容的透明度 根据新规唱片公司及发行商在上传音乐作品时需针对AI生成或AI辅助创作的内容进行主动标注 该功能的核心在于对音频元数据的精细化拓展 发行商现在可以针对歌曲的特定维度包括封面图音轨音...
09:09
微新创想:谷歌今日宣布正式向美国所有英语用户开放其搜索引擎中的Gemini Canvas AI模式 这一举措标志着Gemini Canvas从实验室测试阶段迈入大规模商用阶段。作为谷歌在生成式AI领域的重要布局 Canvas旨在将传统的搜索体验转化为深度协作的创作空间 帮助用户完成从项目规划到代码生成的复杂任务 功能层面 Canvas支持用户在AI模式下直接...
08:34
微新创想:近日,陕西渭南的一处景区引发了网友们的热议,原因竟是景区介绍牌上标注的作者是一个颇为特别的名字——“DeepSeek”。不少游客在看到这个作者名时,都误以为是个外国人的名字,仔细一瞧才发现,这原来是一款人工智能助手的名字。 景区工作人员解释说,这块介绍牌是去年摆放的,上面的内容确实是由DeepSeek生成的,主要是对尧头窑进行一个简单的介绍。他们表...
08:34
微新创想:2026年3月4日,苹果公司在Apple Music平台上线“透明度标签”(Transparency Tags)要求唱片公司及发行商标注音乐内容中AI参与的核心环节 该标签系统涵盖封面、音轨、作曲及音乐视频四类创作元素 适用于“实质性部分由AI生成”的音乐作品 同一作品可叠加多个标签以体现不同创作环节的AI参与程度 苹果公司并未强制要求技术检测,而...