在人工智能技术日新月异的今天,北京深度逻辑智能科技有限公司凭借其前瞻性的技术视野,近日震撼发布了划时代的创新成果——LLaSO语音语言模型。这一全球首创的开放性研究框架,不仅实现了端到端的语音处理全流程开放,更开创了语音识别技术的新纪元。作为业界首个完全开源的语音语言模型,LLaSO框架的问世标志着语音技术发展进入了全新阶段。
LLaSO框架最引人注目的特性...
分类: AI动态
2025年09月16日
近日,英伟达携手多伦多大学、向量研究所及德克萨斯大学奥斯汀分校的研究团队,共同推出了一项名为 **ViPE(视频姿势引擎)** 的革命性技术。这项突破性成果致力于攻克3D几何感知领域的关键难题——如何从纷繁复杂的自然视频数据中高效且精准地提取三维信息。作为自动驾驶、虚拟现实(VR)和增强现实(AR)等前沿技术的核心支撑,3D几何感知的重要性不言而喻。ViPE...
Meta AI 近期正式发布了 MobileLLM-R1 系列轻量级边缘推理模型,这一创新成果已在 Hugging Face 平台公开发布。该系列模型参数规模覆盖从 140M 到 950M 的广泛区间,其核心设计理念聚焦于高效执行数学运算、编码任务以及科学推理,令人惊喜的是,即便在参数总量不足 10 亿的条件下,依然实现了令人瞩目的性能表现。
MobileL...
VEED重磅发布全球首款AI会说话视频模型Fabric 1.0,以颠覆性的技术重新定义视频创作边界。只需一张静态图片,即可生成具有逼真唇形同步和自然面部表情的动态视频,彻底打破传统视频制作的成本与时间壁垒。官方数据显示,Fabric 1.0将视频生成成本降低60倍,速度提升7倍,最长支持1分钟内容生成,这一突破性成果迅速引发科技界强烈关注,开发者与内容创作者...
哈佛法学院的学习经历为马克・李的人生轨迹带来了深刻转折。在商标法课程中,他震惊地发现全球每年有超过3万亿美元的假冒产品交易,这个触目惊心的数字让他意识到反假冒产业的巨大潜力。原本立志成为律师的李,在深入思考后毅然选择创业,决心用技术力量解决这一全球性难题。在一次课堂讨论中,他了解到疫情期间在线购物带动假冒产品市场以每年20%的速度疯狂增长,这更加坚定了他利用...
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在9月16日举办的2025腾讯全球数字生态大会上发表重要讲话,指出"向智能化要产业效率,向全球化要收入规模"已成为企业增长的两大核心动力。腾讯将着力打造智能化与全球化两大效率引擎,为企业稳健可持续发展提供强大助力。
在智能化方面,腾讯云正式发布腾讯云智能体战略全景图,全面开放AI能力及C端、B端优势场景。...
在德国慕尼黑举办的国际汽车工业展(IAA Mobility)上,美国科技巨头高通公司与三星旗下哈曼企业正式宣布达成一项突破性合作,共同致力于推动汽车人工智能(AI)技术的革新。此次合作的核心是将高通领先的 Snapdragon Cockpit Elite 平台深度整合到哈曼的汽车解决方案产品线中,从而彻底改变人与车辆之间的交互模式。
据两家企业联合宣布,这项...
腾讯近期推出了一项突破性的技术革新,旨在显著提升AI生成图像的真实感与美学评分。据官方介绍,这项先进的微调技术仅需使用32块H20显卡进行10分钟的训练,就能实现令人瞩目的收敛效果,其人工评估得分更是在此基础上实现了300%以上的惊人飞跃。这一成果的取得,为当前AI图像生成领域带来了前所未有的突破。
当前主流的扩散模型虽然能够通过奖励机制优化图像质量,但仍然...
近日,谷歌在英国埃塞克斯郡的瑟洛克地区提交了建设新数据中心的规划文件,引发广泛关注。该项目规模庞大,占地52公顷(约128英亩),计划包含多达四个数据中心,一旦获批,将成为英国乃至欧洲的“超大规模”计算和人工智能中心。据规划文件披露,该数据中心预计每年将排放超过57万吨二氧化碳,这一数字令人咋舌——相当于每周约500个短途航班的碳排放总量。图源备注:图片由A...
近日,上海人工智能实验室携手多所顶尖高校联合研发出突破性新一代多模态生成与理解模型——Lumina-DiMOO。这款以"全方位扩散大语言模型"为核心概念的先进技术,将全面推动多模态人工智能技术的革新与发展。
Lumina-DiMOO的核心创新在于其采用的"全离散扩散架构",这一技术突破有效克服了传统模型在处理文本与图像数据时的性能瓶颈,为多模态AI领域提...
2025年9月16日,备受瞩目的2025腾讯全球数字生态大会主峰会隆重召开。在此次盛会中,腾讯公司不仅全面展示了其在人工智能领域的最新技术突破与产品创新成果,更重磅宣布将通过腾讯云平台,向全球用户全面开放其强大的AI落地能力及丰富的高价值应用场景,旨在推动“好用、易用、可靠”的AI技术加速渗透到各行各业之中,为产业数字化转型注入强劲动力。
针对当前业界高度关...
字节跳动与香港大学强强联手,共同研发出突破性的开源视觉推理模型——Mini-o3,为多轮视觉推理技术领域带来革命性进展。与以往仅支持1-2轮对话的视觉语言模型(VLM)相比,Mini-o3在训练阶段设定了6轮对话限制,却在测试环节实现了数十轮的推理扩展,显著增强了处理复杂视觉问题的能力。该模型在高难度视觉搜索任务中的深度推理表现,已达到当前技术前沿水平,其卓...
在近日于纽约盛大举行的 AI 峰会上,谷歌公司高管就其在搜索结果中引入 AI 摘要的做法进行了详尽阐述与辩护。担任副总裁职务的马克哈姆・埃里克森在回应滚石母公司 Penske Media Corporation 提起的诉讼时,明确指出用户需求正经历深刻转变,从传统的“10个蓝色链接”模式逐渐转向对 AI 生成的上下文摘要的偏好。图源备注:图片由AI生成,图片...
美国联邦贸易委员会(FTC)近期正式展开了一项针对多家AI聊天机器人企业的深度调查,旨在全面评估这些先进技术对青少年及儿童可能产生的潜在风险。此次调查范围涵盖OpenAI、Meta、Alphabet等业界巨头,FTC的核心目标是深入了解这些公司如何科学衡量、严谨测试以及持续监控AI聊天机器人对未成年群体可能造成的负面影响。值得注意的是,本次调查的背景与近期发...
OpenAI 近期对 Evals 工具进行了重大升级,新增了原生音频输入与音频评分功能,为开发者带来了革命性的评估体验。这一突破性更新允许用户直接对模型的音频输出进行评估,无需经过繁琐的文本转录环节。新功能显著简化了语音识别和语音生成模型的测试流程,大幅提升了开发效率。借助 Evals 的原生音频支持,开发者能够更精准地测试和优化其音频应用性能。用户只需上传...
近日,备受瞩目的开源项目 BentoML 宣布推出一款革命性工具——llm-optimizer,专为开发者打造,旨在大幅提升大型语言模型(LLM)的推理性能。在人工智能技术日新月异的今天,LLM 的应用场景日益丰富,但如何高效部署和利用这些复杂模型,始终是开发者面临的核心挑战。llm-optimizer 的问世,为这一难题提供了前所未有的解决方案,标志着模型...
近日,瑞士顶尖科研机构瑞士联邦理工学院洛桑分校(EPFL)、苏黎世联邦理工学院(ETH Zurich)以及瑞士国家超级计算中心(CSCS)共同宣布了一个名为“Apertus”的大规模开源语言模型的诞生。该模型的名字在拉丁语中意为“开放”,其命名恰如其分地反映了其开放共享的开发理念。与当前市场上备受瞩目的美国大型模型,如OpenAI的GPT系列、Meta的Ll...
哈佛医学院近期推出了一项名为 PDGrapher 的创新人工智能模型,该研究成果为药物研发领域带来了革命性的突破。该模型能够深入分析细胞内部基因、蛋白质和信号通路之间的复杂关联,从而精准识别有效的治疗组合,帮助病变细胞恢复健康状态。这一突破性进展有望彻底改变传统药物发现的理念和实践。
传统的药物发现方法通常采用逐个针对特定蛋白质的研究模式,例如癌症治疗中广泛...
谷歌近期对旗下外包公司 GlobalLogic 的承包商团队实施了一轮大规模裁员,超过200名员工因薪资待遇和工作环境问题被突然解雇。这一决定迅速引发了员工群体的强烈不满和抗议行动,他们长期以来一直承受着低廉的薪酬和恶劣的工作条件,最终导致矛盾激化。这些被裁员工的核心职责是参与谷歌AI产品的评估与改进工作,具体包括对最新推出的Gemini聊天机器人及其AI概...
OpenAI近期震撼发布GPT-5-Codex,这款基于GPT-5深度优化的专业模型专为代理式编码场景量身打造。作为AI技术从辅助工具迈向自主"编程伙伴"的里程碑,GPT-5-Codex将彻底重塑软件开发生态。根据权威数据,该模型于2025年9月15日正式推出后迅速引爆全球科技圈,开发者社群反馈显示其在处理复杂编程任务时展现出卓越能力,现已成为Codex平台...
2025年09月15日
人工智能领域的领军企业 Anthropic 近期在其官方博客上发布了一份极具分量的技术指南《Writing effective tools for LLM agents—using LLM agents》,为开发者提供了系统化的方法论,旨在提升大语言模型(LLM)代理(Agent)的工具设计效率。这份指南深入探讨了如何借助 Model Context Pro...
近日,埃隆・马斯克创立的 Grok AI 平台传来重磅消息,正式开启名为 Grok4Fast 的新型模式测试。这一创新模式专为部分用户群体开放,核心目标在于大幅提升交互响应速度,为用户带来前所未有的高效体验。据 Grok AI 官方介绍,Grok4Fast 模式在处理复杂数学问题时展现出惊人表现,其响应速度几乎达到瞬时级别,远超现有快速模式与专家模式。
想要...
Anthropic 官方博客近日发布了一份极具价值的开发指南,题为《Writing effective tools for LLM agents—using LLM agents》,旨在为开发者提供系统化方法,通过 Model Context Protocol(MCP)为大型语言模型(LLM)Agent 设计高效实用的工具。该指南以“原型 - 评估 - 协作...
近日,xAI 宣布正式推出 Grok4Fast,一款专为追求极致速度而优化的全新AI模型。用户可通过 Grok 网页版的模型选择器轻松体验这一创新功能,但需在订阅设置中先行开启早期访问模式切换按钮。据 testingcatalog 报道,Grok4Fast 最引人注目的特性在于其惊人的响应速度,用户实测反馈显示其处理效率比标准 Grok4 快达10倍之多。
...
Genspark AI 浏览器震撼问世,正式宣告其作为全球首款支持本地运行开源模型的 AI 浏览器身份。这款创新产品的独特魅力在于,它赋予用户在完全离线状态下,直接通过本地设备流畅运行多达169款开源模型的能力,其中包括备受瞩目的 GPT-OSS 和 Gemma3 等。无需依赖网络连接,即可享受闪电般的响应速度,并且这一切完全免费。Genspark AI 浏...
谷歌旗下AI助手Gemini在美国iOS应用市场创造历史性突破,其下载量首次超越长期占据榜首的ChatGPT,强势登顶免费应用下载榜首位这一里程碑事件彻底打破了ChatGPT在AI应用领域的长期霸主地位。业内专家分析指出Gemini此次爆发式增长的核心动力源于其最新集成的NanoBanana图像生成模型这一创新技术凭借其独特的普惠性设计无论免费用户还是付费订...
人工智能开源生态正迎来一场深刻而全面的变革。蚂蚁集团在外滩大会上发布的《大模型开源开发全景与趋势2.0版本》,犹如一面精准的棱镜,折射出这个高速发展领域的真实图景。这份全景报告的诞生绝非简单的数据罗列,而是依托于严谨的OpenRank评价体系,通过科学筛选最终定格在114个最具影响力的开源项目上。这些项目横跨22个技术细分领域,从浩瀚的开源海洋中提炼出璀璨的...
人工智能开源生态正迎来一场深刻而全面的变革。蚂蚁集团在外滩大会上发布的《大模型开源开发全景与趋势2.0版本》,犹如一面精准的棱镜,折射出这个高速发展领域的真实图景。这份全景报告的诞生绝非简单的数据罗列,而是依托于严谨的OpenRank评价体系,通过科学筛选最终定格在114个最具影响力的开源项目上。这些项目横跨22个技术细分领域,从底层框架到上层应用,构建起一...