百度文心一言软件著作权获批
9月13日,百度正式获得“文心一言软件”著作权,标志着其AI聊天机器人进入新的发展阶段。该软件版本目前为V1.0.0,自8月31日起已向全社会开放下载使用。文心一言自开放以来迅速走红,成为应用商店下载榜首,是首个登顶的中文AI原生应用,展现了强大的市场吸引力。
Bing Chat全面采用GPT-4
微软搜索主管Mikhail Parakhin确认,Bing Chat在创意和精确模式下100%采用GPT-4技术。微软在AI领域持续投入,不仅使用GPT-4,还结合GPT-4Prometheus和自有的图灵语言模型,形成多元化的技术矩阵。尽管微软在AI聊天领域大力宣传,但在与Google的激烈竞争中仍需进一步提升市场份额。
网友用AI复现电影名场面
随着”芭比海默”全网爆火,众多网友开始尝试用MidJourney+Gen-2技术复现电影名场面。一位网友甚至分享了一套7步教程,详细展示了如何利用ChatGPT编写剧本和字幕,通过Midjourney生成图片,再借助Gen-2让图片动起来,最终合成类似”芭比海默”的动画短片。目前最大的挑战在于Gen-2生成的人脸容易畸变,需要多次尝试才能获得理想效果。未来若Gen-2能实现与prompt描述的联动,将彻底改变复杂剧情电影的生成方式。
老黄自曝:3个月卖出800吨H100
英伟达最新GPU产品H100在短短三个月内销量突破816吨,这一惊人数据来自市值已超万亿的英伟达。令人惊讶的是,这家科技巨头采用”无计划、无汇报、无层级”的扁平化管理模式,由CEO黄仁勋亲自推动。目前全球对H100的需求远超供应,各大科技公司和云服务商争相抢购,展现出AI算力市场的火爆态势。
谷歌修改”有用内容更新”政策
谷歌最近对”有用内容”政策进行了第三次迭代更新,明确调整了对AI生成内容的立场。新政策强调内容创作应以人为本,而非单纯为搜索引擎优化。谷歌表示将与OpenAI等公司合作,帮助用户识别AI生成内容的来源。随着AI技术的普及,网络上的AI生成内容比例将持续增长,这对内容生态带来深远影响。
全球首台AI汽车机器人”极越01″
极越汽车宣布将于9月19日推出全球首款AI汽车机器人”极越01″,开启限时预订。这款车型将成为中国首款搭载高通骁龙8295智舱芯片的车型,基于SEA浩瀚架构打造,并全面集成文心一言等AI技术,引领智能汽车新潮流。
英国法官用ChatGPT撰写裁决文件
英国上诉法院法官Birss首次公开承认使用ChatGPT撰写法庭裁决书,称其”非常有用”。他透露直接将ChatGPT生成的文字复制粘贴到裁决中,这一做法引发争议。虽然ChatGPT能提高工作效率,但可能存在生成错误信息的风险,此前美国已有法官因使用类似工具而受批评。
《纽约时报》招聘擅长生成式AI工具的高级编辑
《纽约时报》正在招聘高级编辑,负责将生成式AI工具引入新闻编辑室,打造该领域的领导者地位。该编辑还将制定使用GenAI的指导方针,在创新与风险之间找到平衡点。这一举措显示出传统媒体对AI技术的重视,以及应对内容生态变化的积极态度。
微软推M365Copilot早期访问计划
微软宣布澳大利亚首批客户获得M365Copilot早期访问计划资格。该服务将大型语言模型与Microsoft365数据结合,为企业带来强大的AI生产力增强。金融服务业将成为M365Copilot技术最快采纳的行业之一,能源和公用事业企业也开始试点该服务,以提高工作效率。
聚焦开发者微软推出全新预训练模型phi-1.5
微软研究人员推出仅含13亿参数的LLM模型Phi-1.5,在多个常识推理任务上表现优异,甚至超越参数量是其10倍以上的模型。这一发现表明,高质量数据比单纯追求模型规模更为重要。Phi-1.5的论文和项目地址已公开发布,为AI模型发展提供新思路。
谷歌提出生成式图像动力学
谷歌团队提出”生成图像动力学”技术,可以将静态图片转换成动态无缝循环视频,并支持用户与图片中的对象进行交互。该技术通过提取自然运动视频中的运动轨迹,训练获得图像动力学先验模型,再预测像素级长期运动表示,最终生成动态视频。用户还可以通过拖拽交互,使场景根据点的位置和方向产生对应运动。
新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT
新加坡国立大学华人团队开源了全能多模态大模型NExT-GPT,支持任意模态输入和输出,实现文本、图像、语音、视频之间的转换。该模型通过组合开源的编码器、语言模型和解码器,实现了从任一模态到任一模态的转换,并具备端到端的训练和指令微调能力,在多模态表示对齐方面表现优异。
Autolabel终结人工标注
初创公司refuel上线了AI标注数据的开源工具Autolabel,利用LLM自动对数据进行标注,效率提升100倍,成本仅为人工的1/7。Autolabel支持主流LLM,可快速标注NLP数据集,准确率高达88.4%,并可估计标注置信度,通过不同LLM的平衡使用,大幅降低标注门槛。
中国研究人员推ImageBind-LLM
中国研究人员提出ImageBind-LLM方法,通过ImageBind实现了大型语言模型的多模态指令调优,提高了其响应多种输入指令的能力。该方法支持图片、文本、音频、3D和视频等多种模式的指令输入,采用高效的调优方法,并提出了基于图像特征的视觉缓存模型,增强不同模态间的嵌入表示。
Calvin Wong开发首个设计师主导的AI系统AiDA
设计师Calvin Wong开发了首个AI设计师助手AiDA,能识别设计元素提供修改建议,但强调AI的目的是激发设计师创造力,而非取代人类。AiDA通过图像识别提供设计修改建议,显著加速设计从草图到成品的过程,为时尚设计领域带来个性化体验、专业化设计工具和可持续性进步等变革。
AI修改肖像模型DiffAE
DiffAE是一款强大的人工智能模型,能够实现图像到图像转换,可实现人像的年龄、性别、表情、妆发等方面的改变。该模型采用语义编码器结合条件DDIM,实现人像图像多方位的编辑转换,包含语义编码器与DDIM两部分,前者抽取图像高层特征,后者关注细节变化,应用范围广泛,可为创意设计、素材制作等领域提供支持。
智源开源中英文语义向量模型训练数据集MTP
智源研究院发布了包含3亿中英文文本对的大规模数据集MTP,这是全球最大的开源中英文语义向量模型训练数据集,旨在解决中文模型训练数据不足的问题。MTP数据集综合多种数据源,包括各类开源数据集、网络数据等,丰富了训练数据,作为中国代表机构,智源持续开源大模型全栈技术,推动AI领域技术创新和协同发展。
斯坦福大学推出Spellburst
斯坦福大学的研究人员推出了Spellburst工具,利用GPT-4语言模型,让艺术家通过语义输入创作代码,改进创意构思和编辑过程。该工具包含语义编辑面板,艺术家可以调整生成图像的各个方面,帮助艺术家从语义空间更快地过渡到代码空间,提高创作效率。
开源机器学习库vLLM
开源机器学习库vLLM通过PagedAttention算法和服务系统设计,在不改模型架构的前提下将大语言模型推理速度提升24倍,为降低LLM在实际应用中的部署成本提供了重要途径。PagedAttention注意力算法采用类似虚拟内存和分页技术,有效管理LLM推理中的关键值缓存内存,vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。
韩国互联网巨头NAVER发布大型艺术绘画模型DreamStyler
韩国互联网巨头NAVER子公司NAVER WEBTOON AI发布了大型艺术绘画模型DreamStyler,能通过文字或图像实现不同艺术家风格的绘画转换,是数字艺术创作者的重要工具。DreamStyler可以模仿梵高、毕加索等艺术大师的绘画风格,通过训练学习不同艺术风格的特征和转换规则,为数字创作提供更多灵感。
“装逼”神器!BeFake
一款名为”BeFake”的新应用推出,被称为真人社交应用”BeReal”的”反面教材”,允许用户编辑并分享虚假的生活照片。BeFake满足用户在社交网络上获得认可和赞美的心理需求,反映用户渴望在网上比阔气的心理。应用方式类似BeReal,不同是上传的照片经过虚假修饰。
Suno AI推文本到音乐模型Chirp v1
Suno公司最新推出Chirp v1文本到音乐模型,可以根据风格和歌词提示生成不同风格的音乐。它最大的改进是v1可以将流派(如摇滚、流行、韩流等)和描述(如旋律或快节奏)转化为音乐,支持用[verse] [chorus]分段提示。Chirp集成在Discord中,提供每月250个免费credit,还可购买更多生成次数。目前英语和摇滚表现最好,歌词内容和结构会影响生成效果。
AI音乐创作助手Soundful
Soundful是一个一站式音乐创作助手,提供各种风格的音乐模板,使音乐创作变得简单,只需点击按钮就能创作出专业水准的原创音乐。Soundful提供海量高品质音乐创作模板,涵盖多种流派风格,提供大量可自由组合的鼓组、乐器、音效等音乐素材,简单易用的在线音乐创作界面,一键导出高品质音频文件。
面部换脸应用Reface
Reface是一款使用人工智能技术实现面部换脸的移动应用,用户只需上传一张自拍照,就可以将视频或GIF动图中的人脸替换成自己,实现身临其境的沉浸式体验。Reface应用了领先的人工智能算法,实现高质量逼真的面部换脸效果,拥有简单易用的移动应用界面,整个换脸过程只需要几秒钟。
AI提示语
AI提示语是一个集成AI聊天、AI绘画等功能的人工智能平台,提供丰富的AI模型、可视化应用构建器、大量免费应用和多端支持,旨在帮助用户轻松创建和使用AI应用。AI提示语提供语言、图像等各类领先AI模型,用户可以轻松调用实现不同需求,通过可视化拖拽构建器,用户可以无需编码快速创建自己的AI应用,拥有大量免费高质量应用,还支持网页、App、小程序等多端使用。
大模型动态万兴科技发布百亿级参数多媒体大模型”天幕”
在2023世界计算大会上,万兴科技宣布将发布国内首个以视频创意应用为核心的百亿级参数多媒体大模型”天幕”,提供更专业化的AI创新解决方案,涵盖视觉、音频、语言等多模态AI生成和优化的能力。”天幕”具备一键成片、AI美术设计等多种核心功能,除”天幕”外,万兴科技还展示了多款嵌入大模型能力的AI创新应用产品。
日本政府与科技巨头联手投资数亿美元开发日语语言模型
日本政府与主要科技公司投资数亿美元,致力于开发超越ChatGPT的文化敏感日语语言模型。该模型将在国家超级计算机上训练,计划明年以开源形式发布,参数规模超过300亿。为评估模型对日本文化的适应性,研究人员开发了Rakuda排名系统,GPT-3.5在排名中表现最好。