“大力出奇迹”、”暴力美学”,这两个词汇已成为ChatGPT讨论中的高频词。其中”大力”和”暴力”不仅指代巨大的算力,更蕴含着海量数据的支撑。a16z创始人Marc Andreessen在Data+AI大会上强调,二十多年来互联网积累的海量数据,是新一轮AI浪潮兴起的关键驱动力,为AI发展提供了宝贵的训练素材。据OpenAI披露,GPT-3.5的文本语料库高达45TB,相当于472万套中国四大名著,而GPT-4在原有基础上又融入了多模态数据。7月18日,Facebook母公司Meta开源了首个可商用的大语言模型Llama2,其预训练数据规模达到2万亿token。获取海量高质量数据的能力,正成为未来大模型企业的核心竞争力,也是各大科技巨头AI军备竞赛的必争之地。数据作为关键生产要素,其价值日益凸显。《数字中国发展报告(2022年)》显示,我国2022年数据产量达8.1ZB,全球占比10.5%,位居世界第二,数字经济呈现领先优势。然而,作为全新生产要素的数据也带来了诸多挑战:如何界定数据权属?如何确权?如何挖掘数据价值?数据能否实现交易流通?能否计入企业财务报表?如何保障数据安全?为解答这些问题,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,以下为对话实录:

腾讯科技:普通人可能关心,大模型训练的数据从何而来?是否使用了个人数据?这些数据是否有确权问题?
曾雪云教授:大模型训练涉及的数据属于个人数据范畴。个人数据与企业数据存在权属差异,原则上应遵循”我的数据我做主”原则。例如社交软件生成的数据,理论上应由用户掌控,尽管这些平台通过默认授权方式实际控制了数据,但具体使用仍需受《个人信息保护法》约束。若用于大模型计算,需进行技术隐名化处理,并赋予市场主体合法经营权利,即找到数据的市场化归属主体。当市场化主体获得数据后,需投入人力、智力、资本进行加工,将个人数据转化为企业再生数据或次生数据,再通过产品化流程转化为企业数据产品和服务。这是一个完整的转化过程。

腾讯科技:能否理解为,互联网公司通过授权获取个人数据,经流程化处理即可形成企业数据资产?
曾雪云教授:可以如此理解。个人在互联网上产生的海量数据,类似于自然资源的多样性。这些数据虽属公共资源,但经开发利用可转化为企业资产,这种转化值得鼓励。数据要素的价值开发需要平衡公共属性与企业权益,在法律框架内实现创新利用。

腾讯科技:从个体角度如何保护个人数据,使其按预期流动?
曾雪云教授:在AI时代,隐私保护面临严峻挑战。人们的行为轨迹、生活起居等都被记录,一旦数据泄露,个人隐私将难以控制。各国已探索商业化解决方案,如日本的”数据银行”模式,用户可像存取款一样管理个人数据,既保障隐私又实现价值变现。对于不愿授权的个人,国家需强化数据保护立法,通过区块链技术追踪数据流转轨迹,建立数据血缘关系管理系统。我国《民法典》已对个人信息保护作出明确规定,并强调数据财产属性。《上海市数据条例》则体现了”人财两分”的权益配置模式。2021年施行的《个人信息保护法》更是将个人信息保护提升至司法保护高度。

腾讯科技:大模型训练所需的高质量数据具体指哪些类型?
曾雪云教授:数据应涵盖人类经济、社会、生产等各领域活动记录。原生数据质量参差不齐,如上市公司财务报表属于高质量结构化数据,而互联网生成数据多为非结构化原始数据,需经清洗加工才能转化为可用数据。高质量数据通常经历从非结构化到结构化的转化过程。

腾讯科技:既然高质量数据可不断生产,为何会出现”数据快用完”的说法?
曾雪云教授:问题在于数据生产加工能力滞后于需求增长。数据爆发式增长,但转化为高质量数据的能力不足。OpenAI的GPT-4采用前代模型数据训练,其创始人指出合成数据是解决数据短缺的有效途径,关键在于建立AI生成数据的筛选机制,并持续根据模型效果进行反馈。数据产品技术能力已成为企业核心竞争力之一。

腾讯科技:提升高质量数据生产力需要哪些产业设计环节?
曾雪云教授:首先需明确数据本质与需求场景,即理解数据用途与市场定位。从原始数据到需求端,需构建完整的数据生产加工链条。目前产业整体思考仍显不足,但这也意味着广阔的发展空间。

腾讯科技:产业不成熟是否意味着蓝海市场?
曾雪云教授:确实处于早期蓝海阶段。早期存在违规数据交易现象,但国家立法已禁止原始数据交易。《数据二十条》提出数据权属分置要求,将所有权、经营权、受益权分离,并实施分层分类管理。数据治理进入以经济学为基础的研究阶段,数据市场建设、数据要素流通等均处于探索初期。

腾讯科技:数据可作为企业资产吗?属于哪类资产?
曾雪云教授:数据资产具有特殊性。国际会计分类将其归为存货资产,因其涉及生产加工过程,且作为电子化有形资产占用物理空间。数据资产价值核算更具不确定性,部分数据具有可生长性、可融合性,如通话数据与金融数据融合可生成更丰富用户画像;部分数据则随时间衰减。数据资产价值需根据具体类型分析,其核算过程比固定资产更复杂。

腾讯科技:数据是否将成为AI企业核心竞争力?能否量化体现在企业估值中?
曾雪云教授:数据是AI企业的核心要素,产品体验依赖数据能力,国家竞争力也取决于数据治理水平。目前全球数据治理仍面临挑战,中国已意识到数据重要性,但数据估值、会计核算等问题尚未解决。若数据能进入表内资产,将推动数据治理、价值核算与交易发展。当前企业数据仍属表外资产,缺乏合理估值基础,数据入表成为关键突破点。

腾讯科技:国际数据产权立法有哪些先例?
曾雪云教授:全球主要国家已建立数据保护法案,但数据利用法规相对缺失。日本《数据使用权限合同指引》为数据交易提供了规范框架。我国重视数据要素流通,但主要依靠行政文件,立法仍需完善。当前亟需创新数据产权规制与要素流通机制,引领全球法规建设新方向。欧盟GDPR是最全面的数据隐私法,但未明确数据权属流转规则。美国各州立法不统一,但覆盖领域广泛。数据财产权制度构建需坚持”人财两分”原则。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2026年02月10日

14:10
微新创想:近日,一名15岁少年凭借超强臂力在网络上迅速走红,被网友赞誉为“现代版李元霸”,其展现出的惊人力量引发了全网的广泛关注和热烈讨论。这段视频迅速成为热门话题,吸引了大量观众的关注和转发。 在一段网络视频中,这位来自辽宁的15岁少年先是在镜头前神色从容,徒手将一个苹果均匀掰成八瓣,动作轻松自然,仿佛在做一件稀松平常之事。随后,他双手握住一根标称80公斤...
14:10
微新创想:当下,年轻一代正以独特的方式重新定义年货的意义,继整顿职场之后,又将“整顿”之风吹向了年货领域。如今的年轻人不再遵循传统的年货购置模式,而是按照自己的喜好和需求来挑选年货,把年货从以往的“人情负担”转变为“自我犒赏”。 以往过年,酒水、牛奶、糖果、瓜子等是年货清单上的常客,人们购置年货更多是为了满足他人的期待、维持人情往来。然而,现在年轻人的消费偏...
14:10
微新创想:今日,游戏科学官方为玩家们送上了一份特别的新年礼物——时长6分钟的《黑神话:钟馗》贺岁实机小短片。在这段短片中,呈现了人和鬼共同烹制菜肴的奇妙场景,给观众带来了别样的视觉体验。视频发布后,游戏科学创始人兼游戏制作人冯骥也在微博上分享了自己的看法。 他幽默地发问:“不知各位看完后,是会心微笑?一头雾水?还是马上分析出一堆细节隐喻、剧情方向或者新的技术...
14:05
微新创想:2月10日,健康AI应用“蚂蚁阿福”正式成为央视CCTV健康生活合作伙伴。这一合作标志着阿福在健康科技领域的影响力进一步扩大,也体现了其在推动全民健康服务方面的积极作用。 作为一款专业的健康AI应用,蚂蚁阿福自上线以来便受到用户的热烈欢迎。其用户数量迅速增长,单日健康咨询解答量突破1000万次,展现了强大的服务能力与用户需求的契合度。 蚂蚁阿福不仅...
14:05
微新创想:大模型落地端侧的“减脂增肌”迎来重大突破 腾讯混元今日正式发布面向消费级硬件的极小模型 HY-1.8B-2Bit。该模型通过首个产业级2Bit量化方案将等效参数量精简至0.3B 内存占用仅约600MB 体积甚至小于部分常用的手机应用 技术突破 2Bit量化的“不可能任务”在模型部署中 量化位数越低 精度损失通常越大 为攻克这一难题 腾讯混元团队放弃...
13:54
微新创想:2026年2月9日,基于Arch Linux的pearOS 26.2正式发布 pearOS 26.2版本带来了诸多令人期待的更新与改进。此次发布不仅延续了pearOS一贯的简洁与高效风格,还在视觉体验与系统功能上实现了全面升级。该版本深度整合了KDE Plasma 6.5.5桌面环境,为用户提供了更加流畅的操作体验 在界面设计方面,pearOS 2...
13:54
微新创想:2026年2月10日12:00,《明日方舟》PC端技术性开放测试正式上线 本次测试为不限量、不删档模式,所有玩家均可参与。游戏官方特别推出PC端版本,支持Windows 10和Windows 11操作系统,满足不同用户的设备需求 测试内容涵盖多平台数据互通功能,确保玩家在不同设备间可以无缝切换并继续游戏进度。同时,PC端优化了键盘和鼠标的操作体验,...
13:54
微新创想:2026年2月10日,阿里巴巴达摩院正式发布具身智能基础模型RynnBrain并开源全系列7个模型,其中包含业界首个30B MoE架构的具身模型。这一突破标志着具身智能领域迈出了重要的一步,为机器人技术的发展提供了更强大的基础支持。 该模型首次赋予机器人时空记忆与物理空间推理能力,使其在复杂环境中具备更强的自主决策和任务执行能力。通过这些创新功能,...
13:54
微新创想:2026年2月上旬,北京礼达慧凡科技有限公司宣布完成天使轮融资。这一重要里程碑标志着公司在高科技领域的发展迈出了坚实一步。 微新创想:公司主营业务聚焦于人工智能、智能装备及工业软件等前沿科技方向,致力于技术研发与工程应用的深度融合。凭借先进的技术理念和创新的解决方案,礼达慧凡科技正在逐步构建起具有竞争力的科技生态体系。 微新创想:本轮融资将主要用于...
13:54
微新创想:2026年2月,迈迪克宣布完成A+轮融资,由泓创资本、松禾资本联合投资。此次融资标志着公司在智慧化医疗器械领域迈出了坚实一步,为后续的技术研发与市场拓展提供了有力支撑。 公司聚焦智慧化医疗器械细分领域,主攻血站、医院及疾控系统。通过持续的技术创新与产品优化,迈迪克已在该领域深耕四年,完成了从试用到升级再到商用的全过程验证。目前,公司已正式进入市场推...
13:54
微新创想:2026年2月9日,珠海锐翔智能科技股份有限公司披露了北交所第二轮审核问询函的回复。公司正计划在北交所上市,其保荐机构为国泰海通。此次问询主要围绕实际控制人陈良华与其兄陈良柱在2010年股权赠予及2017年股权转让的背景与真实性展开。 锐翔智能在回复中解释称,2010年的股权赠予是为了强化市场开拓能力,公司通过赠予方式让渡各10%的股权给陈良柱。此...
13:54
微新创想:2026年2月9日 谷歌向部分媒体开放位于台北的Pixel硬件实验室 其在美国以外规模最大的研发基地 该实验室拥有超50个专业工程实验室 本次开放5个核心实验室 涵盖可靠性 坐压 滚筒 跌落 折叠寿命及音频测试等环节 通过IPX4级喷水 臀部压力模拟 20万次铰链开合 消声室音频调校等严苛测试 确保Pixel设备耐用性与功能稳定性 此举旨在强化全球...