“大力出奇迹”、”暴力美学”,这两个词汇已成为ChatGPT讨论中的高频词。其中”大力”和”暴力”不仅指代巨大的算力,更蕴含着海量数据的支撑。a16z创始人Marc Andreessen在Data+AI大会上强调,二十多年来互联网积累的海量数据,是新一轮AI浪潮兴起的关键驱动力,为AI发展提供了宝贵的训练素材。据OpenAI披露,GPT-3.5的文本语料库高达45TB,相当于472万套中国四大名著,而GPT-4在原有基础上又融入了多模态数据。7月18日,Facebook母公司Meta开源了首个可商用的大语言模型Llama2,其预训练数据规模达到2万亿token。获取海量高质量数据的能力,正成为未来大模型企业的核心竞争力,也是各大科技巨头AI军备竞赛的必争之地。数据作为关键生产要素,其价值日益凸显。《数字中国发展报告(2022年)》显示,我国2022年数据产量达8.1ZB,全球占比10.5%,位居世界第二,数字经济呈现领先优势。然而,作为全新生产要素的数据也带来了诸多挑战:如何界定数据权属?如何确权?如何挖掘数据价值?数据能否实现交易流通?能否计入企业财务报表?如何保障数据安全?为解答这些问题,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,以下为对话实录:

腾讯科技:普通人可能关心,大模型训练的数据从何而来?是否使用了个人数据?这些数据是否有确权问题?
曾雪云教授:大模型训练涉及的数据属于个人数据范畴。个人数据与企业数据存在权属差异,原则上应遵循”我的数据我做主”原则。例如社交软件生成的数据,理论上应由用户掌控,尽管这些平台通过默认授权方式实际控制了数据,但具体使用仍需受《个人信息保护法》约束。若用于大模型计算,需进行技术隐名化处理,并赋予市场主体合法经营权利,即找到数据的市场化归属主体。当市场化主体获得数据后,需投入人力、智力、资本进行加工,将个人数据转化为企业再生数据或次生数据,再通过产品化流程转化为企业数据产品和服务。这是一个完整的转化过程。

腾讯科技:能否理解为,互联网公司通过授权获取个人数据,经流程化处理即可形成企业数据资产?
曾雪云教授:可以如此理解。个人在互联网上产生的海量数据,类似于自然资源的多样性。这些数据虽属公共资源,但经开发利用可转化为企业资产,这种转化值得鼓励。数据要素的价值开发需要平衡公共属性与企业权益,在法律框架内实现创新利用。

腾讯科技:从个体角度如何保护个人数据,使其按预期流动?
曾雪云教授:在AI时代,隐私保护面临严峻挑战。人们的行为轨迹、生活起居等都被记录,一旦数据泄露,个人隐私将难以控制。各国已探索商业化解决方案,如日本的”数据银行”模式,用户可像存取款一样管理个人数据,既保障隐私又实现价值变现。对于不愿授权的个人,国家需强化数据保护立法,通过区块链技术追踪数据流转轨迹,建立数据血缘关系管理系统。我国《民法典》已对个人信息保护作出明确规定,并强调数据财产属性。《上海市数据条例》则体现了”人财两分”的权益配置模式。2021年施行的《个人信息保护法》更是将个人信息保护提升至司法保护高度。

腾讯科技:大模型训练所需的高质量数据具体指哪些类型?
曾雪云教授:数据应涵盖人类经济、社会、生产等各领域活动记录。原生数据质量参差不齐,如上市公司财务报表属于高质量结构化数据,而互联网生成数据多为非结构化原始数据,需经清洗加工才能转化为可用数据。高质量数据通常经历从非结构化到结构化的转化过程。

腾讯科技:既然高质量数据可不断生产,为何会出现”数据快用完”的说法?
曾雪云教授:问题在于数据生产加工能力滞后于需求增长。数据爆发式增长,但转化为高质量数据的能力不足。OpenAI的GPT-4采用前代模型数据训练,其创始人指出合成数据是解决数据短缺的有效途径,关键在于建立AI生成数据的筛选机制,并持续根据模型效果进行反馈。数据产品技术能力已成为企业核心竞争力之一。

腾讯科技:提升高质量数据生产力需要哪些产业设计环节?
曾雪云教授:首先需明确数据本质与需求场景,即理解数据用途与市场定位。从原始数据到需求端,需构建完整的数据生产加工链条。目前产业整体思考仍显不足,但这也意味着广阔的发展空间。

腾讯科技:产业不成熟是否意味着蓝海市场?
曾雪云教授:确实处于早期蓝海阶段。早期存在违规数据交易现象,但国家立法已禁止原始数据交易。《数据二十条》提出数据权属分置要求,将所有权、经营权、受益权分离,并实施分层分类管理。数据治理进入以经济学为基础的研究阶段,数据市场建设、数据要素流通等均处于探索初期。

腾讯科技:数据可作为企业资产吗?属于哪类资产?
曾雪云教授:数据资产具有特殊性。国际会计分类将其归为存货资产,因其涉及生产加工过程,且作为电子化有形资产占用物理空间。数据资产价值核算更具不确定性,部分数据具有可生长性、可融合性,如通话数据与金融数据融合可生成更丰富用户画像;部分数据则随时间衰减。数据资产价值需根据具体类型分析,其核算过程比固定资产更复杂。

腾讯科技:数据是否将成为AI企业核心竞争力?能否量化体现在企业估值中?
曾雪云教授:数据是AI企业的核心要素,产品体验依赖数据能力,国家竞争力也取决于数据治理水平。目前全球数据治理仍面临挑战,中国已意识到数据重要性,但数据估值、会计核算等问题尚未解决。若数据能进入表内资产,将推动数据治理、价值核算与交易发展。当前企业数据仍属表外资产,缺乏合理估值基础,数据入表成为关键突破点。

腾讯科技:国际数据产权立法有哪些先例?
曾雪云教授:全球主要国家已建立数据保护法案,但数据利用法规相对缺失。日本《数据使用权限合同指引》为数据交易提供了规范框架。我国重视数据要素流通,但主要依靠行政文件,立法仍需完善。当前亟需创新数据产权规制与要素流通机制,引领全球法规建设新方向。欧盟GDPR是最全面的数据隐私法,但未明确数据权属流转规则。美国各州立法不统一,但覆盖领域广泛。数据财产权制度构建需坚持”人财两分”原则。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2026年02月10日

16:14
声明:本文来自于微信公众号 游戏价值论,作者:杨佳辉,授权站长之家转载发布。17年前的春晚,蔡明和郭达这两位春晚常驻嘉宾表演了小品《家有毕业生》。大学生们一边看着电视屏幕上蔡明老师「费尽心机」帮刚刚大学毕业的儿子「卖土豆」,一边又盯着自己的电脑屏幕,在《QQ农场》种下一颗又一颗的「土豆」。蔡明已成为了一代人的春晚记忆符号,她上一...
16:14
声明:本文来自于微信公众号 白鲸出海,作者:Lainya,授权站长之家转载发布。远离屏幕,更多是因为“脑仁疼”上瘾、爱玩,二十多年前“上线”的智能手机,成了我们最离不开的物件。Eyesafe 报告以当前趋势推算,一个人一生中可能有四分之一的时间都在盯着屏幕,总暴露时长预计超过18万小时,手机在其中“居功至伟”。而人脑的平衡机制,...
16:13
微新创想:今年年夜饭吃什么?这个问题的答案,很多人其实早就“吃”过了,不过不是在饭桌上,而是在抖音、小红书等社交平台的视频里。春节临近,年味已经提前上线。有人复刻奶奶的老味道,有人用龙井茶炖出江南年菜,还有人干脆在村里办起厨艺大赛,全村围坐吃席。一场全民参与的“云上年夜饭”,正让年味提前升温。截至发稿前,抖音话题#抖音年味争霸赛已超35亿播放,#春节美食挑战...
15:59
微新创想:2026年2月,峰飞航空科技自主研发的5吨级eVTOL“V5000天际龙”在江苏昆山民用无人机试飞运行基地成功完成垂直起飞、正向转换、反向转换及降落的全流程转换飞行。此次试飞标志着该机型在实际应用环境中的重要进展。 微新创想:V5000天际龙采用了复合翼与三翼面的创新布局设计,使其在空气动力学性能上达到新的高度。机身配备了20台第五代升力电机,不仅...
15:59
微新创想:2026年2月10日,汽车媒体CarScoops发布现代途胜(Tucson)改款原型车路测图。该车为现代旗下最畅销SUV的中期改款车型,于韩国及北美地区进行测试。 新车采用近似封闭式前格栅设计,整体造型更加紧凑。日行灯采用棱角分明的造型,增强了车辆的辨识度和视觉冲击力。车身线条流畅,呈现出强烈的运动感,同时蚌壳式引擎盖的设计进一步提升了车辆的豪华感...
15:59
微新创想:2026年2月10日 银欣正式上线面向单路服务器处理器的高性能一体式水冷散热器XE420 该产品采用全铜镀镍冷头 28mm厚铝制冷排及三颗14034工业级LCP扇叶风扇 集成4000 RPM三相六极水泵 其冷头配备大尺寸微水道铜底板 支持多平台安装套件选配 适配主流服务器与工作站平台 风扇转速800–2500 RPM 最大风量123.8 CFM 噪...
15:59
微新创想:2026年2月9日,谷歌Android新系统Aluminum OS被曝将在桌面端深度集成Gemini。这一消息引起了广泛关注,显示出谷歌在人工智能助手领域的进一步布局。据最新测试版Google App(v17.5)代码显示,Gemini将作为系统级的全局助手,用户可以通过状态栏右上角的图标或“Google键+空格”的快捷方式来启动它。这种设计方式与...
15:59
微新创想:2月10日,上海普陀区万里街道联合淘宝闪购等机构启动“AI+老年助餐”试点项目。该项目面向辖区内的100位老年人发放体验券,旨在通过科技手段提升他们的用餐体验。试点服务支持老年人使用千问APP、天猫精灵等智能终端进行语音点餐,为他们提供更加便捷的订餐方式。 微新创想:此次试点是淘宝闪购首次系统性地将AI语音点餐技术应用于社区老年助餐服务。这一举措不...
15:59
微新创想:2026年2月,浙江宁波警方成功侦破一起涉及无人机飞控系统非法破解的案件。该案主犯李某等人通过远程操控手段,非法解除无人机的电子围栏、禁飞区及限高功能,为221人次提供破解服务,涉案金额达10万余元。该行为严重违反了相关法律法规,对公共安全构成了潜在威胁。 微新创想:案件的起因是一名无人机爱好者廖某某,因拍摄需求高价购买了非法破解服务。在使用该破解...
15:59
微新创想:2026年春季,问界M6增程版将在国内正式发布。该车提供180公里、260公里和272公里三种CLTC纯电续航版本,满足不同用户的出行需求。搭载37千瓦时与53千瓦时两种电池组,为车辆带来更长的续航能力和更强的性能表现。 车身尺寸为4960×1985×1736毫米,轴距2950毫米,展现出宽敞的内部空间和良好的驾乘体验。前脸采用家族式设计,配备激光...
15:58
微新创想:2026年2月10日 汽车媒体CarBuzz曝光现代第八代伊兰特冬季测试谍照 现代第八代伊兰特的谍照在2026年2月10日被汽车媒体CarBuzz曝光 该车预计将在2027年正式发布 定位为一款燃油家用轿车 但整体设计方向明显向豪华电动车标准靠拢 测试车队中出现了奔驰CLA纯电版 这一细节凸显了现代在电动车领域的升级意图 新车采用了方正化的造型设计...
15:58
微新创想:2026年2月10日 AYANEO掌机官方B站账号发布声明 AYANEO掌机官方B站账号于2026年2月10日发布声明 AYANEO掌机官方B站账号针对近期网络上流传的不实信息作出回应 声明中指出公司经营合规 员工薪资按时足额发放 AYANEO已提供近半年银行回单作为证据 针对QQ账号“真南哥”等发布的谣言 AYANEO已采取法律行动 公司已向公安...