“大力出奇迹”、”暴力美学”,这两个词汇已成为ChatGPT讨论中的高频词。其中”大力”和”暴力”不仅指代巨大的算力,更蕴含着海量数据的支撑。a16z创始人Marc Andreessen在Data+AI大会上强调,二十多年来互联网积累的海量数据,是新一轮AI浪潮兴起的关键驱动力,为AI发展提供了宝贵的训练素材。据OpenAI披露,GPT-3.5的文本语料库高达45TB,相当于472万套中国四大名著,而GPT-4在原有基础上又融入了多模态数据。7月18日,Facebook母公司Meta开源了首个可商用的大语言模型Llama2,其预训练数据规模达到2万亿token。获取海量高质量数据的能力,正成为未来大模型企业的核心竞争力,也是各大科技巨头AI军备竞赛的必争之地。数据作为关键生产要素,其价值日益凸显。《数字中国发展报告(2022年)》显示,我国2022年数据产量达8.1ZB,全球占比10.5%,位居世界第二,数字经济呈现领先优势。然而,作为全新生产要素的数据也带来了诸多挑战:如何界定数据权属?如何确权?如何挖掘数据价值?数据能否实现交易流通?能否计入企业财务报表?如何保障数据安全?为解答这些问题,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,以下为对话实录:

腾讯科技:普通人可能关心,大模型训练的数据从何而来?是否使用了个人数据?这些数据是否有确权问题?
曾雪云教授:大模型训练涉及的数据属于个人数据范畴。个人数据与企业数据存在权属差异,原则上应遵循”我的数据我做主”原则。例如社交软件生成的数据,理论上应由用户掌控,尽管这些平台通过默认授权方式实际控制了数据,但具体使用仍需受《个人信息保护法》约束。若用于大模型计算,需进行技术隐名化处理,并赋予市场主体合法经营权利,即找到数据的市场化归属主体。当市场化主体获得数据后,需投入人力、智力、资本进行加工,将个人数据转化为企业再生数据或次生数据,再通过产品化流程转化为企业数据产品和服务。这是一个完整的转化过程。

腾讯科技:能否理解为,互联网公司通过授权获取个人数据,经流程化处理即可形成企业数据资产?
曾雪云教授:可以如此理解。个人在互联网上产生的海量数据,类似于自然资源的多样性。这些数据虽属公共资源,但经开发利用可转化为企业资产,这种转化值得鼓励。数据要素的价值开发需要平衡公共属性与企业权益,在法律框架内实现创新利用。

腾讯科技:从个体角度如何保护个人数据,使其按预期流动?
曾雪云教授:在AI时代,隐私保护面临严峻挑战。人们的行为轨迹、生活起居等都被记录,一旦数据泄露,个人隐私将难以控制。各国已探索商业化解决方案,如日本的”数据银行”模式,用户可像存取款一样管理个人数据,既保障隐私又实现价值变现。对于不愿授权的个人,国家需强化数据保护立法,通过区块链技术追踪数据流转轨迹,建立数据血缘关系管理系统。我国《民法典》已对个人信息保护作出明确规定,并强调数据财产属性。《上海市数据条例》则体现了”人财两分”的权益配置模式。2021年施行的《个人信息保护法》更是将个人信息保护提升至司法保护高度。

腾讯科技:大模型训练所需的高质量数据具体指哪些类型?
曾雪云教授:数据应涵盖人类经济、社会、生产等各领域活动记录。原生数据质量参差不齐,如上市公司财务报表属于高质量结构化数据,而互联网生成数据多为非结构化原始数据,需经清洗加工才能转化为可用数据。高质量数据通常经历从非结构化到结构化的转化过程。

腾讯科技:既然高质量数据可不断生产,为何会出现”数据快用完”的说法?
曾雪云教授:问题在于数据生产加工能力滞后于需求增长。数据爆发式增长,但转化为高质量数据的能力不足。OpenAI的GPT-4采用前代模型数据训练,其创始人指出合成数据是解决数据短缺的有效途径,关键在于建立AI生成数据的筛选机制,并持续根据模型效果进行反馈。数据产品技术能力已成为企业核心竞争力之一。

腾讯科技:提升高质量数据生产力需要哪些产业设计环节?
曾雪云教授:首先需明确数据本质与需求场景,即理解数据用途与市场定位。从原始数据到需求端,需构建完整的数据生产加工链条。目前产业整体思考仍显不足,但这也意味着广阔的发展空间。

腾讯科技:产业不成熟是否意味着蓝海市场?
曾雪云教授:确实处于早期蓝海阶段。早期存在违规数据交易现象,但国家立法已禁止原始数据交易。《数据二十条》提出数据权属分置要求,将所有权、经营权、受益权分离,并实施分层分类管理。数据治理进入以经济学为基础的研究阶段,数据市场建设、数据要素流通等均处于探索初期。

腾讯科技:数据可作为企业资产吗?属于哪类资产?
曾雪云教授:数据资产具有特殊性。国际会计分类将其归为存货资产,因其涉及生产加工过程,且作为电子化有形资产占用物理空间。数据资产价值核算更具不确定性,部分数据具有可生长性、可融合性,如通话数据与金融数据融合可生成更丰富用户画像;部分数据则随时间衰减。数据资产价值需根据具体类型分析,其核算过程比固定资产更复杂。

腾讯科技:数据是否将成为AI企业核心竞争力?能否量化体现在企业估值中?
曾雪云教授:数据是AI企业的核心要素,产品体验依赖数据能力,国家竞争力也取决于数据治理水平。目前全球数据治理仍面临挑战,中国已意识到数据重要性,但数据估值、会计核算等问题尚未解决。若数据能进入表内资产,将推动数据治理、价值核算与交易发展。当前企业数据仍属表外资产,缺乏合理估值基础,数据入表成为关键突破点。

腾讯科技:国际数据产权立法有哪些先例?
曾雪云教授:全球主要国家已建立数据保护法案,但数据利用法规相对缺失。日本《数据使用权限合同指引》为数据交易提供了规范框架。我国重视数据要素流通,但主要依靠行政文件,立法仍需完善。当前亟需创新数据产权规制与要素流通机制,引领全球法规建设新方向。欧盟GDPR是最全面的数据隐私法,但未明确数据权属流转规则。美国各州立法不统一,但覆盖领域广泛。数据财产权制度构建需坚持”人财两分”原则。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2025年08月05日

18:38
近日,湖南一位男子上演了惊险又有趣的挑战——背着约40公斤重的蜜雪冰城饮品攀登武功山,并在沿途以每杯15元的价格向游客售卖,这一独特的登山方式被拍摄成视频后迅速引爆网络,引发广泛关注,不少网友更是直呼其为"行走中的奶茶大佬"。据该男子美金介绍,除了沉重的饮品外,他还额外携带了饮用水、便携餐食等个人生活用品,所有物资全靠他一个人肩扛背负,相较于普通登山,负重量...
18:38
谷歌 AI 编程助手 Jules 近期迎来重大功能升级,新增了创建拉取请求(PR)的核心能力,为软件开发流程带来了革命性改进。这一突破性更新实现了从编码到提交的完整闭环,显著提升了开发效率与团队协作体验。根据 Jules 的最新更新日志,用户在完成代码编写后,只需简单指令,即可让 Jules 自动打包变更并生成规范的拉取请求,彻底告别繁琐的手动操作。 这一创...
18:38
麒麟信安于8月5日正式宣布,其自主研发的嵌入式操作系统已成功启动与超能机器人产品的合作研发项目,将应用于备受瞩目的“湘江1号”健康陪护人形机器人。此次合作标志着麒麟信安在智能操作系统领域又一重要突破,为未来人形机器人产业的创新发展奠定了坚实基础。 据悉,麒麟信安与超能机器人团队正紧密协作,共同推进嵌入式操作系统的适配工作。该系统凭借其高效稳定的运行特性,有望...
18:38
2025年8月5日,北京时间,现货黄金市场经历了一波显著的短线下跌,价格一度跌破3360美元/盎司的关键支撑位,当日整体跌幅达到0.41%。这一波动主要源于市场情绪的剧烈变化以及短期资金流动的异常调整,反映出投资者对于黄金短期走势的判断存在明显分歧。当前,整个市场正高度聚焦于晚间即将发布的美国非农就业数据,这一关键经济指标或将对金价未来的走向产生决定性影响,...
18:38
芯朋微近日发布重要公告,宣布公司高管张立新拟通过集中竞价交易方式减持部分公司股份。根据公告内容,此次减持计划涉及的股份比例将严格控制在公司总股本2%以内,确保减持行为在合理范围内进行。 此次减持主要源于张立新个人资金需求的合理调配,减持价格将完全遵循市场供求关系自主确定,体现了公司对市场规则的尊重和执行。值得注意的是,张立新目前仍持有公司一定比例的股份,此次...
18:38
2025年8月5日,中国水产领域的领军企业国联水产与知名基金海洋壹号基金正式达成战略合作协议。根据协议内容,海洋壹号基金将斥资近1亿元人民币,专项支持国联水产在核心竞争力的提升、技术革新与产品研发方面的战略布局。此次资本注入不仅将加速国联水产的产业升级进程,更将为其在高端水产品市场的发展注入强劲动力。 此次战略合作的核心目标在于巩固国联水产在水产品精深加工领...
18:38
宇树科技于8月5日震撼发布全新四足机器人——Unitree A2,这款高性能机器狗重量约37千克,在空载状态下可实现20公里的续航里程。根据官方发布的演示视频,Unitree A2展现出惊人的运动能力,其最大奔跑速度可达到5米每秒,轻松跨越1米高的障碍物,更令人惊叹的是它能够承受成人背部蹦跳的冲击,同时也能在碎石等复杂地形中稳定前行。 Unitree A...
18:38
8月5日,腾讯混元重磅推出AI播客功能,为内容创作领域带来革命性突破。该功能能够将文本、网页、文档等多样化内容一键转化为自然流畅的双人对谈式音频,让静态信息“活”起来,为用户带来全新的听觉体验。 据悉,AI播客的核心优势在于其惊人的转换效率。腾讯混元表示,该功能平均仅需90秒即可完成内容转化,极大地缩短了制作周期。同时,用户还可以实时查看转换进度,随时掌...
18:38
2025年8月5日14时,自然资源部紧急宣布将广东省地质灾害防御响应级别提升至Ⅲ级。这一决策基于气象部门的最新预报以及综合风险评估结果,针对未来三天内广东中北部地区可能出现的较高地质灾害风险。据监测显示,该区域强降雨天气频发,山体滑坡、泥石流等次生灾害隐患显著增加,亟需采取严密防控措施。 为强化应急响应能力,自然资源部已迅速组建专项工作组,即刻启程前往广东省...
18:38
2025年8月5日,*ST节能正式对外宣布一则振奋人心的消息其子公司联合立本牵头组建的联合体成功中标洛阳平洛新能源有限公司孟津区独立储能项目EPC总承包工程这一重要成果不仅彰显了公司在新能源领域的综合实力更标志着其在储能业务版图上迈出了坚实一步项目勘察设计费报价高达320万元建设工程费更是达到3.01亿元如此规模的项目落地将为公司带来可观的业务增量预计将显著...
18:38
2025年8月5日,中国农业银行在债券市场传来重大突破,成功发行总额高达500亿元人民币的总损失吸收能力非资本债券,标志着该行在金融风险管理领域迈出创新性步伐。此次发行涵盖4年期、6年期和11年期三个期限品种,票面利率分别设定为1.85%、1.93%和2.15%,均具备条件性赎回条款,为投资者提供了灵活的配置选择。值得注意的是,这类非资本债券的核心功能在于增...