“大力出奇迹”、”暴力美学”,这两个词汇已成为ChatGPT讨论中的高频词。其中”大力”和”暴力”不仅指代巨大的算力,更蕴含着海量数据的支撑。a16z创始人Marc Andreessen在Data+AI大会上强调,二十多年来互联网积累的海量数据,是新一轮AI浪潮兴起的关键驱动力,为AI发展提供了宝贵的训练素材。据OpenAI披露,GPT-3.5的文本语料库高达45TB,相当于472万套中国四大名著,而GPT-4在原有基础上又融入了多模态数据。7月18日,Facebook母公司Meta开源了首个可商用的大语言模型Llama2,其预训练数据规模达到2万亿token。获取海量高质量数据的能力,正成为未来大模型企业的核心竞争力,也是各大科技巨头AI军备竞赛的必争之地。数据作为关键生产要素,其价值日益凸显。《数字中国发展报告(2022年)》显示,我国2022年数据产量达8.1ZB,全球占比10.5%,位居世界第二,数字经济呈现领先优势。然而,作为全新生产要素的数据也带来了诸多挑战:如何界定数据权属?如何确权?如何挖掘数据价值?数据能否实现交易流通?能否计入企业财务报表?如何保障数据安全?为解答这些问题,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,以下为对话实录:

腾讯科技:普通人可能关心,大模型训练的数据从何而来?是否使用了个人数据?这些数据是否有确权问题?
曾雪云教授:大模型训练涉及的数据属于个人数据范畴。个人数据与企业数据存在权属差异,原则上应遵循”我的数据我做主”原则。例如社交软件生成的数据,理论上应由用户掌控,尽管这些平台通过默认授权方式实际控制了数据,但具体使用仍需受《个人信息保护法》约束。若用于大模型计算,需进行技术隐名化处理,并赋予市场主体合法经营权利,即找到数据的市场化归属主体。当市场化主体获得数据后,需投入人力、智力、资本进行加工,将个人数据转化为企业再生数据或次生数据,再通过产品化流程转化为企业数据产品和服务。这是一个完整的转化过程。

腾讯科技:能否理解为,互联网公司通过授权获取个人数据,经流程化处理即可形成企业数据资产?
曾雪云教授:可以如此理解。个人在互联网上产生的海量数据,类似于自然资源的多样性。这些数据虽属公共资源,但经开发利用可转化为企业资产,这种转化值得鼓励。数据要素的价值开发需要平衡公共属性与企业权益,在法律框架内实现创新利用。

腾讯科技:从个体角度如何保护个人数据,使其按预期流动?
曾雪云教授:在AI时代,隐私保护面临严峻挑战。人们的行为轨迹、生活起居等都被记录,一旦数据泄露,个人隐私将难以控制。各国已探索商业化解决方案,如日本的”数据银行”模式,用户可像存取款一样管理个人数据,既保障隐私又实现价值变现。对于不愿授权的个人,国家需强化数据保护立法,通过区块链技术追踪数据流转轨迹,建立数据血缘关系管理系统。我国《民法典》已对个人信息保护作出明确规定,并强调数据财产属性。《上海市数据条例》则体现了”人财两分”的权益配置模式。2021年施行的《个人信息保护法》更是将个人信息保护提升至司法保护高度。

腾讯科技:大模型训练所需的高质量数据具体指哪些类型?
曾雪云教授:数据应涵盖人类经济、社会、生产等各领域活动记录。原生数据质量参差不齐,如上市公司财务报表属于高质量结构化数据,而互联网生成数据多为非结构化原始数据,需经清洗加工才能转化为可用数据。高质量数据通常经历从非结构化到结构化的转化过程。

腾讯科技:既然高质量数据可不断生产,为何会出现”数据快用完”的说法?
曾雪云教授:问题在于数据生产加工能力滞后于需求增长。数据爆发式增长,但转化为高质量数据的能力不足。OpenAI的GPT-4采用前代模型数据训练,其创始人指出合成数据是解决数据短缺的有效途径,关键在于建立AI生成数据的筛选机制,并持续根据模型效果进行反馈。数据产品技术能力已成为企业核心竞争力之一。

腾讯科技:提升高质量数据生产力需要哪些产业设计环节?
曾雪云教授:首先需明确数据本质与需求场景,即理解数据用途与市场定位。从原始数据到需求端,需构建完整的数据生产加工链条。目前产业整体思考仍显不足,但这也意味着广阔的发展空间。

腾讯科技:产业不成熟是否意味着蓝海市场?
曾雪云教授:确实处于早期蓝海阶段。早期存在违规数据交易现象,但国家立法已禁止原始数据交易。《数据二十条》提出数据权属分置要求,将所有权、经营权、受益权分离,并实施分层分类管理。数据治理进入以经济学为基础的研究阶段,数据市场建设、数据要素流通等均处于探索初期。

腾讯科技:数据可作为企业资产吗?属于哪类资产?
曾雪云教授:数据资产具有特殊性。国际会计分类将其归为存货资产,因其涉及生产加工过程,且作为电子化有形资产占用物理空间。数据资产价值核算更具不确定性,部分数据具有可生长性、可融合性,如通话数据与金融数据融合可生成更丰富用户画像;部分数据则随时间衰减。数据资产价值需根据具体类型分析,其核算过程比固定资产更复杂。

腾讯科技:数据是否将成为AI企业核心竞争力?能否量化体现在企业估值中?
曾雪云教授:数据是AI企业的核心要素,产品体验依赖数据能力,国家竞争力也取决于数据治理水平。目前全球数据治理仍面临挑战,中国已意识到数据重要性,但数据估值、会计核算等问题尚未解决。若数据能进入表内资产,将推动数据治理、价值核算与交易发展。当前企业数据仍属表外资产,缺乏合理估值基础,数据入表成为关键突破点。

腾讯科技:国际数据产权立法有哪些先例?
曾雪云教授:全球主要国家已建立数据保护法案,但数据利用法规相对缺失。日本《数据使用权限合同指引》为数据交易提供了规范框架。我国重视数据要素流通,但主要依靠行政文件,立法仍需完善。当前亟需创新数据产权规制与要素流通机制,引领全球法规建设新方向。欧盟GDPR是最全面的数据隐私法,但未明确数据权属流转规则。美国各州立法不统一,但覆盖领域广泛。数据财产权制度构建需坚持”人财两分”原则。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2025年08月05日

14:27
人工智能技术的迅猛发展正伴随着日益严峻的环境挑战,这一议题已引起业界的广泛关注。近日,欧洲顶尖AI初创公司Mistral AI震撼发布了首份详尽的环境影响评估报告,全面揭示了其旗舰模型Mistral Large2在整个生命周期内的真实环境代价,这一举措在AI领域尚属开创性突破。该报告由Mistral AI联合ESG咨询企业Carbone4及法国生态转型机构A...
14:27
中国运动零售行业正经历一场深刻的数字化变革。在这股浪潮中,国内最大的运动零售运营商滔搏近日宣布了一项重大战略部署——将其核心大数据平台全面迁移至阿里云,并深度整合通义千问大模型技术。这一举措不仅标志着传统零售业向人工智能的积极转型,更被视为行业数字化升级的重要里程碑。 滔搏在运动零售领域具有不可替代的地位。公司与耐克、阿迪达斯等全球顶级运动品牌建立了长期稳定...
14:27
人形机器人正从科幻作品中的想象逐渐变为现实,而视觉感知能力始终是制约其发展的核心瓶颈。近日,北京人形机器人创新中心重磅推出名为"Humanoid Occupancy"的突破性视觉感知系统,该技术被业界誉为人形机器人环境理解能力的重大飞跃。长期以来,机器人感知系统面临着诸多挑战。现有的感知技术大多局限于单一或特定场景,当面对复杂多变的真实环境时,往往表现不尽如...
14:27
社交媒体上突然流传出Anthropic内部测试的截图,揭示了其下一代大语言模型Claude Opus4.1的早期研发进展。这些非官方泄露的信息显示,该模型正处于内部测试阶段,其内部代号为"claude-leopard-v2-02-prod"。从官方宣传语来看,Anthropic特别强调了新模型在问题解决能力方面的显著突破,这一重点优化方向在内部测试界面中得到...
14:27
在全球人工智能研究浪潮风起云涌之际,谷歌倾力打造的首届大模型对抗赛犹如一场科技盛宴,迅速点燃了业界与公众的热情。这场备受瞩目的赛事将于8月5日至7日在Kaggle Game Arena盛大举行,八款顶尖AI模型将齐聚一堂,以国际象棋为竞技场,展开一场巅峰对决。参赛阵容堪称豪华,包括OpenAI的o4-mini、DeepSeek-R1、Kimi K2Instr...
14:27
一场颠覆性的AI智力盛宴即将震撼上演。8月5日至7日,谷歌倾力打造的Kaggle Game Arena将迎来首届AI国际象棋锦标赛的盛大开幕。八款当今世界最顶尖的大语言模型将在64格棋盘上展开巅峰对决,这场较量不仅是一场技术实力的巅峰碰撞,更是对AI逻辑推理能力的终极挑战,将向全球展示人工智能技术的最新突破。 顶级AI阵容集结:AI界的"华山论剑" 本次赛事...
14:27
财联社8月5日讯 近期港股市场波动加剧,科技板块卖空情绪显著升温。美团-W的卖空股数呈现爆发式增长,从7月29日的357.16万股急升至8月4日的1432.68万股,增幅高达300%以上。这一现象并非孤立案例,腾讯、小米、阿里巴巴等一线科技股的卖空量同样出现明显攀升,市场情绪偏向谨慎。 尽管短期承压,但港股市场仍具备一定的防御性价值。当前市场估值处于历史...
14:27
2025年8月4日,重庆市地方金融管理局发布最新公告,揭示了近期小额贷款行业的洗牌现象。在2025年3月至7月这四个月间,共有11家小额贷款公司黯然退出市场,其中8家更是集中在7月31日同一天完成注销。这一现象背后,既有启帆小贷因失去试点资格的无奈退出,也有汇渝小贷主动选择注销的理性决策,而其余3家则因监管措施被强制清退。值得注意的是,这些退出企业的经营状况...
14:27
2025年7月,全国期货市场展现出强劲的增长势头,整体成交量高达10.59亿手,成交额更是达到了71.31万亿元,同比分别实现了48.89%和36.03%的显著增长。这一成绩不仅体现了市场活力的提升,也反映了投资者对期货市场的热情持续升温。回顾整个上半年,1至7月累计成交量与成交额均保持了稳健增长,分别达到51.35亿手和411.04万亿元,同比增长率约为2...
14:27
8月5日最新消息显示,非上市人身险公司上半年业绩实现爆发式增长,合计净利润高达286亿元,同比增长幅度惊人,达到242%。这一亮眼成绩主要得益于两大因素:一是产品结构转型有效降低了负债端成本,二是投资收益显著回升带动了盈利能力提升。行业专家分析指出,人身险公司盈利能力的明显改善,标志着整个保险行业正逐步走出低谷,迈向高质量发展阶段。 在财险领域同样传来喜讯,...
14:27
8月4日,招商银行正式宣布副行长王晓青的辞任决定,这一变动也牵动着其兼任的招商基金等子公司董事长职务的未来走向。据多方消息透露,王晓青或将接棒出任招商金控总经理一职,开启新的职业篇章。值得注意的是,今年以来招商基金高管团队经历了密集的调整,5月刚刚迎来新任总经理钟文岳履新,紧接着又任命了三位副总经理级高管,显示出招商基金在管理层上的积极布局。 然而,在这场人...
14:27
2025年8月5日,青岛市政府正式发布《2025年青岛市跨境贸易便利化专项行动方案》,推出涵盖31条创新举措的优化口岸营商环境计划。这一方案以提升通关效率和服务质量为核心目标,通过强化政策供给、促进物流畅通、优化监管模式等多维度措施,全面推动青岛跨境贸易便利化水平再上新台阶。 方案重点推广铁公联运出口新模式,着力拓展国际物流通道,并深化"丝路海运"与中欧班列...