“大力出奇迹”、”暴力美学”,这两个词汇已成为ChatGPT讨论中的高频词。其中”大力”和”暴力”不仅指代巨大的算力,更蕴含着海量数据的支撑。a16z创始人Marc Andreessen在Data+AI大会上强调,二十多年来互联网积累的海量数据,是新一轮AI浪潮兴起的关键驱动力,为AI发展提供了宝贵的训练素材。据OpenAI披露,GPT-3.5的文本语料库高达45TB,相当于472万套中国四大名著,而GPT-4在原有基础上又融入了多模态数据。7月18日,Facebook母公司Meta开源了首个可商用的大语言模型Llama2,其预训练数据规模达到2万亿token。获取海量高质量数据的能力,正成为未来大模型企业的核心竞争力,也是各大科技巨头AI军备竞赛的必争之地。数据作为关键生产要素,其价值日益凸显。《数字中国发展报告(2022年)》显示,我国2022年数据产量达8.1ZB,全球占比10.5%,位居世界第二,数字经济呈现领先优势。然而,作为全新生产要素的数据也带来了诸多挑战:如何界定数据权属?如何确权?如何挖掘数据价值?数据能否实现交易流通?能否计入企业财务报表?如何保障数据安全?为解答这些问题,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,以下为对话实录:

腾讯科技:普通人可能关心,大模型训练的数据从何而来?是否使用了个人数据?这些数据是否有确权问题?
曾雪云教授:大模型训练涉及的数据属于个人数据范畴。个人数据与企业数据存在权属差异,原则上应遵循”我的数据我做主”原则。例如社交软件生成的数据,理论上应由用户掌控,尽管这些平台通过默认授权方式实际控制了数据,但具体使用仍需受《个人信息保护法》约束。若用于大模型计算,需进行技术隐名化处理,并赋予市场主体合法经营权利,即找到数据的市场化归属主体。当市场化主体获得数据后,需投入人力、智力、资本进行加工,将个人数据转化为企业再生数据或次生数据,再通过产品化流程转化为企业数据产品和服务。这是一个完整的转化过程。

腾讯科技:能否理解为,互联网公司通过授权获取个人数据,经流程化处理即可形成企业数据资产?
曾雪云教授:可以如此理解。个人在互联网上产生的海量数据,类似于自然资源的多样性。这些数据虽属公共资源,但经开发利用可转化为企业资产,这种转化值得鼓励。数据要素的价值开发需要平衡公共属性与企业权益,在法律框架内实现创新利用。

腾讯科技:从个体角度如何保护个人数据,使其按预期流动?
曾雪云教授:在AI时代,隐私保护面临严峻挑战。人们的行为轨迹、生活起居等都被记录,一旦数据泄露,个人隐私将难以控制。各国已探索商业化解决方案,如日本的”数据银行”模式,用户可像存取款一样管理个人数据,既保障隐私又实现价值变现。对于不愿授权的个人,国家需强化数据保护立法,通过区块链技术追踪数据流转轨迹,建立数据血缘关系管理系统。我国《民法典》已对个人信息保护作出明确规定,并强调数据财产属性。《上海市数据条例》则体现了”人财两分”的权益配置模式。2021年施行的《个人信息保护法》更是将个人信息保护提升至司法保护高度。

腾讯科技:大模型训练所需的高质量数据具体指哪些类型?
曾雪云教授:数据应涵盖人类经济、社会、生产等各领域活动记录。原生数据质量参差不齐,如上市公司财务报表属于高质量结构化数据,而互联网生成数据多为非结构化原始数据,需经清洗加工才能转化为可用数据。高质量数据通常经历从非结构化到结构化的转化过程。

腾讯科技:既然高质量数据可不断生产,为何会出现”数据快用完”的说法?
曾雪云教授:问题在于数据生产加工能力滞后于需求增长。数据爆发式增长,但转化为高质量数据的能力不足。OpenAI的GPT-4采用前代模型数据训练,其创始人指出合成数据是解决数据短缺的有效途径,关键在于建立AI生成数据的筛选机制,并持续根据模型效果进行反馈。数据产品技术能力已成为企业核心竞争力之一。

腾讯科技:提升高质量数据生产力需要哪些产业设计环节?
曾雪云教授:首先需明确数据本质与需求场景,即理解数据用途与市场定位。从原始数据到需求端,需构建完整的数据生产加工链条。目前产业整体思考仍显不足,但这也意味着广阔的发展空间。

腾讯科技:产业不成熟是否意味着蓝海市场?
曾雪云教授:确实处于早期蓝海阶段。早期存在违规数据交易现象,但国家立法已禁止原始数据交易。《数据二十条》提出数据权属分置要求,将所有权、经营权、受益权分离,并实施分层分类管理。数据治理进入以经济学为基础的研究阶段,数据市场建设、数据要素流通等均处于探索初期。

腾讯科技:数据可作为企业资产吗?属于哪类资产?
曾雪云教授:数据资产具有特殊性。国际会计分类将其归为存货资产,因其涉及生产加工过程,且作为电子化有形资产占用物理空间。数据资产价值核算更具不确定性,部分数据具有可生长性、可融合性,如通话数据与金融数据融合可生成更丰富用户画像;部分数据则随时间衰减。数据资产价值需根据具体类型分析,其核算过程比固定资产更复杂。

腾讯科技:数据是否将成为AI企业核心竞争力?能否量化体现在企业估值中?
曾雪云教授:数据是AI企业的核心要素,产品体验依赖数据能力,国家竞争力也取决于数据治理水平。目前全球数据治理仍面临挑战,中国已意识到数据重要性,但数据估值、会计核算等问题尚未解决。若数据能进入表内资产,将推动数据治理、价值核算与交易发展。当前企业数据仍属表外资产,缺乏合理估值基础,数据入表成为关键突破点。

腾讯科技:国际数据产权立法有哪些先例?
曾雪云教授:全球主要国家已建立数据保护法案,但数据利用法规相对缺失。日本《数据使用权限合同指引》为数据交易提供了规范框架。我国重视数据要素流通,但主要依靠行政文件,立法仍需完善。当前亟需创新数据产权规制与要素流通机制,引领全球法规建设新方向。欧盟GDPR是最全面的数据隐私法,但未明确数据权属流转规则。美国各州立法不统一,但覆盖领域广泛。数据财产权制度构建需坚持”人财两分”原则。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2025年10月28日

12:32
REDMI Watch 6重磅发布,售价仅为599元,为智能手表市场注入强劲活力。10月28日,小米集团手机部副总裁、可穿戴部总经理张雷通过微博积极回应了用户对这款产品的诸多关注点,进一步揭示了其强大功能与丰富应用场景。 这款手表搭载最新的小米澎湃OS 3系统,实现了与手机超级岛的深度同步。用户不仅能够实时查看打车、外卖、快递等生活服务的最新进度,更可在后续...
12:32
微新创想10月28日重磅报道,智能穿戴领域迎来颠覆性创新——追觅正式发布全球首款震动AI智能戒指Dreame Ring,标志着这家科技巨头强势进军智能戒指市场。这款备受瞩目的产品现已登陆京东商城,首发售价2599元,为用户带来前所未有的智能体验。 Dreame Ring在材质工艺上精益求精,采用航空级陶瓷材质打造,不仅外观时尚,更具备5ATM级防水性能,无论...
12:31
2025年10月28日,备受瞩目的国网新源江苏句容抽水蓄能电站正式全面投产发电,标志着我国清洁能源发展迈入新阶段。这座位于江苏省句容市的核心能源工程,总装机容量高达135万千瓦,设计年发电量达13.5亿千瓦时,为长三角地区注入了强大的绿色动力,成为该区域不可或缺的清洁能源调节设施。尤为瞩目的是,该电站拥有世界坝体最高的技术突破,其建成不仅彰显了我国在高坝蓄能...
12:31
10月27日,合肥市师范附属小学迎来了一位特殊的"助教"——全球首款正式进入课堂教学场景的全尺寸仿生机器人"小安"。在《设计我们的乐器》科学课堂上,这位身高1.4米的机器人凭借其先进的语音应答和视觉识别功能,为教师开展互动教学提供了有力支持。据研发方无论科技透露,"小安"搭载了34自由度灵巧硬件组件,并集成了表情生成系统与人格定制引擎,能够实现与学生的情绪同...
12:31
最新消息显示,谷歌可能将备受期待的Pixel系列功能更新——Pixel Drop,从原定的12月提前至11月4日正式推送。这一突如其来的时间调整,无疑让全球Pixel用户感到惊喜,也预示着谷歌将带来一系列令人耳目一新的升级体验。 此次Pixel Drop更新将包含三大核心亮点,全方位提升用户的个性化体验和创作能力。首先,谷歌将首次引入"Pixel主题包"功能...
12:31
2025年1月至9月,小鹏汽车在海外市场取得了令人瞩目的成绩,累计交付量高达29,706辆,同比增长超过125%。这一亮眼表现充分彰显了其国际化战略的显著成效,标志着小鹏汽车在全球市场版图上的加速扩张。值得注意的是,欧洲及东南亚市场成为小鹏汽车海外增长的主要引擎,贡献了绝大部分增量。得益于精准的本地化服务策略和完善的渠道建设,小鹏汽车正逐步构建起覆盖全球的营...
12:31
截至10月27日,黑龙江省农作物收获工作已取得显著进展,整体完成率达99.2%。今年,面对短时雨雪天气带来的挑战,黑龙江省积极采取应对措施,科学规划并有序推进秋收作业。得益于此,大豆和水稻的收获时间较去年平均提前了3至5天,而玉米作物的大面积收获更是提前了整整3天完成。目前,全省范围内仅有少量玉米地块因天气原因仍需等待冻后收获,但秋收生产大局已基本收官,丰收...
12:31
2025年10月28日,中国人民银行在公开市场执行了一项规模达4753亿元人民币的7天期逆回购操作,并宣布维持操作利率在1.40%的稳定水平。与此同时,当日有1595亿元人民币的逆回购额度到期。通过此次操作,央行成功向市场注入了3158亿元人民币的流动性,有效保障了银行体系的资金供给,实现了净投放目标。 此次逆回购操作采用利率招标方式进行,充分展现了央行...
12:31
最新消息显示,三星正积极推动One UI 8.5系统的迭代升级,重点强化图库编辑功能的智能化与便捷性。据科技博主@Tarunvats于10月26日在X平台发布的演示视频曝光,此次系统更新将革命性地整合"对象橡皮擦"功能至"生成式编辑"工作流中。用户现在只需通过AI智能识别并选择目标对象,即可实现一键移除照片中多余的人物、干扰物或背景阴影,整个过程无需切换工具...
12:31
2025年10月28日,上海证券交易所隆重举行科创板科创成长层首批新注册企业上市仪式,标志着中国资本市场在支持科技创新方面迈出了又一关键步伐。上交所理事长邱勇在致辞中强调,将坚定不移地探索符合科技创新内在规律的监管方式,以更加灵活和精准的手段护航科技企业成长。这一系列举措的核心目标在于显著提振市场对科创企业的信心与预期,为科技企业营造更加有利的融资环境,从而...
12:31
上海交通大学环境科学与工程学院赵一新教授团队在《Nature》杂志上发表了具有里程碑意义的研究成果,创新性地提出了"基质限域分子层"型空穴传输层构型设计。该技术突破性地采用三(五氟苯基)硼烷分子作为主体骨架,通过精密的分子工程策略有效抑制了传统自组装单分子层体系中普遍存在的分子聚集缺陷,从而显著提升了薄膜的均匀性和界面稳定性,为钙钛矿太阳能电池的性能优化提供...
12:00
10月26日,江西上饶的李女士与朋友在擂鼓岭山区进行徒步探险时,意外发现一处直径约50厘米的落叶堆积区。该区域地面松软且富有弹性,表面特征与天然蹦床极为相似。出于好奇,两人多次在上面蹦跳并拍摄视频,却未意识到危险正悄然逼近。 然而,危险很快显现——她们在附近遭遇两条蛇的袭击。其中一条呈棕黑色,身形粗壮如木棍;另一条头部扁平,具备眼镜蛇典型的特征。面对突如其来...