我国数据总量已跃居世界第二,年均数据量增长率高达40%,但被利用的数据量增长率仅为5.4%,潜在价值亟待开发。数据的价值在于流通交易,然而国内数据要素流通交易面临数据生产多、流通交易少,低质量数据多、高质量产品少,跨境需求多、政策支持少的“三多三少”困境,大部分数据仍处于“沉睡”状态。建议:锚定可信可控瓶颈,加快健全法律法规体系和标准体系,完善数据流通基础设施建设,推动关键核心技术联合攻关,做优做强数据流通主体,为数
据要素市场发展夯实发展根基。
一、我国数据要素流通交易呈现“三多三少”特点
(一)数据生产多,流通交易少
2022年,我国数据产量达8.1ZB,同比增长22.7%,全球占比为10.5%,约为美国的40%。相比之下,我国的数据交易市场规模约为1020亿元,总规模不到美国的5%。其中,通过数据交易所完成的市场规模占总规模的比例不足5%,经营状况相当惨淡。截至2022年12月,全国已成立48家数据交易场所,但由于运营能力不足,近10家已被注销。
(二) 低质量数据多,高质量产品少
一项对500多家企业的调查显示,企业所拥有的数据中平均有1/3是错误的,超过1/3的企业仍未有效管控数据质量。这普遍存在的数据质量问题导致市场出现“供少需弱”的局面。同时,高质量的中文语料数据和行业数据的缺乏,已严重制约国产人工智能大模型的训练,阻碍了我国人工智能技术超越美国的进程。
(三)跨境需求多,政策支持少
从2005年到2022年,全球跨境数据流动规模从0.4万GBPS扩张至100万GBPS,增长超过280倍。与跨境需求的激增形成鲜明对比的是,我国服务数据跨境流通的能力仍然偏低。根据2023年经济合作与发展组织(OECD)对全球85个国家进行的数字服务贸易限制水平评估,我国排名第71位,远远落后于美国(第9位)和日本(第13位),且在近五年内没有改善。
二、原因分析
(一)法律法规体系不够完备,数据流通标准尚未建立
一是缺乏分级分类的流通交易规范。目前,仅在金融领域出台了《金融数据安全分级指南》,而针对医疗、教育等大部分领域和行业的数据流通交易分级,仍缺乏实质性的操作指南,尤其是强制性入场交易数据类型清单尚未制定。此外,跨境数据流通的“白名单”国家也尚未建立。相比之下,欧盟已通过数据保护充分性认定,形成了以欧盟、美国、英国、日本和韩国等为代表的15个国家(地区)建立的数据流通“小圈子”,圈内的个人数据可以自由流动,无需采取额外的数据保护措施。
二是关于数据质量的法律法规有待完善。目前,我国已围绕重点数据形成了一些相应的法律法规文件,如《中华人民共和国统计法》、《公司法》和《证券法》,这些法律分别对统计数据和上市公司会计信息的数据质量提出了要求。然而,绝大部分领域的数据仍未被要求进行质量控制,导致各领域普遍存在数据质量问题。
三是数据流通标准研究仍处于起步阶段。全国层面缺乏统一的数据流通标准,不同数据交易机构的交易方式和交易程序各异,对参与交易的数据类型、格式等要求也存在差异,导致实际交易操作的成本较高。虽然已经出台了《数据治理规范》、《数据管理参考模型》等与数据要素相关的标准,但围绕数据要素流通的各个环节和细分领域仍缺乏深入的标准研究,整体的标准化工作与区块链、隐私计算等技术的耦合度较低,与产业发展的关联程度也不高。
(二)可信可控缺少基座支撑,数据要素关键技术缺失
一是传统互联网难以提供可控的流通底层环境。根据中国信通院的调研,超过80%的安全风险发生在数据流通环节。目前,我国的数据流通主要依赖互联网作为载体,采用的传输协议是TCP/IP协议,缺乏对安全性的充分考虑,导致信息加密程度不高,传输过程中容易被窥探和截获。无论是IPv4还是IPv6协议,都没有对数据分组的源IP地址进行验证,因此攻击者在发出攻击数据包时,可以随意指定其数据分组的源地址,从而避免被追溯。互联网在流通协议管理和数据追踪溯源等方面存在局限,难以满足数据流通在安全、合规、连接和算力等方面的共性需求。更需要引起重视的是,互联网的软硬件设施大多需要从国外进口,这对数据流通安全造成了潜在风险。
二是安全管控技术亟待突破。目前,我国在数据流通和跨境安全风险监管方面仍存在短板,这制约了数据的流动和对外开放。特别是在数据要素流通即将迈入新一代人工智能时代的背景下,以内容生成替代数据本身、以模型部署替代数据流动的趋势将颠覆现有的数据流通模式,促使数据污染风险加剧、数据推断风险涌现以及数据滥用风险升级,这极大增加了数据流通全过程的安全风险监管和防控难度。在这方面,安全风险实时监测预警技术、基于主动对抗的风险防控技术、面向安全和高效的算网服务技术、保障客户不同层次数据安全传输要求的安全容器、包过滤技术以及可溯源的安全管控技术等仍未取得突破,导致流通安全风险的防控依然处于被动状态,主要依赖事后惩罚。
(三)数据主体开发水平不高,流通服务主体能力较弱
一是数据资源开发能力不强。国内政府部门和企事业单位普遍存在对数据价值认知不足和数据技术能力不高的问题,许多单位不清楚哪些类型的数据资源可以增值,因此不愿意提供或购买数据产品,导致数据供需双方都显得疲弱。数据显示,超过80%的企事业单位只有少部分数据得到了开发,甚至有些企业的数据尚未得到有效利用。从具体的建筑行业来看,尽管我国建筑业产生的数据量极大,但工程数据的利用率却不到0.4%。
二是数据交易所缺乏全流程信任的交易服务和增值能力。目前,数据交易所缺乏事前的信用评价功能、事中的监督监控以及事后数据质量和数据安全的评价机制与追责制度,这导致数据供需双方的试错成本高、交易风险大,从而影响了交易意愿。此外,数据资产认定、价值和质量反馈等数据交易所需承载的重要功能仍然缺失,严重削弱了数据供需双方参与场内交易的内驱动力。
三是第三方数据服务商的发展与数据市场需求脱节。根据上海数商协会的数据,2022年第三方数据服务商的企业注册数量大幅下降,同比下降近70%。尤其是市场迫切需要的数据治理和数据交付服务商,在近20年的发展过程中,其数量并未出现明显的扩张趋势。
三、对策建议
在数据要素市场建设过程中,需要多元主体协同发力。政府应主要发挥有序引导和规范发展的作用,企业则应专注于数据的开发和应用。同时,高校应重点针对关键技术环节开展攻关,联合打造一个可信可控的流通生态。
(一) 建立健全法律制度体系,夯实流通交易法治基石
一是制定行业数据分级分类指南。应推进各领域和行业加快研究并出台数据要素分级分类流通指南,考虑数据主体、应用场景、敏感程度等属性风险以及多源数据组合风险,明确数据分级分类的细化标准,并制定强制性和鼓励性入场交易的数据类型。同时,加快出台《公共数据授权运营办法》和《数据产品交易管理办法》等,为数据交易提供指引。建议中央网信办加快探索在“一带一路”倡议下推进双边或多边数据流通协议及机制,将相关国家纳入可自由流动的跨境流通“白名单”。
二是加强数据质量规制。应将数据质量纳入“质量强国”建设,强化数据作为生产要素的地位。建议国家数据局联合国家市场监督管理总局加快研究流通数据的质量立法保护,确保内容与《民法典》、《产品质量法》等法律中的相关内容相区分,重点关注数据质量法的适用范围、动态数据质量准则的设定以及数据质量的行政监管规定。此外,建议在《民法典》中增加因数据质量问题对他人造成财产损失的责任判定,并对侵权行为进行制裁。
三是加快研制标准体系。建议全国信标委牵头围绕关键基础技术、数据运营规则和数据资产评估等方面研制国家标准。应强化数据要素相关标准的制定与产业发展之间的关联性,重点突破数据登记、数据定价和数据交易等关键领域的标准。同时,推进“白名单”国家和地区间跨国跨境数据流通的标准互认。
(二) 完善流通基础设施建设,构筑流通可信可控环境
一是加快推进基础网络的升级改造。支持移动、联通等基础网络服务运营商探索运用区块链、隐私计算和大规模分布式计算等技术,打造跨行业、跨区域、跨主体的集约高效数据流通基础设施,形成安全稳定的数据传输通道,以满足连接、算力、安全和合规等业界的共性需求。这将为数据流通提供全链路管控服务和安全高效的算网服务,助力数据要素的可信流通。
二是加快开展关键技术攻关。建议教育部和国家基金委以重大项目的方式,支持政产学研用的协同攻关,融合新一代人工智能技术,以实现主动对抗的数据安全风险防控技术。这包括数据跨域跨层的安全监测、加密传输、访问控制和数据脱敏等安全技术,同时支持广泛用户接入、跨域分布协同以及全程合规管控的网络化增强隐私计算技术。
(三) 做优做强数据流通主体,推动供需两端协同发力
一是支持企业增强数据开发利用能力。应加快推出与数据产品和服务供给、数据交易流转等相关企业的税收优惠与减免政策,对符合资格认证或交易标准的企业实施相应的企业所得税优惠政策。同时,鼓励有条件的企事业单位创新组织架构,设立数据专管部门和首席数据官等高管职位,以充分发掘数据要素的价值。此外,推动金融机构开发适合数据流通企业的专项信贷产品,支持开展数据要素的开发与应用。
二是推进数据交易所提升服务效能。以国家级数据交易所为试点,开展数据资产化评估,对数据资产的信息属性、法律属性和价值属性等进行评定和估算,为数据产品交易价格的确定和数据资产价值的定量管理提供基础。同时,对所保荐和承销的数据产品及其提供方的交易记录进行数据资产有效性审计,并围绕数据资产开展金融服务创新,联合金融机构探索开展数据信托、数据资产增信贷款、数据保险和数据银行等业务。
三是鼓励第三方数据服务商创新业务模式。应引导数据服务商开展面向存量和增量数据的质量改进优化技术研究,协助数据商进行内部数据治理。支持数据服务商帮助数据商将原始、分散和碎片化的数据加工转化为高质量、有价值、可流通交易且权属界定清晰的数据产品,以辅助数据产品上市。同时,鼓励围绕数据供需双方开展定制化服务,通过多种方式为数据产品发掘潜在需求方,为需求方寻找合适的数据源,辅助数据的落地应用,并提供价格磋商和产品交付等服务。