简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

【山证产业研究】数据产业框架报告:顶层战略擘画,产业蓄势待发

2025-01-27 15:51

报告要点: 

2024年12月,国家发改委、国家数据局等部门发布了我国首部推动数据产业发展的专项政策《关于促进数据产业高质量发展的指导意见》。《意见》提出到2029年数据产业规模年均复合增长率超过15%的发展目标,并围绕促进数据产业高质量发展,加强产业规划和政策保障,通过8方面22条具体举措,优化产业布局、培育竞争主体、促进技术创新、健全产业生态,促进数据企业成长。

本篇报告以产业研究的视角,从数据产业产值、企业数量等规模指标、驱动因素、产业链等角度切入,重点分析了推动数据产业发展的技术、数据、政策、需求等内外驱动因素,通过对数据产业链的拆解,对数据采集加工、存储、流通、应用、数据安全等重点环节的情况及发展趋势进行了分析。最后,我们以地方发展数据产业的角度,提出了立足我省特色产业、发挥比较优势、服务区域发展战略等发展数据产业的相关建议。

在重点环节方面:

1) 数据采集加工在人工智能算法训练需求的带动下,为数据基础服务行业带来发展空间,同时对数据采集标注提出更高要求,产业发展格局有望重塑。

2) 数据存储产业链系统复杂,技术和产品已经由传统存储向下一代存储技术演进,全闪存、超融合、云存储等先进存储将成为数据基础设施的重要构成。

3) 数据流通基础设施建设加速完善,场内交易机构“一地一所”的市场格局基本形成,交易规模不断扩大,各地数交所的互联互通将为全国统一大市场的建设奠定基础。

4) 数据应用是以场景开发为导向,各行业数据应用水平存在差异,数据的开发程度提高与技术工具的优化带动应用向智能决策发展,Daas、MaaS等新业态有望推动数据应用低门槛化。

5) 数据安全已经被提到了非常重要的高度,数据分级分类保护、系统布局安全治理等将更加完善。

风险提示:

数字技术发展进度不及预期、数据要素市场发展不及预期、政策落地进展不及预期等。

【数据产业具有更广泛的产业概念】

数据产业是利用现代信息技术对数据资源进行产品或服务开发,并推动其流通应用所形成的新兴产业,包括数据采集汇聚、计算存储、流通交易、开发利用、安全治理和数据基础设施建设等。

通过与大数据产业比较发现,数据产业是一个更广泛的概念,涵盖数据整个生命周期所涉及的所有经济活动和环节,所涉及的数据类型和规模更为多样,采用的技术更加广泛,应用场景涉及所有行业的数字化过程中,并且在此过程中形成的数据资产可进行数据的交易等流通。大数据产业所强调的“大”,即海量的数据,具有高速、多样、价值密度低等特点,需要通过复杂的算法挖掘有价值的信息,因此在技术层面更侧重于特定的技术栈,如分布式存储、计算、流数据处理、可视化等,应用侧重于依赖通过对海量数据进行深度挖掘和实时处理来实现的场景。对于产业生态而言,我们认为大数据产业应当是包含于数据产业其中的,不仅聚焦于大数据技术研发和应用,且包含数据生产、交易平台、非直接从事数据业务的第三方服务商等各类经营主体,产业链相对更长、环节更多。

表1:数据产业与大数据产业对比

资料来源:工业和信息化部,山西证券研究所

资料来源:工业和信息化部,山西证券研究所

【数据产业规模分析】

数据产业规模测算突破2万亿

根据2024年数博会上发布的首份《数据产业图谱(2024)》显示,我国数据产业规模已突破2万亿元,其中2023年产业规模达2.44亿元,2020年—2023年均增长率为25%。预计2024年—2030年均增长率继续保持20%以上,到2030年,中国数据产业规模将达到7.5万亿元。

图1:中国数据产业规模预测

资料来源:《数据产业图谱(2024)》,山西证券研究所

资料来源:《数据产业图谱(2024)》,山西证券研究所

从其他机构的预测数据来看,国家工业信息安全发展研究中心、头豹研究院对中国大数据行业市场规模的统计包含有数据资源层、基础硬件层、通用软件层、行业应用层和安全保证层五个细分市场,2022年市场规模为1.57万亿,2023年约为1.96万亿,与《数据产业图谱(2024)》的测算值较为接近。预计到2027年的市场规模为4.84万亿,五年CAGR为25.33%。

艾瑞咨询在《2024年中国数据要素流通行业研究报告》中给出的测算为2024年中国数据要素流通市场规模预计将达1662亿元,2025年预计将释放两千亿需求空间。

图2:中国大数据行业规模测算

资料来源:国家工业信息安全发展研究中心、头豹研究院,山西证券研究所

资料来源:国家工业信息安全发展研究中心、头豹研究院,山西证券研究所

图3:中国数据要素流通行业市场规模

资料来源:艾瑞咨询,山西证券研究所

资料来源:艾瑞咨询,山西证券研究所

数据企业可分为6类,企业投融资活跃

数据企业是全国一体化数据市场建设的主力军。一体化数据市场建设离不开繁荣活跃、竞争有序的市场经营主体,离不开强有力的数据产业支撑。据京数智科技统计,截止2023年底,我国数据企业数量已达19.3万家,按类型可分为数据资源企业、数据服务企业、数据技术企业、数据应用企业、基础设施企业和安全企业等六个主要类型。从收录于《数据产业图谱(2024)》的2197家数据企业来看,数据应用企业数量最多,共534家,占比24%,数据资源企业443家、数据技术企业426家、数据服务企业438家,占比均为20%左右,数据基础设施企业201家,占比9%,数据安全企业155家,占比7%。

从产值规模来看,数据应用企业产值规模最大,2023年为5092亿元,占全国数据产业产值规模25.32%,基础设施企业规模4570亿元,占比22.73%,数据技术企业规模3670亿元,占比18.25%,数据资源企业规模3369亿元,占比16.75%。

图4:数据企业分类及数量分布

资料来源:《数据产业图谱(2024)》,山西证券研究所

资料来源:《数据产业图谱(2024)》,山西证券研究所

资料来源:《数据产业图谱(2024)》,山西证券研究所

2020年至2024年,数据产业相关融资事件共4319起,涉及2923家不同的企业,并呈现逐年增长的趋势。尤其以2024年以来,数据产业融资热潮持续不减,融资事件数量和参与融资企业数量达到近五年来的顶峰,分别为3899起、3557家。其中,在互联网数据中心服务、云计算和数据安全等关键产业环节的融资活动尤为频繁,分别占到了融资事件总数41.67%、19.44%和12.5%,反映了资本市场对数据基础设施及数据技术、数据安全等领域较为关注。[1] 

图5:数据企业投融资情况

资料来源:交大评论公众号,山西证券研究所

资料来源:交大评论公众号,山西证券研究所

资料来源:交大评论公众号,山西证券研究所

【数据产业发展驱动力分析】

数据产业的发展以数据和技术双轮驱动

数据是数字化、网络化、智能化发展过程中形成的重要资源,数据产业则是围绕数据为核心的生产要素构建的产业生态。包括数据产品、数据技术、数据企业、数据安全治理、数据基础设施等产业体系;以及围绕数据要素化搭建的产业链体系,包括采集、存储、处理、分析、流通、应用等环节。

数据是数据产业的生产资料,数据的质量、多样性、合规性及可持续性对行业长期的发展及应用都有至关的影响。通过对数据产品的开发、运营,使得数据产业企业能够进行产品和服务的创新,服务于更多的应用场景,使得数据资源能够好的发挥协同优化、复用增效、融合创新的作用。同时通过数据分析而挖掘出的新模式、新趋势,能够推动数据企业商业模式的变革,并在业务过程中形成的数据资产进行整合优化、管理运营,提高自身资产的质量和价值。最后数据能够在数据产业生态系统中促进不同企业和机构之间的协同合作,通过数据的流通可以使产业链上下游企业实现优势互补,并且伴随着数据的不断积累和新的数据应用场景的出现,数据产业自身的生态系统也将不断进化。

图6:数据产业以数据为核心生产要素

资料来源:山西证券研究所

资料来源:山西证券研究所

技术发展推动数据生产的规模。5G、AI、物联网技术的创新发展及智能设备的规模应用,推动数据生产规模快速增长。据《全国数据资源调查报告(2023年)》数据,2023年我国数据生产总量达到32.85ZB,同比增长22.44%,其中随着消费民生领域新业态不断涌现,内容创作、影像视听等非结构数据对我国数据总规模增长贡献较大。未来,随着自动驾驶、AIGC等新技术的规模化应用而持续提升,以及数字化转型将促进各行业高质量数据形成,进一步推动数据从设备、系统的分散状态释放、汇聚和应用,预计2024年数据生产量增长将超25%。

图7:数据来源分布情况

资料来源:《全国数据资源调查报告(2023年)》,山西证券研究所

资料来源:《全国数据资源调查报告(2023年)》,山西证券研究所

技术发展推动数据产业业态形成。数据技术贯穿于数据要素“采存算管用”全生命周期,成为产业发展的重要支撑。例如在数据采集阶段,网络爬虫技术、API技术和数据同步技术、传感器技术等发展拓展数据来源并带动数据采集效率的提升;在存储阶段,固态硬盘(SSD)的发展使得数据存储相较于传统机械硬盘读取效率大幅提升,更加适应于大数据分析和人工智能训练,以云存储为代表的分布式存储技术提高了存储容量,增强了数据的可靠性和可用性;在处理阶段,Hadoop、Spark等大数据处理框架能够高效地处理海量数据,机器学习和深度学习技术能够从数据中发现复杂的规律,构建相关的数据模型;数据安全治理环节中,加密技术是保护数据隐私的关键,隐私计算保障数据在生产、存储、计算等流转全过程中“可用不可见”。

2024年,国家数据局在隐私计算、区块链、数据空间、数场、数联网、数据元件等六条技术路线开展试点示范,并将天津、温州、南昌、郑州、武汉、赣州等多个城市确定为国家数据基础设施建设试点示范地区,力争在三年时间内提炼总结出实施经验和模式,实现技术路线收敛,并向全国广泛推广。

政策与需求是数据产业发展的重要外部驱动力

国家数据战略布局逐步清晰,数据产业战略地位不断提升。从国家政策层面来看,政策的战略重心逐步由“大数据战略”向“数据要素”倾斜。2014年,“大数据”首次被写入政府工作报告,并在2015年上升至国家战略层面,2016年在“十三五”规划纲要中正式提出实施国家大数据战略。2020年,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,数据首次正式被纳入生产要素范围,并在《关于新时代加快完善社会主义市场经济体制的意见》中提出,加快培育发展数据要素市场。2022年《关于构建数据基础制度更好发挥数据要素作用的意见》(即“数据二十条”)发布,成为数据要素市场化改革的一个关键拐点,初步形成我国数据基础制度的“四梁八柱”。

2023年国家数据局正式挂牌成立,并发布了第一个数据要素文件《“数据要素×”三年行动计划(2024—2026年)》,在该文件中首次提到了“数据产业”,提出到2026年底形成相对完善的数据产业业态,数据产业年均增速超过20%的总体目标,以及引导和鼓励各类社会资本投向数据产业。2024年,国家针对数据要素基础制度建设明显提速,相关政策密集发布,9月中共中央、国务院发布《关于加快公共数据资源开发利用的意见》中提出将数据产业作为鼓励发展类纳入产业结构调整指导目录,企业可享受研发费用加计扣除、高新技术企业税收优惠等政策;12月《关于促进数据产业高质量发展的指导意见》发布,也是首部推动数据产业发展的专项政策,提出到2029年数据产业规模年均复合增长率超过15%的发展目标,围绕促进数据产业高质量发展,加强产业规划和政策保障,通过8方面22条具体举措,优化产业布局、培育竞争主体、促进技术创新、健全产业生态,促进数据企业成长。

图8:我国数据产业政策演进

资料来源:政府网站,山西证券研究所

资料来源:政府网站,山西证券研究所

需求是创新的根本动力,数据价值挖掘任重道远,以场景需求为牵引的数据开发利用将成为数据产业发展的重要驱动力之一。尽管我国数据资源丰富,但数据要素化过程中面临数据资源有效供给不足、供需结构不匹配的关键问题。根据《全国数据资源调查报告(2023年)》显示,2023年我国数据产存转化率仅为2.9%,企业一年未使用的数据占比为38.93%,海量数据源头即弃或者被存储后不再读取和复用;在数据流通领域,数据交易所需求方是供给方的1.75倍,数据产品成交率为17.9%,数据场内交易供需匹配率低。《“数据要素X”三年行动计划(2024—2026年)》等政策文件的发布,以及国家数据局同气象、文旅、医保、交通等行业主管部门共同推动的数据应用示范场景等举措,均强调要发挥数据要素的乘数效应必须以应用场景为基础,引导以服务化、产品化的方式进行数据资源供给,推动数据利用从原始数据获取挖掘向数据应用服务的方式转变。另一方面,数据应用方对于数据产品和服务的定制化、精准性及数据隐私与数据安全等方面的需求,也将推动数据采集、分析、安全等数据技术的进步。

人工智能的发展对于数据高质量的需求也将推动数据产业的发展。模型的大小、训练所需的数据量等因素将直接影响人工智能模型的准确性,并对数据的多样性、时效性、质量控制等提出了迫切需求。以GPT为例,GPT模型架构从第1代到第4代均较为相似,而用来训练数据的数据规模和质量却有很大的不同;GPT-1是由4.8G未过滤原始数据训练,GPT-2是由经人类过滤后的40G数据训练,GPT-3是由从45T原始数据中过滤的570G数据训练,而chatGPT/GPT-4则是在该基础上又加入了高质量人类标注。[2]随着人工智能应用场景的丰富化,大模型垂直领域的数据应用需求也将持续保持快速增长。另一方面,自然语言处理、语音识别等技术进步降低开发门槛,围绕数据增值的产品服务需求也将推动数据产业的供给匹配。

图9:数据在AI模型中发挥的重要作用——以ChatGPT为例

资料来源:阿里研究院《大模型训练数据白皮书》,山西证券研究所

资料来源:阿里研究院《大模型训练数据白皮书》,山西证券研究所

【数据产业链拆解分析】

产业链全景图:我国初步构建起数据产业的产业链

从数据产业的定义来看,数据产业链是以数据价值释放的基本逻辑链条,即数据的“供给—流通—利用”,其中包含有数据采集、存储、治理、分析、流通、应用等关键环节。通过类比大数据产业链,我们对数据产业链进行了如下拆分。

图10:数据产业链拆分

资料来源:国家工业信息安全发展研究中心,山西证券研究所

资料来源:国家工业信息安全发展研究中心,山西证券研究所

数据产业链的上游为数据的来源,即数据的资源方。根据《数据产业图谱》,数据资源方主要包括公共数据资源方(如政府机构、依法行使行政职能的事业单位、公共数据授权运营的数据集团等)、行业数据资源方(如行业垄断性企业)、互联网数据资源方(互联网平台公司)、以及数据治理和集成商等,通过资平台资源、技术等优势,掌握了海量的高价值数据资源。

数据产业链的中游为数据的加工和服务方。这其中包括处于采集、存储、处理和分析、流通等环节的数据技术企业,也包含为数据流通服务等服务的数据服务企业。根据《数据产业图谱》,数据技术企业是通过各类技术手段,对数据资源进行清洗标注、计算存储、分析加工等数据处理和数据治理。数据服务企业包括数据交易平台、以及提供数据经纪、资产评估、咨询、合规认证等各类数商。

数据产业链的下游则为面对数据需求的应用方。根据《数据产业图谱》,数据应用方更加贴近行业领域和市场需求,通过开展数据采集与治理、多方数据融合、数据产品开发和技术服务,进而实现数据的价值释放,从行业属性来看包括工业、农业、能源、商业、医疗、金融等各类数据应用企业。

数据安全与数据基础设施环节是贯穿于数据产业链上下游的支撑底座。其中,数据安全保障数据在采存算管用全生命周期中各环节的安全性,确保数据真实性、完整性、可靠性,包含网络安全、数据动态安全等。数据基础设施为数据的流通和处理提供必要的物理和技术基础,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体,包括算力设施、云平台、数据空间等建设及运营企业。

整体来看,我国数据产业的产业链虽已初步形成,但尚处于发展初期,存在数据资源分散、开发利用质效不足、数据服务不够、数据应用场景有限等问题,产业链部分环节存在短板,产业生态尚待完善。

数据采集加工:AI算法训练带动基础服务需求,并逐步走向智能化

数据采集是原始数据进行资源化的首要环节,是通过一定的技术和方法从各种数据源中手动或自动收集数据,并存储到目标位置的过程。数据采集最初用于企业内部信息化管理和数据分析,后随着互联网、物联网等技术的普及,数据量暴增推动数据采集行业进入快速发展阶段,各类采集技术和工具不断涌现。

数据采集行业的主体包括三类。即采集设备提供商(提供传感器、采集器等专用采集设备和智能设备),数据采集解决方案提供商(提供人工采集服务、系统日志采集系统、网络数据采集系统等),以及提供数据采集软硬件系统的集成商。采集技术路径由人工采集向自动采集进一步转化,主要包括网络爬虫采集、传感器数据采集、API接口数据技术和数据同步技术等,推动数据采集效率的提升。

图11:数据采集的主要类型

资料来源:国家工业信息安全发展研究中心,山西证券研究所

资料来源:国家工业信息安全发展研究中心,山西证券研究所

数据加工是将企业采集和存储的数据进行筛选处理,从而形成一定的可用性,为数据资源的挖掘和分析奠定基础,包括数据标注、清洗、脱敏脱密、标准化、融合等方式。艾瑞咨询对2023年数据采集及加工环节的市场测算分别为70亿和262亿元,并预计到2025年将分别增长至104亿和404亿元。

表2:数据处理的主要方式说明

资料来源:国家工业信息安全发展研究中心、中国电子信息产业发展研究院、赛迪(青岛)区块链研究院,山西证券研究所

资料来源:国家工业信息安全发展研究中心、中国电子信息产业发展研究院、赛迪(青岛)区块链研究院,山西证券研究所

数据、算法和算力是人工智能的发展三大核心要素,其中结构化数据是AI算法模型开发和迭代基础,从算法设计、训练、评测、仿真、迭代均需要持续的结构化数据投入作为支撑,数据采集、标注等基础数据服务商通过提供标准数据集、定制数据集以及配套产品工具和服务,有效衔接了数据资源与算法开发环节,满足了算法企业的需求。

图12:人工智能基础数据服务产业链

资料来源:德勤《人工智能基础数据服务白皮书》,山西证券研究所

资料来源:德勤《人工智能基础数据服务白皮书》,山西证券研究所

随着AI技术商业化落地的加速,人工智能不断向各行业渗透,同时也带来了AI算法训练的需求,推动了基础数据服务市场的发展。根据德勤的测算,2017-2022年,中国AI基础数据服务行业市场规模由2017年8.2亿增长至2022年的30.3亿元,复合增速41%,预计到2027年将增长至130-160亿元。艾瑞咨询对AI基础数据服务市场规模测算为45亿元,并预测到2028年增长至170亿元。

图13:德勤测算的AI基础数据服务市场规模

资料来源:德勤,山西证券研究所

资料来源:德勤,山西证券研究所

图14:艾瑞测算的AI基础数据服务市场规模

资料来源:艾瑞咨询,山西证券研究所

资料来源:艾瑞咨询,山西证券研究所

AI基础数据服务行业主体主要包括三类,即由需求方自建的基础数据服务团队,品牌数据服务商及中小数据服务商,商业模式主要包括数据外包形式,即由数据标注公司完成人工智能项目的数据采集、数据标注;以及部署标注平台,利用本地化的数据标注平台完成数据的采集、标注。其中以百度为代表的头部云服务厂商,依托自身研发、资源整合能力以及云计算的部署协同能力,不仅由内部标注团队完成AI算法研发所需的数据服务,同时也会对外部厂商形成数据服务。

图15:2023年中国AI基础数据服务商CR4份额及其他厂商举例

资料来源:艾瑞咨询,德勤,山西证券研究所

资料来源:艾瑞咨询,德勤,山西证券研究所

随着大模型、自动驾驶等不同场景算法的快速演进,对数据采集标注的元素和信息维度等均提出更高的要求,产业发展格局也将重塑。一方面,基于算法模型对自动采集和标注进行反哺,实现对于部分人工标注工作的代替或提高效率;另一方面,基础数据服务+云资源+算法工具的全栈式工具服务满足算法公司以及技术应用公司向上游延伸的需求。随着数据安全和隐私问题的日益突出,相关法律法规及标准体系也日益完善,数据采集和处理过程中的安全和隐私保护的专业性问题也将成为行业发展主要方向。由此来看,中小数据服务商市场可能会被优势更为明显的品牌数据服务商及需求方自建团队进一步蚕食,同时以自动化标注及AI标注工具的算法研发企业也有望切入市场获取份额。

图16:2023年中国AI基础数据服务商CR4份额及其他厂商举例

资料来源:艾瑞咨询,山西证券研究所

资料来源:艾瑞咨询,山西证券研究所

资料来源:艾瑞咨询,山西证券研究所

数据存储:产品与技术向下一代演进,先进存储将是基础设施的重要一环

数据存储是数据在完成采集后进行记录和保存,以便进一步的加工和处理,或者是在加工过程中产生的临时文件和信息进行保存。2023年全国数据存储总量为1.73ZB,新增数据存储量为0.95ZB,与数据生产量相比,生产总量中仅有2.9%的数据被保存,数据产存转化率偏低。全国数据存储空间为2.93ZB,存储空间利用率为59%,其中不同行业存储空间利用率存在差异,政府和行业重点企业存储空间利用率均为70%左右,数据服务商需要对存储空间进行提前布局,因此存储空间利用率为35.29%。伴随人工智能等技术的高速发展,数据产量将呈指数级增长,海量数据对存储提出更高的要求。

从技术和产品的角度,进入到移动互联网时代以来,数据量爆发式增长,存储技术和产品由传统存储向下一代存储技术演进。1)在存储介质方面,由传统的机械硬盘(HDD)存储向全闪存储发展,后者具有远高于传统磁盘存储数据的吞吐能力和更低延时。2)在存储架构方面,软件定义存储(SDS)、超融合基础架构(HCI)应运而生,前者将软硬件解耦,通过软件来控制和管理存储资源,降低存储硬件的依赖和采购成本,并易于扩展;后者以软件为中心,将计算、存储和网络等资源整合到单一的系统中,可实现灵活高效的存储服务。3)在应用模式方面,基于云计算技术的发展,数据存储逐渐从本地化部署转向云上部署。云存储通过应用软件来实现存储设备向存储服务的转变,能够以用户自身的业务逻辑,灵活扩展或缩减存储容量,并提高数据处理流程的易用性;同时标准化和开放化的存储系统,不仅方便数据迁移,也可实现跨平台的资源监控与管理。《全国数据资源调查报告(2023年)》数据,2023年我国数据云存储占比超40%,云存储高灵活性和高便捷性优势有效支撑了业务协同带来的数据交互需求;但从微观来看,行业重点企业数据终端存储占比超过70%,而云存储的占比为23.49%。

图17:数据存储介质迭代与技术演进

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

从市场规模来看,根据观知海内信咨询调研数据,2023年中国数据存储市场规模为6800亿元,并预计2024年规模为7491亿元。IDC针对中国企业级存储(ESS)市场规模进行的测算为66亿美元,同比下降0.6%,并预测2024年市场有望恢复至3.8%增速,在未来五年保持4.7%的复合年增长至2028年的90.18亿美元。

图18:中国数据存储市场规模测算

资料来源:观知海内信咨询,山西证券研究所

资料来源:观知海内信咨询,山西证券研究所

图19:中国ESS市场规模预测

资料来源:IDC.2023Q4,山西证券研究所

资料来源:IDC.2023Q4,山西证券研究所

市场结构方面,以存储架构来分,可分为传统企业级存储(TESS)、软件定义存储(SDS)、超融合基础架构(HCI),2021-2023年TESS的市场占比超过50%,同时SDS、HCI等新兴技术呈现强劲的增长态势,并在2024Q1的市场规模中合计达到50.2%的份额。IDC于2024Q2预测,中国HCI市场和软定义市场在未来5年符合增速将分别为5%、6.8%,远超传统存储阵列;预计到2028年,市场规模将分别达到近30亿美元和40亿美元。

以存储介质来分,可分为全闪存储(AFA)、混闪存储(HFA)和全硬盘存储(HDD),2023年全闪存阵列实现7.8%的同比增长,市场占比提升到24.4%;混闪阵列同比下降2.6%,市场占比达到53.6%;全硬盘阵列同比下降4.2%,市场占比下降至21.9%。与全球市场全闪存阵列占47.2%的数据相比,中国全闪存阵列市场仍然有着巨大的提升空间。

图20:中国数据存储市场份额-以存储结构来分

资料来源:IDC.2024Q1,山西证券研究所

资料来源:IDC.2024Q1,山西证券研究所

图21:中国数据存储市场份额-以存储介质来分

资料来源:IDC.2023Q4,山西证券研究所

资料来源:IDC.2023Q4,山西证券研究所

从产业链来看,数据存储是一个涉及数据收集、存储、管理、保护和分析的复杂系统,从存储产业来看,产业链涵盖上游存储芯片与元器件,中游存储设备制造、存储系统和软件,下游存储应用与服务。

图22:数据存储产业链拆解

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

存储芯片是数据存储产业的核心基础,主要包括 DRAM(动态随机存取存储器)、NAND Flash(闪存)等。芯片制造过程涉及复杂的半导体工艺,国际上三星、SK 海力士等公司在 DRAM 芯片制造领域占据重要地位,英特尔、美光等企业则为NAND Flash的主要供应商。目前国内厂商长江存储的NAND Flash具有全球领先的研发水平和生产能力,部分SSD主控芯片制造厂商产品实现商业落地,性能可与国家主流厂商比肩。[3]

存储设备包括硬盘、服务器、移动存储设备等,再通过存储系统集成商将存储设备、服务器、网络设备等组合在一起,构建完整的数据存储系统。国内主要的存储硬件设备制造及系统集成商包括长江存储、联想、华为、浪潮、中科曙光同有科技、紫晶存储等。我国存储整机和存储系统在实现国产化的情况下,全闪存储、分布式存储、备份存储、存储内生安全、统一文件系统等领域已经达到国际先进水平,并进入海外金融等关键行业市场。[4]据华为数据存储官微,在国际权威研究机构Coldago Research公布的2024年全球文件存储报告和对象存储报告中,华为均位居领导者,与IBM、微软、戴尔、西部数据等存储巨头并驾齐驱。

图23:华为位居Coldago 2024《文件存储报告》和《对象存储报告》领导者

资料来源:华为数据存储官微,山西证券研究所

资料来源:华为数据存储官微,山西证券研究所

资料来源:华为数据存储官微,山西证券研究所

数据中心是数据存储产业的重要下游用户,它集中存储和处理大量的数据,为云计算、大数据分析等应用提供服务。目前,我国数据中心建设规模不断扩大,2023年我国数据中心机架规模超810万架,近六年复合增速超30%;云计算市场规模6165亿元,其中公有云规模4562亿、私有云规模1563亿,对用户可供给虚拟CPU核数超10亿个,云存储规模超50EB。存储在数据中心的技术成本中占比大概在20%,数据中心对于存储的要求主要包括高容量、高可靠性、高读写速度和低能耗等,因此通常会采用先进的存储架构,如分布式存储系统、超融合存储系统等。此外,下游应用还包括企业级用户和个人消费者,通常会购买存储服务器、存储阵列、移动存储等设备,或者采用云存储服务来满足其数据存储需求。

图24:中国数据中心机架规模

资料来源:工信部,山西证券研究所

资料来源:工信部,山西证券研究所

图25:中国云计算市场规模

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

先进存储设施将是基础设施的重要一环。存力设施与网络、算力、数据采集、数据流通、数据安全共同构成数据基础设施的底座。在政策指引下,我国存储设施呈现与网络设施、算力设施一体化发展的趋势。截至2023年底,我国存力规模达到1.2ZB,其中先进存储的容量占比超过25%,预计到2025年将提高至30%。先进存储设施具有大容量、高效率、高可靠性、低延时等特点,能够满足人工智能大模型激发的大体量温热数据及高频调用需求;多协议兼容、集约化部署的先进数据存储方案还能够降低多元异构数据的采集难度,加速数据要素流通应用。当前各地区加快采用先进的存储技术和架构部署建设先进存力中心,构建以集数据归集、保护、治理、加工与供给于一体的综合平台,为各种应用场景提供高效的数据存储和管理服务。

图26:数据基础设施六个组成部分

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

图27:中国存储设施规模

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

数据流通:基础设施建设加速完善,机构互联互通探索全国统一大市场

数据流通是数据释放价值的核心环节。据麦肯锡及经济合作与发展组织(OECD)测算,数据流动量每增加10%,将带动GDP增长0.2%,数据流动对各行业利润增长的平均促进率为10%左右。

在数据外部流通方面,当前围绕数据交易所的交易模式有两种,一种为场内交易、灵活交付,即数据供需双方在数据交易机构达成数据交易合约并完成交付,交易机构为双方提供交易凭证,但不限制交易双方交付的时空和方式;一种为场内备案、灵活交付,即数据交易机构开展多种形式的数据及数据产品、数据使用权等上架、登记、备案及交易,既支持场内交付,也可进行场外交付后的登记备案。[5]

在数据内部流通方面,参照最早德国提出的“数据空间”模式,可信数据空间在此基础上增加了对信任和安全性的强调,并提供更具体的技术实现来确保数据的可信流通和利用。企业可利用可信数据空间搭建数字化供应链体系、协同上下游的数据流通利用,以提高业务全流程的协同效率。2024年国家数据局印发了《可信数据空间发展行动计划(2024—2028年)》中提到了以国有企业和龙头企业为主导构建企业、行业可信数据空间。

图28:数据场内交易与数据空间示意图

资料来源:国家工业信息安全发展研究中心,国家数据局,亿欧智库,山西证券研究所

资料来源:国家工业信息安全发展研究中心,国家数据局,亿欧智库,山西证券研究所

根据国家数据局,2024年全国数据交易市场规模预计超1600亿元,同比30%以上,其中场内交易(含备案交易)规模预计超300亿,同比实现翻番。根据《2024年中国数据交易市场研究分析报告》的统计,2023年中国数据交易行业市场规模为1536.9亿元,较2021年复合增长57.75%,并且在政策支持、技术进步、基础设施完善及数商生态等因素的推动下,预计到2030年,市场规模将达到7159亿元,年复合增长24.58%。

我国数据交易基础设施建设加速完善,截至2024年12月,全国省级数据交易场所约为27家以及33家在运营或组建中的市级数据交易场所,“一地一所”的市场格局基本形成。场内数据产品上架规模显著增长,据《2024年中国数据交易市场研究分析报告》统计,全国范围内共有1963家企业在21家数据交易平台上架3.2万个数据产品,其中,北京、上海、浙江、广州、深圳、海南、贵阳等地重点数据交易机构上架产品1.6万多个、数据交易总额超220亿元,同比增长80%。

图29:中国数据交易行业市场规模

资料来源:《2024年中国数据交易市场研究分析报告》,山西证券研究所

资料来源:《2024年中国数据交易市场研究分析报告》,山西证券研究所

近年来,数据交易所通过探索和建立的数据流通制度和机制,引入隐私技术、区块链等现金数字技术,将数据交易前后数据质量及合规审核、数据产权登记、数据资产评估定价、产品交割、交易仲裁等各个环节进行整合优化,确保数据产品挂牌、撮合交易、收益分配在合规、安全的管控下高效完成,形成一站式的专业服务,并将服务链条延伸至数据资产质押、融资、入表等衍生业务。通过“需求大厅”模块的建设发挥需求发现、匹配供需等功能,从需求侧推动数据产品供给侧的发展,以“数据专区”平台的建设,将行业数据的精细化运营,能够为数据产品提供更丰富的应用场景。

基于目前国内大部分省市已经至少有一家数据交易场所,不仅在发展定位和市场功能上相似,在数据流通交易规则建设上也以各地分散探索为主,因此数据交易机构互认互通,对于降低合规流通和交易成本,提高流通和交易效率,推动构建统一开放、活跃高效的数据要素市场具有重要意义。目前在国家数据局的推动下,已有24家数据交易机构联合发布《数据交易机构互认互通倡议》,提出产品互认、需求互动、标准互通、主体互信的倡议,我们认为地数据交易所建立互认互通机制将成为数据产业链流通环节未来一段时间内主要的发展趋势,并为全国统一数据交易市场的建立奠定基础。

图30:24家数据交易机构联合发布《数据交易机构互认互通倡议》

资料来源:国家数据局,山西证券研究所

资料来源:国家数据局,山西证券研究所

数据应用:场景开发为导向,并趋向自动化与低门槛化

数据应用是通过建立数据与业务之间的联系并最终推动决策的过程,其关键机制包括需求识别—应用创新—价值实现—反馈循环。[6]随着社会经济的信息化、数字化、智能化的发展,数据应用已经快速融入到生产、管理和消费等各个环节。根据中国信息通信研究院,数据应用实际已发展有六十余年,可分为三个阶段:信息化推动了数据应用的第一阶段,随着企业竞争加剧及数据体量变大,头部企业率先在营销、风控、经营分析等核心业务中从组织架构、数据存储计算、商业模式等开启第三阶段的应用探索。

图31:数据应用的三个阶段

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

由于不同行业在数字化转型的进展以及在数据安全的需求上存在差异,因此在数据应用水平上也存在不同。2023年底,国家数据局优先选择了数据基础良好、应用场景丰富且需求显著的十二个行业和领域,以需求为牵引试点先行,以实践推动发展,发挥数据要素的乘数效应。根据我们对国家数据局征集的2024年“数据要素X”典型案例进行统计,其中以交通运输、绿色低碳、文化旅游、现代农业、科技创新等领域案例最多。

图32:国家数据局“数据要素X”典型案例领域分布

资料来源:中国信息通信研究院,山西证券研究所

资料来源:中国信息通信研究院,山西证券研究所

金融、互联网、电信由于信息化起步早、数字化程度高及研发实力强等特点,被认为是数据应用最为领先的三个行业。其中,金融行业以风控类、营销类的场景为主导,定价、评级、ABS、监管等场景也在逐步落地,涉及个人主体、征信、消费行为、企业数据和其他行业数据等多种类数据的深度融合应用。互联网及电信行业既是重要的数据供应方,也是大型数据应用方,数据应用广泛,包括精准营销、用户行为分析、风险控制、运营优化、市场分析等,大模型的开发和训练中也为互联网和电信行业带来了新的数据应用需求。政务、医疗、交通运输行业数据带有公共数据属性,数据运用广泛且需求庞大,例如在政务领域,数据在民生服务、社会治理和市场监管等应用场景的需求旺盛,通过数据赋能,有助于提高城市管理的智能化和精细化水平,公共服务流程得以优化再造,提升政策决策的科学化以及应急响应的能力。未来随着公共数据开放共享及授权运营的进一步推进,有望推动各领域信息系统的整合以及数据资源主体的互联互通,打破信息壁垒,确保数据不出域的前提下提高数据的共享和流通,在数据应用释放更大的潜力。

图33:数据在零售、制造、能源、医疗行业的应用场景举例

资料来源:中国民营科技促进会大数据产业研究部、北京大数据协会首席数据官工委会,山西证券研究所

资料来源:中国民营科技促进会大数据产业研究部、北京大数据协会首席数据官工委会,山西证券研究所

国家工业信息安全发展研究中心、头豹研究院对2023年大数据行业应用层的市场规模测算达到1.20万亿元。《2024年中国数据交易市场研究分析报告》基于应用领域口径的统计,各行业的数据交易市场规模进行预测,预计2030年,金融、互联网、通信、制造工业、政务等主要行业的数据交易规模将分别达到2440.2亿、1431.8亿、656亿、724.2亿、357.9亿元。

图34:按应用领域口径中国各行业数据交易市场规模预测

资料来源:《2024年中国数据交易市场研究分析报告》,山西证券研究所

资料来源:《2024年中国数据交易市场研究分析报告》,山西证券研究所

数据应用趋向自动化,新技术新业态的发展推动应用低门槛化。随着数据源增多、模型精细度提高、数据应用技术工具的优化,数据应用由识别、分析、预测等类型向智能决策发展。基于数据、机器学习算法和算力的自动化决策能够综合考虑更多的因素,避免人为因素导致的决策偏差和低效率瓶颈,例如在金融领域的自动化交易系统基于预设交易策略和实时市场数据做出的交易决策,信用评估系统基于更多维度的数据准确评估信用风险等。低代码技术工具等产品通过模块封装等方式使企业快速完成应用程序的配置,降低数据应用的成本和门槛,推动数据应用向中小企业以及生产经营的关键环节渗透。Daas、MaaS等新业务形态的出现,帮助企业规避高昂的建设和维护成本,充分利用数据和模型的相关服务,满足场景化和个性化的应用需求。此外,数据应用需要业务、技术、数据管理等多部协同,并需要企业通过组织架构调整、建立数据治理体系、数据资产化运营等相关工作,以此也将带动应用型数商的服务需求。

图35:阿里云MaaS产品及DaaS产品架构

资料来源:阿里云开发社区,山西证券研究所

资料来源:阿里云开发社区,山西证券研究所

资料来源:阿里云开发社区,山西证券研究所

数据安全:数据分级分类保护、系统布局安全治理等将更加完善

数据安全是为保障数据持续处于有效保护、合法利用、有序流动状态提供技术、产品和服务的新兴业态。数据安全相关的议题在我国已经被提到了非常重要的高度。2021年9月,《中华人民共和国数据安全法》正式颁布,在“数据二十条”、《关于加快公共数据资源开发利用的意见》等重要文件中也均提及数据安全问题。 

根据《IDC's Worldwide Security Spending Guide》的预测,到2027年,中国数据安全市场的投资规模预计将达到30.3亿美元,约合203.8亿元人民币。而根据工信部等十六部门发布的《关于促进数据安全产业发展的指导意见》的目标指引,到2025年我国数据安全产业规模超过1500亿元,年复合增长率超过30%。两者预测存在较大差距的原因可能在于统计口径不同,后者或将网络安全市场进行了合并口径。而根据《IDC's Worldwide Security Spending Guide》的预测,中国网络安全市场规模从2022年的123.5亿快速增长至2027年的233.2亿美元,期间年复合增长率为13.5%,高于全球平均水平。

图36:全球及中国数据安全市场规模预测

资料来源:IDC中国,山西证券研究所

资料来源:IDC中国,山西证券研究所

图37:中国网络安全市场规模预测

资料来源:IDC中国,山西证券研究所

资料来源:IDC中国,山西证券研究所

从产业链来看,数据安全产业链上游为基础软硬件的供应商,包括服务器制造商、存储设备生产商、网络设备提供商、操作系统开发者、存储芯片制造商等,为数据安全提供软硬件方面的基础保障。中游为数据安全产品与服务的供应商,根据数据安全推进计划《2023年数据安全行业调研报告》,中游供应商所提供的各类数据安全产品应用贯穿数据的全生命周期,从产品分布上来看数据分类分级、数据资产识别、数据脱敏等产品占比较多;在服务分布上,重点聚焦在协助需求侧企业开展数据分类分级与数据安全评估,以及帮助企业提升数据安全合规遵循能力的合规咨询服务上。

图38:数据安全供应侧数据安全产品分布

资料来源:数据安全推进计划,山西证券研究所

资料来源:数据安全推进计划,山西证券研究所

图39:数据安全供应侧数据安全服务分布

资料来源:数据安全推进计划,山西证券研究所

资料来源:数据安全推进计划,山西证券研究所

数据安全产业链下游包括系统集成商、场景服务供应商以及最终的用户群体,其中最终用户涵盖企业、政府、机构等。根据数据安全推进计划统计,政务、金融、通信、互联网等重点行业对数据安全服务和产品的需求较高。

图40:数据安全供应侧厂商提供服务行业分布

资料来源:数据安全推进计划,山西证券研究所

资料来源:数据安全推进计划,山西证券研究所

数据安全的关键技术包括数据识别和分类分级技术、数据安全策略管理技术、数据安全风险审计技术、隐私计算技术等,其中隐私计算技术是面向数据共享、流通和交易过程的,在不对外泄露的前提下,实现模型、结果等内容的共享,实现数据的安全共享使用,目前可分为以密码学为基础的多方安全计算技术、以分布式机器学习为基础的联邦学习技术、依托于硬件加密的可信执行环境技术。[7]

我们认为,未来数据安全产业或将有两方面重点发展方向,一是针对不同行业和应用的数据分级分类制度及标准体系将更加完善。数据分类分级保护被认为是数据安全保护最有效的措施,《数据安全法》及公共数据、企业数据、数据产业相关政策中均强调要建立和贯彻数据分类分级保护制度,而数据所属行业或应用场景不同,分类分级的方法和路径可能也存在差异,目前,在国家顶层设计的指引下,国内包括通信、金融、医疗、政务、能源等行业已开展数据分类分级标准指南的建设,未来有望在更多行业及数字化应用场景中不断拓展和完善。二是系统布局面向数据收集、存储、加工、传输、交易等环节的数据安全治理。面对海量且分散的各类数据资源,传统的数据安全产品多为离散地分布于各个安全设备之中,无法形成统一的管理体系,也难以保障流通中的数据处于保护和合法利用状态。基于隐私计算、区块链、数据空间等数据可信安全流通技术,在数据大规模、快速率、高通量流通过程中实施全局性的数据安全策略管理,保障数据生命周期各环节可信安全。

【地方发展数据产业建议】

聚焦服务实体经济,立足本地产业特色发展数据产业

立足于本地的产业特色,赋能转型升级,结合产业结构、转型需求、经济社会发展需要,与实体经济相结合才能恢复数据产业的最大价值。

我省煤炭资源丰富,能源产业基础雄厚,围绕能源革命综合改革试点的深入推动,可建立能源产业相关的垂直领域数据产业体系。例如,依托智能煤矿的建设,可形成丰富的煤炭生产数据资源,为数据产业发展奠定基础;统筹各煤炭企业所建立的覆盖煤炭生产、洗选、发运等全流程信息采集平台,整合产业链各环节数据,进行相关数据分析应用产品的开发;对煤炭、电力、新能源产业数据进行梳理,开展能源大数据分析,形成数据服务和解决方案,不仅能为能源规划、调度、交易等提供决策支持,还能依托山西数据交易中心开设能源、电力数据专区,打通数据流通渠道,拓展能源产业之外的应用场景;以山西煤炭工业互联网平台为依托,构建高质量的煤炭能源数据集,服务于人工智能大模型的算法训练,推动煤炭开采等领域的垂直大模型的开发。

我省文旅资源富集且产业发展势头强劲,围绕文旅产业的数字化转型,可与数据产业发展形成双向推动。例如,对省内景区、文博等旅游资源进行数字化的开发,不仅能够为游客提供沉浸式、丰富体验,还能够为数据技术和应用提供相关的服务场景;以山西文旅云平台为依托,将景区运营数据、游客数据等与交通、气象等公共数据相融合进行数据分析、产品开发,为政府部门进行旅游资源规划和管理提供决策依据,还能够帮助景区、酒店等旅游企业进行精准的市场定位和产品定价,实现数据的价值最大化。

充分发挥比较优势,以线带面推动产业链延伸

地方布局和发展数据产业时,首先应当结合本地在数据资源、数据技术、数据流通交易、数据应用等方面的资源禀赋和优势,可以避免出现资源与产业的差配和错配。

山西省在网络、算力等数据基础设施建设上已经形成发展优势。5G基站、标准机架分别达到10.8万个、101.2万架,均为全国领先水平,秦淮数据、中联、京东、抖音集团、华为等互联网头部公司等数据基础设施企业在省内部署数据中心,算力规模和服务能力提升的同时吸引更多数据处理、人工智能企业落户省内,鼓励企业和科研机构在智能制造、智慧城市、医疗健康等领域开展算力应用创新,打造一批算力应用示范项目,推动数据产业与其他产业的融合发展,形成围绕算力资源的数据产业集聚。

山西在数据基础服务方面产业集聚效应逐已渐显现。通过引入百度智能云、京东、字节跳动、科大讯飞等头部企业,在太原、大同、临汾等地形成了以头部企业为龙头、吸引和培育其他优质数据标注企业迁入、并带动本地中小微企业快速成长的数据服务产业集群。我们认为以引导人工智能产业头部企业落地—建设自有标准工厂—向数据生产类企业提供订单、带动产业企业共同发展的模式已经跑通,未来可在省内其他地区进行复制,带动产业向各地市纵深发展。此外,以大同市作为全国数据标注试点基地为发展契机,为数据标注领域的上市企业、独角兽企业将总部、财务结算中心、运营中心、研发及共享服务中心等落地我省实施政策便利。最后,我省算力产业与数据产业可以协同发展,例如数据标注公司可将其平台中心节点或区域节点部署在有算力中心的城市,并以算力为支撑,向数据采集、数据处理、数据存储、数据分析等各个环节延伸,为全国的企业和机构提供数据处理服务,形成算力+数据的产业生态。

服务国家区域发展战略,融入京津冀等地区协同发展

根据国家数据局的政策解读,发展数据产业是坚持“全国一盘棋”体系化布局;并推动京津冀、长三角、粤港澳大湾区、成渝经济圈等地区数据产业一体化发展。

山西省地处中部,围绕和服务于国家重大区域发展战略,可积极发挥衔接桥梁作用,加强与东西部地区协同联动。首先,积极融入京津冀协同化发展,可对接北京人工智能、大数据企业基础数据服务需求订单,推动人力密集型产业转移,并以此带动数据、算力、算法相关产业产业链环节向我省延伸。其次,与内蒙、宁夏等西部算力枢纽节点联动,例如成立跨区域的算力产业协会或联盟,促进信息共享、资源调度、合作对接、人才交流等。最后,与中部省份建立数据要素流通合作机制,加速数据汇聚、流动,可与目前江西省、湖北省、湖南省中部三省建立的数据领域省际合作机制进行对接,共同推进数据流通利用基础设施建设先行先试。

【风险提示】

数字技术发展进度不及预期、数据要素市场发展不及预期、政策落地进展不及预期等。

【参考文献】

[1] 交大评论公众号:《数据产业全景—关键指标分析与趋势洞察》

[2] 阿里研究院:《大模型训练数据白皮书》

[3] 中国算力大会:《中国存力发展报告(2024年)》

[4] 交大评论公众号:《突破数据关键技术 夯实数据产业基础(下篇)》

[5] 国家工业信息安全发展研究中心、北京大学光华管理学院、苏州工业园区管理委员会、上海数据交易:《中国数据要素市场发展报告(2021-2022》

[6] 交大评论公众号:《强化供给 深挖需求 以实际场景驱动数据产业高质量发展》

[7] 

刘曼齐.有关大数据平台的数据安全技术能力体系建设[J].数字技术与应用,2022,40(4):223-225;雷蕾.数据安全现状与发展趋势研究[J].信息通信技术与政策策,2022,48(10):69-74.

报告标题:数据产业框架报告:顶层战略擘画,产业蓄势待发

分析师:徐雪洁

执业登记编码:S0760516010001

邮箱:xuxuejie@sxzq.com

分析师:王文杰

执业登记编码:S0760523100001

邮箱:wangwenjie@sxzq.com

报告发布日期:2025年1月27日

本人已在中国证券业协会登记为证券分析师,本人承诺,以勤勉的职业态度,独立、客观地出具本报告。本人对证券研究报告的内容和观点负责,保证信息来源合法合规,研究方法专业审慎,分析结论具有合理依据。本报告清晰准确地反映本人的研究观点。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点直接或间接受到任何形式的补偿。本人承诺不利用自己的身份、地位或执业过程中所掌握的信息为自己或他人谋取私利。

(转自:山证绿色产业研究)

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。