简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

时空数据治理:从业务增值到智能进化

2025-07-31 17:27

(来源:超图软件集团)

本文根据2025空间智能软件技术大会“数据治理与数据要素”专题会议,超图软件公共研发中心副总裁曾志明博士报告《时空数据治理体系建设实践与智能化初探》整理,有修订与增删。

数据治理是一个庞大的体系,从“第一性原理”出发——先想清楚:数据治理的本质,是为了“让数据为业务增值”。若脱离这个核心,治理投入容易沦为“无的放矢”,甚至半途而废。

围绕“让数据为业务增值”,我们可以通过9个关键问题,拆解时空数据治理的实践逻辑与智能化方向。

数据与业务的本质关系是什么?

如何定义 “真正为业务服务”?仅完成数据汇聚或规整是否足够?

数据的来源是什么?如何保持其鲜活度以避免使用过时数据?

为何需要针对“时空数据”开展治理?

为何必须关注数据的标准、质量与安全?忽视这些会导致什么问题?

是否需要“数据治理底座软件”?人工或硬编码方式能否满足需求?

AI大模型发展迅猛,能否在数据治理中发挥作用?

除数据与软件外,完整的数据治理体系还应包含哪些内容?

01

数据与业务的关系:

从“业务产生数据”到“数据反哺业务”

理解数据治理,需先厘清数据与业务的关系演变。最初的信息化建设聚焦“业务产生数据”——通过应用系统将纸质流程电子化,数据仅作为业务过程的记录存储于数据库,此阶段无需数据治理。

当信息化发展到多业务系统并行阶段,需通过数据融合与挖掘实现业务创新,此时必须打破数据孤岛、统一标准,数据治理的必要性随之凸显。数据与业务的关系从“业务产生数据”升级为“数据反哺业务”,这正是数据治理的起点。

02

“为业务服务”的核心:

以应用场景为牵引

数据治理若要真正“为业务服务”,关键在于找到具体的应用场景——脱离场景的治理,无论是数据传输、存储、计算还是人力投入,都将成为无价值的成本,最终难以为继。

场景挖掘需“双向奔赴”:既要基于现有数据探索潜在价值,也要从业务需求出发明确所需数据。例如:

办公楼电梯刷卡数据与调度系统联动,可自动匹配楼层,提升运行效率;

电商平台通过 “商铺响应速度” 等数据构建信用模型,实现小额贷款快速审批;

在土地资源有限的经济发达地区,整合批地、建设、产能等多源数据,可识别批而未供、供而未建、建后利用率等低效用地情况。

即便是1-2个初始场景,也能验证数据治理价值,为后续扩展奠定基础。数据治理没有终点,场景会随数据维度增加而持续迭代。

03

业务增值的3类具体举措

围绕 “为业务增值”,实践中可通过3类举措落地:

面向业务管理:构建业务实体

以管理需求为核心,通过业务建模定义关键实体。例如:

疫情防控中,“防疫小区”并非单纯的住宅小区,而需包含围墙、出入口等物理边界,兼顾商场、写字楼等场所;

同一“道路路段”,测绘关注连续性、导航关注路口规则、交警关注拥堵状况,其定义与管理需适配不同业务目标。

面向精细管理:开展指标计算

通过多维度建模构建统一数据仓库,明确颗粒度、设计事实表与维度表,实现指标分层汇总,支撑精细化决策。

例如,手机厂商需通过“渠道-地区-型号-时间”多维度计算销售增长率、占比等指标,优化经营策略。此举可统一指标口径,避免重复计算,降低大规模数据处理成本。

面向更多场景:开发行业算法

这一类更复杂,通常需开发算法实现特定能力。

例如,用天气预报的降水量结合地形、河道等,通过水动力模型算河流水位;电商商铺贷款额度也需计算综合得出。

这部分涉及算法和数据开发。行业算法方面,超图软件内置部分空间与非空间算子,支持拖拽编排;因不同领域算法差异大,还提供SQL和Java的算子扩展开发能力。

04

数据的核心问题:

来源、鲜活度与时空特性

说完数据服务业务,再看数据本身的三个问题:数据的来源及鲜活度保持、为何需要时空数据治理、为何要关注数据的标准、质量和安全。

数据来源与鲜活度

数据来源包括业务系统、公共数据、采购数据等,更新频率涵盖实时(如业务数据)与定期(如公开数据或采购的数据)。治理的关键是“保持数据鲜活度”——过时数据会导致场景应用失效(例如基于旧降水量数据预测水位)。需通过定时与实时汇聚机制,依托调度系统确保数据时效性。

时空数据治理的必要性

在自然资源、住建、水利等行业,时空数据本身就是业务核心(如地块、河道的空间属性)。若将时空数据与非空间数据割裂治理,会导致数据不一致,最终使业务场景失效。因此,必须实现“空间+非空间”数据的一体化治理。

此外,时空数据在类型、格式、质量规则、分析算法等方面具有特殊性,通用工具无法满足需求,需依托 GIS 领域的专业化治理平台。同时,平台需支持数据类型与格式扩展,以适配地质、气象等行业的特殊数据,实现全域数据治理。 

治理的基石:标准、质量与安全

为什么全域数据汇聚后,要关注标准、质量和安全?

数据标准:原始数据来自多系统、多渠道,天然存在形式差异,比如坐标系、数字字典不统一。为保证后续工作有效,必须统一到同一标准体系。

数据质量:数据服务业务,和AI一样存在“垃圾进,垃圾出”问题,必须从源头把控。与标准不同,质量问题虽在治理中发现,却需回归数据生产方解决。

数据安全:这是数据治理的基本要求。其它系统数据泄露影响有限,而数据治理汇聚了各方数据,一旦安全出问题,所有成果都会归零甚至成负分,因此绝不能出问题。

05

数据治理底座软件:

不可或缺的技术基石

前文展示了诸多数据治理软件截图,这类软件可能被称为“数据治理平台”“数据治理底座”“数据中台” 或 “数据资源平台” 等。那么,数据治理实施能否脱离这类软件,通过手工治理或硬编码实现? 

其实是可以的,但仅适用于以下场景:数据治理链路较少且简单,人工可管控;需求相对固定、变化不大;运行间隔长(如每三个月处理一次数据)。 

然而,当数据源增多、治理链路复杂,需求变化频繁(如新增指标或指标含义变更),或要求T+1(隔天产出新数据)时,手工或硬编码方式便难以应对。这如同开发小程序,三五个代码文件用记事本即可完成;但开发需多人协作数月、含上百个代码文件的软件,就必须借助集成开发环境(IDE)。 

数据治理底座软件的作用可用专门术语“DataOps”概括,其核心目标有5个:

剥离:将数据治理链路与底座系统开发分离;

专注:使数据工程师聚焦数据汇聚、建模等业务作业,大幅降低技术门槛; 

高效:新增数据加工链路数天至数周即可完成,远快于软件开发动辄数月的周期;

管理:数据加工链路可集中运维查看,便于业务方管理数据治理产出;

溯源:基于同一底座的链路可提供数据血缘,利于错误溯源及修改影响分析。

从功能截图可见:数据加工链路支持编排式实现,降低技术门槛;所有链路统一管理运维;数据治理全貌清晰可见;数据资产血缘关系可被提炼记录。 

再看数据治理底座软件的功能架构:底层为数据汇聚模块,其上是数据建模(含业务实体建模与维度建模),再上层是数据开发,右侧为数据的标准、质量和安全模块,另有数字资产管理体系。两侧则是统一的账号权限与运维监控管理。

06

AI大模型:

数据治理的辅助增效利器

数据治理本就庞杂繁琐,即便有底座软件协助,仍需投入大量时间精力。

近年来AI大模型发展迅猛,其本质是解放脑力劳动。一方面,可将大模型能力嵌入数据治理,辅助人工工作;另一方面,大模型所需的可靠高质量数据集和知识库,也需以完善的行业数据治理为基础。

数据治理涵盖理解与查找数据、数据建模、开发、安全等多个环节,大模型在这些环节中都能发挥重要作用。例如,利用大模型提炼元数据,可通过语义而非单纯文字匹配查找数据;还能通过自然语言生成SQL语句,方便业务人员直接查询数据;也可根据自然语言输入的任务要求,自动完成复杂算子编排。 

以算子智能编排为例:输入自然语言任务指令后,大模型会依据元数据确定需调用的数据,根据算子描述确定参与算子,再结合内部知识库明确算子的输入输出及上下游关系,进而自动完成编排。鉴于当前大模型存在幻觉和不可靠问题,会先展示编排结果,经用户确认后再运行。

07

数据治理体系的完整构成

除数据与技术外,治理体系还需涵盖组织保障与全流程管理:

一方面,开展数据治理的组织需从战略层面重视:这不仅是规整数据的技术工作,因与业务创新紧密相关,必须获得高层支持;组织文化上需达成共识,还得有实际承接工作的组织实体,否则易流于形式。

另一方面,实施时若为首次开展,最好先进行咨询培训、现状评估和顶层设计;除引入实施团队,业主单位必须深度参与(唯有业主能评判应用场景和业务价值),且应分阶段推进,逐步投入、见效。

运维上,数据治理与一般软件系统的显著区别是:需日常监控数据加工链路,确保持续产出合格数据成果。这不仅要保证软件功能正常,还因定期汇聚会刷新数据,支撑汇聚和计算的软硬件可能出问题,都需持续监控排查。

数据治理整体解决方案包括:首先是咨询与设计,关键在于理清现状、做好评估,设计战略和架构等;接着开展数据建模,依托数据治理平台实施治理;最后进行数据运维与监控,保障数据产品产出及资产运营等工作。

08

数据治理的长期主义

综上,数据治理体系实现“让数据为业务增值”可归结为9个核心问题:

业务产生数据,多维度数据融合反哺业务创新;

找到具体应用场景是数据为业务增值的关键;

增值举措包括实体建模支撑业务管理、维度建模实现指标计算、行业算法创新三类;

数据来源多样,需保持鲜活度;

需汇聚“空间+非空间”数据,实现全域一体化治理;

标准、质量和安全决定数据治理成败;

数据治理底座软件推动治理从“手工作坊”升级为“流水线作业”;

AI大模型作为“外脑”,多环节辅助数据治理;

数据治理体系涵盖前期咨询培训与后期运维,是一个完整体系。

数据治理是项长期工作,其价值在持续迭代中不断沉淀:对用户而言,治理成果的累积将支撑更多场景,从单一业务延伸至全域决策;对行业而言,标准化的数据模型与产品将成为共享资产,推动全行业效率提升。

而数据治理底座软件更需持续进化:全面支持数据编织,深化与 AI 大模型的协同,兼容更多数据类型与格式,并适配多元存储和计算引擎。

展望未来,随着数据要素价值的释放,数据治理将成为驱动业务创新与行业变革的核心力量。每一步扎实的积累,都在铺就更智能、更高效的发展之路。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。