l  版本:v1.0.20250123。

l  编者:荣科技术专家库数据要素小组。

l  面向读者:集团(含子公司)内部。

l  目的:普及数据要素基础知识。

l  备注:如发现有错误,请随时联系编者进行订正,谢谢。

目录

一、基本术语... 1

数字化和信息化... 1

数据要素... 1

数据分类分级... 2

数据管理能力成熟度模型(DCMM)... 2

二、业务术语... 3

数据确权... 3

数据产品... 3

数据要素价格形成机制... 3

数据要素跨境流通... 4

三、技术术语... 4

数据架构... 4

数据平台和数据中台... 5

数据治理... 5

数据隐私与数据安全... 6

一、基本术语

数字化和信息化

数字化,是相对于上世纪的电子化、本世纪初的信息化来说,一个新的技术发展阶段。

其特点是利用数据作为主要生产要素,智能化算法作为主要生产力,来构建新的生产关系。

由于最终会推动组织变革和社会进步,所以叫做数字化转型。

比如传统的出租车公司,要建设人事管理、财务管理、车辆管理系统,来支撑现有业务形态的效率提升,都属于信息化的范畴。

而现在的网约车平台公司,利用大数据和算法,来打造新的业务形态,就属于数字化的范畴。

数据要素

经济学领域,生产经营活动所需的社会资源被称为生产要素,如土地、劳动力、资本和技术。

数据要素,是当今数字化时代的一种核心生产要素,也是信息化时代的数据积累到一定规模、数据处理技术成熟到一定程度后,从量变到质变的产物。

数据要素,具有资源和资产双重属性:(1数据资源通常指可被利用的原始数据及其衍生物;

2)原始数据经过加工后,能够为组织带来经济效益,就成为数据资产,可纳入财务报表。

数据要素,突破了传统生产要素(如土地、劳动力、资本和技术)有限供给的制约,具有价值共享(复制成本低)、即时传输(渗透协同效应强)和无限供给(价值发掘潜力大)的特点,可以跟其他各种生产要素相结合,发挥出“复用增效、融合创新、全局优化”的乘数效应

所以,相对于“互联网+某某行业”、“AI+某某行业”,我们说“数据要素X某某行业”。

数据分类分级

通过数据加工和分析,可以总结规律、预测未来,甚至催生未知的新生产力。

因此需要对数据进行妥善治理,让数据更好服务社会,提升利用效率,并避免被用来作恶。

数据分类分级是开展数据治理的基础,可以根据不同的治理需要,构建不同分类分级体系。

比如,按照数据来源的社会部门,可分为公共数据、企业数据和个人数据。

1)公共数据,指政府及公共机构在履职过程中产生和收集的数据。这些数据由政府管理,主要用于提升政府决策、促进经济社会发展。

2)企业数据,指企业生产经营过程中产生和收集的数据。这些数据由企业管理,用于企业运营决策、产品创新、市场竞争力提升。

3)个人数据,指个人生产生活中形成的经验、知识、人脉等数据,以及个人同意前提下的个人信息。主要用于保障和推动个人的生存、发展。

数据管理能力成熟度模型(DCMM)

DCMMData management Capability Maturity Model)是我国在数据管理领域的首个国家标准,也是企事业单位数据管理能力的一种资质认证。企事业单位通过贯彻DCMM标准,可以建立与自身发展战略相匹配的数据管理能力体系,提升在数字化时代的竞争力。

1)作为一个标准,它覆盖了数据管理的整个生命周期,整体架构详见下图。相比国际上类似的标准,它更加强调数据战略的牵引、数据治理和数据应用的落地。

2)作为一个认证,由国家工信部主导、第三机构评估,它可以授予甲方,比如数据持有单位,也可以授予乙方,比如数据服务商。

二、业务术语

数据确权

数据确权,是从法律制度层面明确数据要素相关权利主体和权利内容,是数据流通的基础。

目前,我国已基本确立持有权、使用权、经营权“三权分置”的数据产权制度,但许多地区和行业仍在试点探索之中,通常由大数据管理局或数据交易所提供确权服务。

比如,患者就诊数据属于个人数据,医院拥有该数据的持有权。医院委托数据服务商将某种疾病患者的原始数据加工成产品,被授权的数据服务商在受托期间,有这部分数据资源的使用权。医院可直接经营或授权第三方经营该数据产品,医院或被授权方具有该数据产品的经营权。某医药公司购买了该数据产品,交易完成后,某医药公司拥有该数据产品的使用权

上述权利产生和转移的过程,需要依靠数据隐私和安全相关技术,保障符合《中华人民共和国个人信息保护法》(个保法)、《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》(数据二十条),尤其是“原始数据不出域、数据可用不可见”的要求,才能实现数据“供得出、流得动、用的好”。

数据产品

狭义的数据产品,是指经加工的数据集合或数据资源衍生品,通常称为数据资源类产品。

广义的数据产品,既包括数据资源类产品,也包括数据相关的工具和技术服务。

数据资源类产品可以分为以下几种类型:

1)数据集产品:经采集、收集后,经汇总、整理及加工后的数据资源集合,如企业年度零售的产品销售记录数据集、经脱敏处理后的区域流动人员手机信令数据集等。

2)数据展现产品:利用数据资源以图、表等特定方式展示结果的产品,如依托地理信息数据展现的数字地图、依托气象卫星数据展现的台风云图等。

3)数据分析产品:利用数据资源按特定方法分析得到的结果产品,如利用企业销售记录数据分析编制的产品市场趋势报告、利用行业经营数据分析得到的行业发展指数等。

4)数据应用产品:指依托数据资源本身或经数据训练的人工智能提供查询、判读等各种在线服务的产品,如企业信用信息公示查询服务、体检报告解读服务等。

数据要素价格形成机制

理想情况下,价格由市场决定。但目前数据要素市场尚待培育,由国家数据局统筹推进和各地数据交易所的积极试点,数据要素价格形成机制仍在理论研究和实践探索之中。

在此背景下,下面对几种可能性进行讨论:

1)价值增加分成定价:在既定的生产投入约束集合中,用数据要素赋能生产得到的产品价值和传统生产方式得到的产品价值之间的差值,即为价值增加值,乙方从中分成,如医疗费控。

2)服务成本加成定价:参考软件定制开发服务,基于双方约定的工作量,在乙方成本基础上按行业常规利润加成,如临床研究。

3)行政定价:参考行政管理或资源补偿类公共服务收费标准,对在官方数据交易平台上流通的公共数据资源类产品进行定价,如低空飞行环境和气象信息。

数据要素跨境流通

数据跨境流通,是指数据跨越了不同国家或地区进行流动或交易,其特点是跨越司法管辖区。目前,美国、欧盟、东盟等都在推动各自国内法层面数据跨境制度建设,意图抢占全球数据跨境规则的制定权和话语权。

我国网信办20243月发布《促进和规范数据跨境流动的规定》,进一步细化了企业数据出境的业务合规标准和操作规范。在此规定指引下,全国首个数据合规出境案例为,首都医科大学附属北京友谊医院与荷兰阿姆斯特丹大学医学中心合作研究项目。

三、技术术语

数据架构

数据架构是某个系统组织和管理数据方式的总体设计,它从数据视角给出系统的设计蓝图。

数据架构设计的目标,是支撑特定的、通常是数据密集型的业务需求,比如数据服务交付、数据产品开发、数据治理实施等。

数据架构设计的重点,是通过系统性的设计规范、模式和工具,为特定业务需求的具体实现,提供特定质量属性保障,比如数据有效性、性能、安全性、易交付性和可解释性等。

数据架构模式的演化,经历了关系数据库、数据仓库、分布式与非关系型数据库、数据湖等阶段,实战中可根据项目需要,参考使用或综合使用不同的模式。

1)关系数据库,支撑日常业务管理的结构化数据处理,又称OLTP,比如订单管理系统。

(备注:OLTPOnline Transaction Process,在线事务处理)

2)数据仓库,支撑企业级决策分析的结构化数据,又称OLAP,比如经营分析系统。

(备注:OLAPOnline Analysis Process,在线分析处理)

3)分布式与非关系型数据库,支撑互联网级非结构化数据处理,比如搜索引擎系统。

(备注:同时期还发展出面向物联网的实时数据库和流式数据处理架构)

4)数据湖,支撑结构化和非结构化融合的多种数据存储,比如数据资源中台。

(备注:后期还发展出数据仓库和数据湖优势互补的湖仓一体架构)

数据平台和数据中台

平台和中台的相同点是,都强调资源和能力的封装和复用,以提升业务效率和应变能力。

不同点是,平台侧重数据供需双方或多方的对接,中台主要侧重对数据需方的支撑。

比如,一个柔性制造企业的生产系统,要打通各条线的业务系统,实现数据互联互通、流程灵活编制,快速定制一个新的生产线,就可以依靠数据平台或集成平台。

要求数据平台基于数据处理模块设计,具备接口适配、格式抓换、合并拆分、路由分发等现成的可复用数据服务能力,而且要跟业务弱耦合,以应对不同业务系统的扩展。

比如,一个平战结合的区域医疗卫生系统,要支撑各种前端应用的快速开发,快速实现终端用户需求,快速定制一个新发传染病的防控APP,就可以依赖数据中台或业务中台。

要求数据中台基于数据资源目录设计,具备居民健康档案(服务对象中心)、医护员工档案(服务提供者中心)、医疗卫生机构(服务机构中心)等现成的数据资源,这些数据已提前做好融合(ID号关联),可直接使用,也就说包含了可复用的基础业务模型,从而实现APP快速开发。

数据治理

数据的产生、流通、加工和使用,通常涉及多元主体共同参与、协同合作,在行业或大型组织内部,形成一个复杂的数据生态体系。这种体系难以用管理思路,而是用治理思路进行控制。

1)管理思路是围绕既定目标,通过资源配置和利用,追求效率和秩序,侧重内部控制。

2)治理思路是围绕公共目标,通过主体间协商和共识,通过权力的分散和协调,追求公平和可持续,既有内部控制、也有外部调控。

数据治理,就是对这个数据生态体系的控制过程,在业务和技术语境下有不同的含义。

1)业务语境下,数据治理是对数据进行处置、格式化和规范化的过程,涉及数据全生存周期管理,包括数据治理组织建设、制度建设和治理沟通。

2)技术语境下,数据治理包括“理、采、存、管、用”这五个实施步骤。

——数据梳理:比如建立数据资源目录,摸清数据有哪些,家底要清楚。

——数据采集:比如利用ETL工具,采集数据、去掉杂质,提升质量。

(备注:ETL,英文全称是抽取extract、转换transform、加载load

——数据存储:比如建立基础库、主题库、分析库,分类存放好查找。

——数据管理:比如通过元数据,定义和实施数据质量标准、数据访问权限等。

——(备注:元数据,就是描述数据信息的数据,比如分级分类信息、业务含义信息等)

——数据利用:比如产生分析报告、训练人工智能等,数据血缘是其中一个治理重点。

(备注:数据血缘,追踪从源头到终端应用的数据流转变换过程,确保最终结果可解释)

数据隐私与数据安全

数据隐私,侧重保护数据不被未经授权的第三方获取或滥用。

比如某个人健康状态在非诊疗必须场景下被收集,或就医数据泄露给第三方等。

数据安全,侧重保护数据的完整性、保密性和可用性,防止数据被泄露、篡改或破坏。

比如某个人银行账户信息被黑客窃取,某个企业生产数据库被非法修改或删除等。

广义地讲,数据隐私是数据安全的一部分。

狭义地讲,数据隐私关注需要保护哪些数据,数据安全关注如何保护这些数据。

常见技术实现包括:匿名化、去标识化、差分隐私、加密、数字指纹、权限认证、灾备等。