医疗数据治理:几个概念(上)
医疗数据治理领域中,有一些概念、术语往往只有“一字之差”,如果对其概念不理解或没理解透彻就容易混淆导致滥用。特此整理了常常让人感觉云里雾里的基础概念、专业术语做详细说明。
01 数据治理、数据管理、数据管控
数据治理、数据管理、数据管控这三个术语在一定程度上的确是有所重叠的,容易混为一谈,所以就造成了在实际使用中,经常将这三个词语“混着用”“随机用”的现象。如果要用一个模型来描述这三个名词,那应该是一个“金字塔”模型。
最顶层的应该是数据治理。与“治理”相关,我们还会经常看到、听到国家治理、公司治理的概念,从某种意义上讲,治理是一种自顶向下的策略或活动。如果我们将国家治理说成国家管理,把公司治理说成公司管控是不是有点怪怪的?
数据治理应该是顶层设计、战略规划方面的内容,是数据管理活动的总纲和指导,指明数据管理过程中哪些决策要被制定,以及由“谁”来负责,更强调组织模式、职责分工和标准规范。
数据管理是实现数据治理提出的策略并给予反馈,强调管理流程和制度,涵盖不同的管理领域,诸如,元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据服务管理等。
数据管控更多的是执行层面,是具体如何落地执行所涉及的各种措施,例如,数据建模、数据抽取、数据处理、数据加工、数据分析等,数据管控是确保数据被管理和监控,从而让数据得到更好地利用。
因此,数据治理强调顶层策略,数据管理侧重于流程和机制,数据管控是具体的措施和手段,三者应该是相辅相成的。
02 元数据、数据元、数据源、源数据
元数据、数据元、数据源、源数据,这四个术语意思毫不相干却都带着一个“yuan”字,让很多人抓狂。
先说数据元,数据元由对象、特性、表示三部分组成,是组成实体数据的最小单元,或称原子数据、数据元素。
元数据(MateData),官方定义是描述其他数据的数据,让数据更容易理解、查找、管理和使用。从分类上,元数据分为业务元数据、技术元数据、管理元数据。业务元数据指数据的定义、业务规则、质量规则等;技术元数据指数据表、字段长度,字段编码、字段类型等;管理元数据指数据的存储位置、管理人员、更新时间、更新频率等。
元数据是业界公认的数据管理中的基础,元数据管理提供的功能诸如数据地图、血缘分析、影响分析、全链路分析、热度分析等,让用户更容易的对数据进行检索、定位、管理、评估。用哲学的思维理解元数据的话,元数据其实解决的是“我是谁,我在哪里,我从哪里来,我要到哪里去”的问题。
数据是物料,而元数据是仓库里的物料卡片
数据是文件夹,而元数据是夹子上的标签
数据是书,元数据是图书馆中的图书卡
数据源(Data Source),顾名思义就是数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,可以找到相应的数据库连接。
10年前我们讲数据源,更多的是说一种数据连接的技术,比如,JDBC、ODBC,或者是指数据库的类型,比如,结构化数据库、非结构化数据库。而大数据时代,数据呈多样化发展,数据来源的多样化是时代的一个特征。我们现在提到的数据源,除了上述的含义之外,还涉及到图数据源、时序数据源、键值数据源、内存数据源、文档数据源等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。
源数据(Source Data),这个词与数据源只是词语换了一个顺序,但是代表的含义却是大相径庭。数据源本质是讲存储或处理数据的媒介,而源数据本质是在讲“数据”本身,强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。
“问渠那得清如许?为有源头活水来。”数据治理的核心还是要从数据源抓起,以确保源数据的标准、准确、完整、真实。
03 主数据、基础数据、静态数据
主数据是医疗机构中需要在多个部门或系统之间共享、核心、高价值且相对静态的数据。主数据是信息系统建设和大数据分析的基础,被认为是医疗数字化转型的基石。主数据具有高价值性、高共享性、相对稳定性三大特征,和超越业务、超越部门、超越系统、超越技术四个重点。
常常会有人对基础数据和主数据概念混淆。基础数据是信息系统运行的基础,用来支撑信息系统运行的各种数据和参数,以及业务交易所依赖的基础信息。而主数据是被多个系统共享的基础数据。因此,主数据可以是基础数据的一部分,但基础数据绝对不等于主数据。
静态数据经常与基础数据“随机用”。静态数据是指在运行过程中主要作为控制或参考用的数据,它们在很长的一段时间内不会变化,即一般不随运行而变。而动态数据是常常变化、直接反映事务过程的数据。因此,将静态数据作为基础数据,将动态数据作为业务数据(交易数据)是没有问题的,只要使用的人之间达成共同的认知即可。
04 数据标准、数据规范
在信通院发布的《2019数据标准管理实践白皮书》中对数据标准给出了如下定义:“数据标准(Data Standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束”。这么讲,可能比较难以理解。
提到数据标准、数据规范可能会想到疾病分类与代码标准、统一病案首页的书写规范等,可以看出数据标准是注重结果,而数据规范是定义过程。数据标准是明确的数据分类、确定的存储格式和既定规则的转换、编码等。数据标准侧重于强调对数据本身的标准化,诸如,数据的定义、结构、存储等,注重的是结果。而数据规范是指在操作层面采取的措施、循序的规则和执行的流程,侧重于强调流程和操作。
在实际工作中,我们经常会说建设“数据标准规范体系”,大多数人认为这是一个事情,但严格来讲,这是两件事:一是建设数据标准,二是要规范数据标准的落地流程以及流程所涉及到的人员、组织、权限等问题。
医疗数据治理是一项复杂而艰巨的工程,理清概念是第一步,逐步构建医疗大数据治理体系才能体现医疗大数据的价值。
来源:谈数据 ,作者石秀峰
-科技重塑医疗 赋能业务生态-
更多内容请查看www.gih.cn,关注“高灵智腾”公众号