模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发

现阶段我们国家从政府到企业都在进行数字化转型 , 数字化转型的核心是数据 , 对于有着开发实力和基础的大公司来讲 , 他们可以有着完备的数据处理体系和开发人员储备 , 可以高效的利用手中的资源对数据进行再加工 , 让数据成为企业的生产要素 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

我们知道 , “二八定律”作为一个经济学原理揭示了任何一组事物最重要的构成只占其中的一小部分 , 其余的大部分多数构成的很小比例在经济学上被称为“长尾效应” 。 企业也是一样 , 处于中长尾的企业想要数字化转型 , 数据技术、人才、资金的高门槛往往让他们望而却步 。 他们亟需大数据行业的领导者 , 能做出企业的通用模式 , 节约数字化成本 , 降低用数门槛 。 虽然企业不少选择将业务上云作为数字化的一个方向 , 但上云后产生的数据不管理、不加工、不分析 , 这让这些数据上云失去了意义 。
华为云基于华为 IT 流程数据治理方法论推出华为云大数据轻量级解决方案 , 配合华为云资产可以轻资源、轻开发、轻部署、轻运维的快速数据治理体系 , 全 Serverless 方案对中长尾企业来讲使用灵活 , 企业无需关注底层技术栈、云资源性能 , 可按需使用降低运营成本 。
华为云大数据相关服务提供数据全生命周期的一站式管理和开发 , 帮助中长尾企业大幅简化数据治理的流程 , 在这种轻模式的支持下 , 中长尾企业可以快速高效的应对大量数据的分析 , 降低用数门槛 , 加快企业数据变现 , 完成企业的数字化转型 。
接下来 , 我们就通过具体的实例来对华为云数据湖治理中心 DGC 进行全方位的认识和了解 , 透过华为理念下形成的轻量级通用解决方案探讨中长尾企业如何应对数据治理上的难题 。
华为云大数据轻量级解决方案介绍
针对中长尾企业的数据治理需求 , 华为云推出了大数据轻量级解决方案帮助企业进行高效的数据治理 。 我们都知道 Serverless 本质是将复杂留给自己 , 将便利提供给客户 , 加速用户的敏捷创新 , 这也是华为云大数据轻量级解决方案的核心思想 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

华为云这套轻量级的解决方案区别于企业自建自管自运营的模式 , 全 Serverless 方案对于企业来讲不需要额外考虑资源管理、部署、运维 , 云上模式让企业大大降低了用于硬件管理与扩容、跨 AZ 可靠调度、Bug 修复、软件安全、AI 引擎调优等问题 , 只需专注业务开发即可 , 业务的使用与运营更加灵活 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

华为云大数据轻量级解决方案作为一项通用的大数据治理解决方案为企业提供了丰富的拓展能力 , 支持对象存储、NoSQL、OLTP、OLAP 等数据库类型 , 支持跨云数据治理、自建数据中心数据治理 。 企业不需要变更自己的底层数据技术栈就能实现大数据的治理和分析 。
针对中长尾企业的数据治理场景 , 华为云 DGC、DLI、CDM、RDS 等服务提供轻量化、灵活的技术栈 , 通过将华为云服务串联 , 打造数据治理轻量化模式 。 涉及到以下核心服务:

  • CDM:高效、易用的数据迁移服务 , 支持批量和增量数据迁移 , 提供超过 40 种数据源到数据湖仓迁移能力;
  • DRS:基于事物日志(如 MySQL、Oracle)的数据库复制进行增量同步;
  • DGC:数据标准和数据模型的规范设计 , 可进行在线开发和编排调度 , 数据质量稽核等一站式数据管理;
  • DLI:完全兼容 Apache Spark、Apache Flink、Presto 生态 , 提供批、流、交互式一体的 Serverless 融合处理分析 , 完全兼容 SQL 语法 , 开发难度低;
  • BI:通过华为云 DLV 数据可视化服务或专业 BI 软件实现 2D 或 3D 数据展示 , 通过拖拉拽式布局 , 帮助企业快速进行大屏数据可视化呈现 。
对于企业来讲 , 华为云大数据轻量级解决方案通过一站式的大数据分析服务 , 实现了企业多端数据采集 , 并在统一框架下进行数据采集、分析、归纳 。
通过全栈式技术能力 , 依托 DLI 数据湖探索服务以及配套的数据同步方案 , 可以满足企业海量数据分析的需求 , 完成快速数据分析 , 释放数据的价值 。
由于 DGC 提供高度可视化的 ETL 任务开发、管理、调度的能力 , 同时 DLI 等数据服务支持通用 SQL 语法 , 这些对于企业来讲可以的大幅的降低开发过程中的门槛 , 实现简单易用、灵活高效的数据开发模式 。 另外通过专业的 BI 厂商 , 可以很好的满足企业对可视化 BI 工具的需求 , 数据生产到最后直观的可视化呈现 , 为运营分析降低门槛 。
这 DGC 提供一站式的数据全生命周期的运营管理 , 配合华为云其他大数据产品 , DGC 作为华为云轻量级大数据解决方案的核心 , 它可对接多种数据湖引擎 , 帮助进行统一开发 , 并提供统一的数据资产管理 。 方便企业进行全链路数据治理管控 。 数据运营全场景可视 , 统一调度和运维带来全方位的安全保障 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

开发人员无需复杂配置就可以完成对数据的导入 , DGC 提供数据管理、数据集成、脚本开发、作业开发、作业调度、运维监控、全场景可视化等功能 。 方便企业不同部门的打破相互隔离 , 以此建设统一的数据平台 , 统一技术规范、数据标准和访问接口 。
DGC 提供丰富的大数据平台组件 , 方便多种数据和分析需求 , 降低数据治理的人工工作量 , 以此提升数据管理效率 。 DGC 提供一套完整的数据治理方法论落地 , 通过这套方法论实现业务上下游数据的快速传递和共享 , 以此指导实际业务的运作 。 通过数据质量持续为企业提供预警 , 以此减少纠错成本 , 降低运营风险 , 提升服务质量 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

在分析处理上 , DLI 数据探索服务则成为华为云轻量级大数据治理方案的重要组成 。 这套方案中 , 通过 DLI 等基础云服务实现数据探查、数据监控、数据标准化 , 形成有指导意义的集市层数据 。 DLI 它支持结构化和无结构化的数据处理 , 并支持丰富的编程语言接口 , 同时成本也非常低 。 DLI 完全兼容 Apache Spark、Apache Flink、HetuEngine(基于 Presto) 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

DLI 采用批流交互式一体架构 , 兼容标准 JDBC 协议 , 可以直接对接第三方 BI 软件 , 完成一站式大数据分析、用数的闭环场景 。
由于 DLI 兼容标准的 SQL 语法且均基于 Serverless 进行分析计算服务 , 因此用户无需关心底层的计算架构 , 只需要通过连接服务即可进行数据分析 , 大大降低了开发的难度和门槛 。 DLI 还支持免搬迁全域数据联合查询 , 过滤条件支持只能下压到数据源 , 减少传输数据量 。 由于 DLI 支持 Kubernetes , 因此 DLI 还支持资源按需分配 , 自动弹性伸缩 。
接下来我们进入实例场景 , 通过对门店坪效的全流程设计来了解华为云大数据轻量级解决方案的各项服务能力 , 并快速的进行业务指标的模拟输出 。
华为云大数据轻量级解决方案坪效实例场景体验
坪效作为零售行业的典型指标 , 是这次实例场景所要计算的一个指标 , 这样的数据分析模型是华为云大数据轻量化解决方案主要的运用场景 , 在进行坪效实例场景的演示操作前 , 我们首先了解下什么是坪效 。 坪效是衡量一个地区或门店某一时间段单位面积产出情况 , 即每坪经营面积可以产出多少营业额 。 坪效计算公式如下:
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

坪效越高 , 店铺整体的经营效率也就越高 , 一般计算都以年为周期 。 华为云大数据轻量级解决方案的指导及下 , 我们以过去一年门店坪效指标和地区坪效指标作为目标 , 进行项目的设计和规划 , 其中涉及华为云大数据及其他云服务 , 包括 VPS、OBS、RDS、CDM、DGC、DLI、DLV 等 。
零售业店铺在获取到坪效数据后 , 可以针对性的对门店业务、门店规模、人员结构进行调整 。 这一案例中涉及到 DGC 开发的数据集成、规范设计、数据开发、数据质量、数据资产、数据服务模块以及华为云大数据其他关联服务工具 。
通过这些模块的体验 , 我们得以实现对华为云大数据轻量级解决方案的全面了解 , 对中长尾的大数据治理进行整体的设计、开发、分析、运营 , 在这种轻模式下 , 企业可以对数据进行敏捷开发 。
轻资产:按需使用 , 无需担心底层技术栈及安全问题
在对于中长尾企业而言轻量化的资产管理体系可以省去大量云服务建设成本 , 华为云大数据轻量级解决方案绝大部分资源都建设在云上 , 对企业而言 , 可按需购买 , 购买即用 , 不需要额外关注底层的硬件性能和技术实现 , 并且不需要考虑相关工具软件的迭代和安全问题 。
这里我们通过华为云 CDM 云数据迁移服务 , 集成 RDS MySQL 数据库模拟数据元门店系统及订单系统数据 , 利用华为云 DLI 数据湖探索服务的计算能力实现数据清理、指标计算和汇总 , 并最终使用华为云 RDS MySQL 作为集市层数据展现 , 最终通过 DGC 作业开发将上述操作串联 , 形成完整的流水线 , 并通过 DGC 数据服务能力将数据 API 接口输出 , 以此将数据输出到 BI 报表分析工具或通过华为云 DLV 数据可视化服务对数据进行直观的屏幕输出 。 上述 CDM、RDS、OBS 等服务均支持按需购买 , 大幅降低企业的资产购置压力 。
其中 OBS 负责存储 DGC 的日志和脏数据;DLI 作为贴源层的存储和计算技术栈 , DLI 由于存储量大且价格便宜 , 并采用分布式计算模型 , 因此进行大量数据运算的时候速度较、支持高并发;通过 DLI 生成主题库和专题库后 , 将这些数据仓库存储在 RDS MySQL 数据库中 , 这一服务可以进行专业的 BI 分析;DGC 作为整个项目的数据运营技术栈 , 继承了数据集成、规范设计、数据开发、数据质量、数据资产、数据服务功能 , 也是华为云大数据轻量化解决方案的核心技术模块 , 作为数据湖运营平台 , DGC 提供了数据的全生命周期管理 , 在此案例中我们通过上述功能模块完成了一整条数据治理流水线的建设;在所以数据分析归纳后 , 再通过 DLV 数据可视化服务对指标进行结果展示 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

华为云大数据轻量级解决方案对于企业而言不需要变动其底层的数据源 , 这套方案在数据集成上已经有很好的支持 , 无论是华为云数据库、第三方云数据库还是企业自建数据中心 , 都支持数据迁移 。 这里我们通过 RDS 作为模拟数据源导入并最终汇总生成集市层数据 , 在进行配置前 , 我们首先要购买对应资源才能实现一整套的数据治理流程 , 具体需购买和提前创建的资源如下:
  • 创建 VPC、子网、安全组
  • 创建 OBS 桶 , 创建存储作业日志和脏数据目录
  • 购买 DGC 实例 , 并配置默认工作空间
  • 购买 CDM 集群 , 正式项目可考虑使用 ROMA
  • 购买 RDS 实例
  • 购买 DLI 队列实例
在购买完对应资源后 , 需对原始数据进行导入 , 即将数据 SQL 文件导入到 RDS MySQL 数据库中 , 这一操作只需进入 RDS 数据管理页面 , 上传脚本即可快速完成数据导入 。 数据源包含两张表 , 分别是门店表 (t_user_store_info) 和订单表(t_trade_order) 。
RDS MySQL 原始数据导入后 , 我们需要在 DLI 中建立相同的表结构进行贴源层数据导入 。 进入 DLI 库表管理新建一个 DLI 库 , 以此作为项目表存放 DLI 数据库 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

随后在 DLI 的 SQL 编辑器中将建表脚本导入建表 , 表结构和表名称最好与 RDS MySQL 中原表一致 。
数据导入后 , 在 OBS 服务中完成 DGC 日志数据和脏数据文件夹建立 , 以便后续 DGC 正常使用 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

接下来就需要对数据进行入湖处理 , 这里采用 DGC 的数据集成模块 , DGC 批量数据迁移 CDM 提供同构或异构数据元之间批量数据迁移服务 , 可以帮助企业实现数据的自由流动 , 支持关系型数据库、数据仓库、NoSQL、大数据云服务、对象存储等数据源 。
这些数据源涵盖华为云 DWS、华为云 DLI、FusionInsight LibrA、Hadoop、OBS、阿里云 OSS、FTP、SFTP、NAS、MySQL、HWSQL、PostgreSQL、SQL Server、DDM、Oracle、Db2、Redis、MongoDB、CSS、Apache Kafka 等 30 多种数据源 。
这些数据源可以作为源也可以作为迁移目的 , 租户可以按需付费 , 控制和租户之间是完全分离的 , 数据始终是在原始位置 , 后续的作业、对数据的操作都是与原始数据隔离 , 通过 CDM 可以更加安全的保护原始数据 。
之前我们导入的 RDS MySQL 云数据库服务作为源数据 , 另外一个则是数据湖探索 DLI 的连接 , 通过 CDM 服务我们快速生成 DLI 内贴源数据导入 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

这里 , CDM 提供自动化的字段映射 , 对于不同数据源数据类型不同这样的情况 , CDM 支持数据类型一键转换 。 在 CDM 迁移之前 , 我们已经提前将对应的表在 DLI 中建好 , 分别是 t_trade_order 和 t_user_store 。 这样 CDM 就可以进行快速匹配 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

通过 CDM 我们就快速实现了源数据导入贴源数据的数据迁移工作 , 由于原始数据可能存在不断生成的问题 , 这里 CDM 也提供周期作业以此对数据进行导入 。 接下里 , 我们再进行具体的业务场景设计和相关脚本的开发 。
轻开发:开发高度可视化 , SQL 脚本通用简单
华为云大数据轻量级解决方案最重要的特点是全流程的高度可视化 , 没有复杂的代码编写过程 , 对开发人员的技术要求不高 , 可以从业务层面需求出发进行系统化的建模 , 再通过建模实现对应开发脚本的生成 。 整个过程非常的快速高效 , 由于华为云大数据解决方案中的 DLI、DWS 等服务均支持标准 SQL 语句 , 因此各类脚本编写上难度不大 。 在本例中首先需要对业务进行建模 , 在形成对应的业务指标对贴源数据进行清洗加工并输出有实际指导意义的参数 。
华为云大数据轻量级解决方案将业务实体与实现细节紧密结合让需求方无需了解太多编程相关的细节 , 让开发方不必考虑业务实现的逻辑 。 通过这套解决方案的 DGC 规范设计模块就能初步实现各类业务的需求指标设计并对数据进行标准化 , 包含主题设计、数据标准设计、数据模型设计、数据指标设计 , 通过规范设计可以根据客户的业务需求 , 进行统一的数据分类、数据标准化、指标定义和数据模型体系建设 。
通过上述四个步骤 , 将业务数据化需求进行抽象化 , 就可以输出企业标准化数据中台设计 。 完成数据模型体系的建设 , 对于未来同行业的解决方案建设也有了参考价值 。 通过主题设计可以很快的完成信息架构的设计 , 针对不同类型的信息 , 还可以指定数据类型 。
在主题设计完成后 , 就可进行数据建模 。 首先根据之前的主题设计进行建模 , 这里提供关系建模和维度建模两种建模方式 , 关系建模符合 3NF , 主要是去除数据冗余 , 使数据标准化 , 当存在多个数据描述同一个情况时 , 需要使用关系建模进行合并 。 维度建模则采用数据结构化的方法进行建模 , 针对需求和指标对数据源进行维度、事实建模 , 相比于关系建模 , 维度建模紧紧围绕业务指标 , 非常直观显示出业务模型中的业务问题 。 维度建模包括维度、维度表、事实表、汇总表 。
维度表多为业务指标的环境信息 , 比如时间、空间信息等 , 这里我们建模对门店和地区维度进行建模 , 这就是典型的空间信息 。 维度表是用户用来分析数据的窗口 , 一个维度表可以对一组数据进行分类 , 且分组后的数据可以用来分析 。 我们以门店维度表为例 , 门店包括门店编码、店铺类型、营业状态、门店名称属性 。 我们如果要计算坪效指标 , 可以进行门店坪效指标的计算、某一类型门店坪效指标的计算、营业中门店坪考指标计算等 , 通过这些指标可以定义一组数据 。
事实表内容主要分为三类 , 分别是维度表外键、事实属性和度量属性 。 比如门店事实表包含地区外键、门店编码外键、经营面积、开业时间等信息 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

汇总表则可以对上述维度和事实进行归纳总结 , 得出相应的技术指标 , 我们以地区坪效指标的设计为例 。 可以看到对应属性和相关内容的汇总信息 , 地区坪效指标可以通过技术指标进行确定 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

DGC 将指标分为业务指标和技术指标两类 , 业务指标模块主要是以文字的形式定义某一指标 , 并以此为参考指导技术指标实现 , 我们以坪效为例 , 坪效位于进销存管理中 , 根据坪效的定义 , 坪效就是门店销售额与门店面积的比例 。 通过这一文字定义 , 我们来到技术指标中 , 完成坪效这一指标的技术定义 。 我们也可以对员工的销售额与绩效关系进行统一的界定 , 对于需求调研层面的人员来讲 , 这些只需要文字描述就可以快速完成各种指标和属性的确定 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

通过以上的需求建设和管理 , 需求方很快的就将自己的业务需求确定好 , 整个过程都是可视化的 , 接下里再进一步的对指标进行运算分析 , 最终形成有实际意义的指导数据 , 这里则通过技术指标完成对业务指标的具体实现 , 包含原子指标、衍生指标、复合指标 。 原子指标是最基础的算子 , 是纬度在模型中某一个属性或属性的简单运算 , 在坪效计算中 , 主要用于坪效计算的就是门店的经营面积以及实际门店产生的销售额 。 这两个指标构成了坪效计算的原子指标 。
【模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发】衍生指标则是对原子指标添加了一个纬度 , 对原子指标进行限定 , 使得这些原子指标更具参考价值 , 在坪效指标计算中 , 我们可以按照时间原子指标进行限定 , 从而衍生出新的指标 。 比如过去一年的某一地区的销售额、过去一年某一门店的销售额、过去一年某地区的经营见面等 , 这些衍生指标还可以进一步运算 , 得到复合指标 。
复合指标则是多个衍生指标的聚合 , 用于输出最终的汇总数据 , 比如某地区过去一年的坪效或某门店过去一年的坪效 。 到这里坪效指标的规范设计就已经完成了 , 实体定义与技术指标紧密结合 , 并且符合标准化的设计规则 。 在各种技术指标的计算中 , DGC 还提供一键式的 SQL 脚本 , 方便后续流程自动化的开发 , 帮助开发人员进行快速高效的编程脚本实现 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

在信息架构中 , 我们也可以通过 DGC 自动汇总的关系图了解到不同维度表、事实表、技术指标、汇总表的关系图谱 , 这里也方便运维人员快速定位问题 , 以此进行高效运维 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

如何高效的通过脚本和代码实现业务需求并实现一整条业务的流水开发 , 这对业务不熟悉的开发人员来讲往往是个非常大的难题 , 但华为云大数据轻量级解决方案提供了一整套高效的开发流程 , 在需求放完成相关业务定义和指标设定后 , 开发人员则可以对需求进一步实现 , 在低代码量的基础上完成业务需求 , 真正实现编程“轻模式” 。 这里通过 DGC 数据开发模块完成脚本开发、作业调度、运维监控等功能实现业务流水 , 它支持业务流自动化、BI 报表生产线、云上仓库建设、日志分析挖掘等工具 , 实现从数据接入、数据存储、数据分析和计算到业务应用全流程的一站式 IDE 平台服务 。 通过数据开发模块 , 可以帮助用户对入湖后的数据进行快速的加工、清洗 , 各种聚合运算 , 数据转换等 。 在作业开发页面 , DGC 也为开发人员提供了完整的开发流程介绍 。
DGC 的脚本开发支持在线的主流数据库脚本开发调试 , 支持 DWS 脚本、DLI 脚本、Hive 脚本等;另外数据开发模块还提供了强大的 ETL 算子 , 通过 ETL 算子可以在数据清洗转换的时候省去开发人员大量的 SQL 脚本开发 , 直接通过图形化配置快速实现大量的清洗整合工作;DGC 的数据开发模块还整合了主流的数据开发能力和所见即所得图形化 ETL 工具的能力 , 最终整合成拖拉拽式的批流结合全链路开发运维 , 数据管道在运行后可以实施进行监控 , 方便运维人员快速定位开发中所遇到的问题 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

数据开发模块下的脚本开发提供了 DWS、DLI、Hive、Spark、Flink、RDS、Shell、Python 等多种脚本开发 , 支持代码补全、语法高亮、错误提示、执行历史记录等功能 , 可以帮助开发者正确高效的编写 。 这里我们构建了多个脚本 , 完成贴源层和明细层数据的清洗 , 数据汇总 , 并最终导入到数据库中 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

轻部署:可视化流水线构建 , 快速定位问题
华为云大数据轻量化解决方案在业务部署上支持拖拉拽式的流水线业务部署 , 整个过程开发人员不需要进行专门的环境搭建 , 只需关注业务是否能完成即可 , 部署后 , 开发人员也可对业务运行过程中出现的问题层层分离 , 快速定位 。 业务在执行上支持单次调度和周期调度 , 调度如出现问题还可以进行实时通知 。 整个过程没有复杂的报警提示 , 并可生成运维日报 , 方便运维人员对整体业务有所把控 。
这里通过 DGC 的作业开发实现业务部署 , 它支持多种云服务任务混合编排 , 通过一系列节点构成一个有效的工作流 。 支持图形拖拉拽式的编辑作业页面 , 快速实现自动化流水部署 , 并验证作业是否存在问题 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

数据开发中的作业监控功能提供短信、邮件等提醒方式 , 方便开发人员第一时间了解作业运行过程中可能出现的异常状况 。
轻运维:数据实时监控 , 封装服务开放
针对各类指标的监控 , 华为云大数据轻量级解决方案为提供专业的数据质量监控 , 方便运维人员对数据的动态进行实时的监控 , 并也可根据实际业务情况设定对应监控指标 , 帮助企业产出更有价值的数据服务体系 。 同时企业也可将数据形成的集市层数据封装成服务 , 对外输出到 BI 软件或其他应用中 , 实现数据的最大化利用 。 对于运维人员来讲 , 无论是数据质量监控 , 还是大数据资产管理 , 抑或是数据服务的开放 , 这些完全都是在高度可视化的模式下进行 , 无需复杂代码即可完成数据产品的输出和监控 。
这里华为云大数据轻量级解决方案中的 DGC 数据质量模块可以将业务系统的指标和数据质量进行监控 , 可以根据业务指标校验规则对数据的完整性、有效性、及时性、一致性、准确性、唯一性这六个维度进行单列、跨列、跨行或者跨表分析 , 包括存在约束、非空约束、主键唯一性约束、实体唯一性约束、取值范围约束、长度约束、内容规范约束等 。 通过上述指标校验 , 我们可以对数据的质量进行评估 , 如果有些数据存在明显的质量问题 , 就可以向开发者发送邮件、短信进行告警 。 同时也可以对数据进行分析和统计 , 之后将数据推送到客户的相应部门 。 最终提升数据湖里整体数据的质量 。
DGC 数据质量模块提供业务指标监控和数据质量监控两种监控方式 , 我们可以根据之前设计的技术指标对指标进行业务指标监控 , 我们以之前的坪效指标为例 , 首先在指标管理中选择需要运算汇总的指标 , 并以此生成 SQL 脚本 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

然后我们就可以设定具体规则对指标进行监控 , 比如当全国平均坪效低于 20 万 , 就出发年平均坪效较低通知 。
在随后的业务场景管理中 , 我们就可以启动这一指标的业务指标监控 。
数据质量监控则可设定规则模版对数据质量进行校验 , 某人提供了多种数据校验模版方便运维人员快速对数据进行校验 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

数据质量监控的质量作业则可设定质量监控的内容 , 并对关联质量作业进行启停操作 。 启动后质量作业监控就会生成质量报告 , 以此帮助运维人员对整体数据进行监控 。
为了解各类数据资产的详细情况 , 华为云大数据轻量化解决方案提供一站式的数据资产归纳 , 业务资产、技术资产和指标资产三大部分 , 业务资产包含业务对象、逻辑实体、业务属性三大部分 , 技术资产则包含数据库、数据表和数据量 。
这里通过配置数据元 , 可以创建数据链接 , 实现数据集中管理 , 并提供自定义策略采集任务 , 以此实现形成资产目录 。 帮助企业一站式 , 完成数据报表整理 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

在数据目录下 , 企业可以看到所有的业务资产、技术资产和指标资产 , 业务资产是逻辑实体 , 通过逻辑实体我们定义多样化的数据 , 以此指导形成技术资产和指标资产 。
针对不同的技术资产 , 企业可以看到所有的表结构 , 同时血缘分析功能方便回溯数据源或作业 。
对数据清洗加工并分析生成的集市层数据后 , 这些数据就可以以服务的形式开放给第三方 , 华为云大数据轻量化解决方案可以从 DWS、DLI、RDS 等华为云数据库中获取数据 , 并通过鉴权等手段向第三方输出数据接口 , 无需复杂的代码编写 , 就可以通过 Serverless 的形式对数据产品进行开放 , 进而实现零编码的 API 生成能力 , 这种零编码的数据开放能力对于企业而言有着更加灵活的数据开放和管理能力 , 便于企业生成更加丰富的数据产品 。
华为云大数据轻量化解决方案中的 DGC 数据服务支持在线调试、一键发布 , 通过 Web 页面编排 , 可以快速发布基于 Serverless 的 API 发布 。 支持多种数据源对外发布 , 这项功能基于 Nginx 和容器化技术 , 实现单容器 50ms 内耗时和 200 次 / 秒的 API 逻辑解析和转发速度 , 另外数据服务还基于 WAF 行为全方位检测 , 可准确的进行恶意请求识别 , 过滤攻击流量 。 自动化监控和流量预警也方便开发人员快速了解对外输出接口的情况 。
开发人员可以对不同的 API 进行流量控制、使用时长、API 名称等信息 , 方便监控 API 调用状态 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

DGC 数据服务还提供 App 调试 , App 调试需要调用 SDK 进行访问 , 数据服务提供基于 Java、C#、Python、Go、Java、PHP、C++、C、Android 等多种主流语言的 SDK 包 。 一键下载 , 轻量化开发 。
通过实际的体验我们看到 , 华为云大数据轻量级解决方案的一系列服务 , 非常直观和高效的帮助企业实现数据清洗、数据加工、数据运算、数据分析等操作 , 企业重要的是关注业务本身 , 而不用关注实现的底层技术栈 , 不需要大量代码编写 , 也不需要技术人员吃透需求 , 需求方和开发人员都可以独立高效的完成业务定义和数据产品的开发 。
在输出数据产品后 , 企业可以对这些数据进行可视化输出以便数据治理人员根据这些数据做出决策 。
华为云大数据轻量化解决方案还支持多 BI 平台的可视化图形输出 , 帮助企业实现更好的数据展示 , 无论是第三方的 BI 工具还是华为云自家的 DLV 数据可视化服务都可以很好的调用接口实现数据的展示分析 。
模式|华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

通过这些数据接入 , 企业可以通过拖拉拽的方式快速构建专属的企业智慧数据大屏幕 , 形成丰富多样的数据图表 , 方便进行及时的分析决策 。
总结
华为云提供的大数据轻量级解决方案 , 让企业实现了轻资产、轻开发、轻部署、轻运维的大数据治理模式 , 这样的“轻模式”让广大的中长尾企业也拥有了更加敏捷的大数据治理能力 , 完备的数据治理流程提供了一站式便利的数据治理体验 , 企业无需从头再来搭建平台、单独进行人员的开发和架构设计 。 基于 Serverless 的平台开发 , 让企业无需关注业务实现的技术栈 , 直观精简的开发过程 , 只需要掌握 SQL 代码即可快速完成开发 。 大幅节省了企业的平台建设成本和人才成本 。
全流程可视化的界面设计 , 即便是对没有数据开发经验的非技术人员 , 也可以友好快速的进行数据规范设计、数据质量监控、数据指标定义等工作 。
DGC、CDM、DLI、RDS 等服务组成的一整套华为云大数据轻量级解决方案为企业的综合数据治理带来了强大的内生力 , 大大释放了大数据底层运维管理的压力 , 让企业能更好的利用数据专注服务质量提升、产品优化等 。 华为云大数据治理轻量级解决方案未来也将会很好的为中长尾企业赋能 , 帮助他们实现更高层次的数字化转型 。

    推荐阅读