世界杯竞猜活动

世界杯竞猜活动 > 产品与平台 > 北明数据管理平台 >
北明数据管理平台
北明软件的数据管理平台以”标准、治理、共享”为核心理念,提供一套完整的数据管理方案。数据管理平台以“元数据管理”、“数据标准管理”、“数据质量管理”,“数据开发管理”,“数据安全管理”,“数据开放管理”,“数据挖掘”为切入点,提供快速、自动、稳定、持续的数据360度的治理和管控。保证数据的可管、可控、可用、安全的需求。
 
产品功能
(1)数据ETL能力

支持通过web图形化ETL 工具以及 Sqoop工具将数据导入到Hadoop,并提供数据清洗转换功能;支持将日志文件通过分布式Flume工具流式采集到HDFS中进行数据分析;支持读取、解析半结构化、非结构化数据写入数据库,如MS Excel非结构化表格、PDF文档、MS Word文档等格式

全面支持大数据存储和访问,支持大数据环境的数据采集。支持大数据存储载体Hadoop/HDFS和Avro,支持访问HDFS内的文件内容。支持主流NoSQL数据库,包括:HBase, mongodb等。
(2)图形化作业

图形化界面创建数据采集转换、作业,以流程图方式呈现,具备清晰,直观的可视化操作界面,组件拖拽的方式进行流程开发。 (3)实时日志采集

支持Flume实时采集日志信息,高可用的,高可靠的,分布式的海量日志采集、聚合和传输,支持在日志系统中定制各类数据发送方,用于收集数据;对数据进行简单处理,并写到各种数据接受方的能力。
(4)数据存储能力

支持ETL数据进行落地保存,支持数据库、压缩文件及Hadoop大数据平台等数据存储能力,并具有数据归档管理能力,支持通用关系型数据库接口,如MS SQL Server,Oracle, IBM DB2等,支持MPP数据库接口,如Teradata、Greeplum、Vertica、DE等,支持Hadoop,满足HDFS、Hive、Hbase等类型进行数据交换。

(5)存储管理 数据存储管理

分布式存储并不是将数据存储在某个或多个特定的节点上,而将集群中分散的存储资源形成一个虚拟系统的存储系统,数据分散且透明的存储在集群网络的各个设备中。 分布式数据存储主要包括数据块存储管理、数据备份、在线扩展、自适应压缩等。
数据存储管理针对分布式存储的节点进行监控与管理,可以通过我的任务进行数据的上传。可以在我的文件中进行存储文件的查看、修改、删除等操作。 (6)支持基于主题的数据台账,基于元数据的信息管理,提供3D数据资源目录检索。 HDFS文件管理
Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group),文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时需要有w权限。对目录而言,当列出目录内容时需要具有r权限,当新建或删除子文件或子目录时需要有w权限,当访问目录的子节点时需要有x权限。根据hadoop此特点平台使用团队对应hadoop组对象,一个团队中有一个公共的系统用户对应hadoop中所有的者的概念,对hadoop的文件的权限的管理,简化为团队的文件权限管理,创建团队的时候即可为团队分配Hadoop的目录,通过文件的新增、删除、查询进行团队下的文件管理。
3D数据资源目录检索

对数据资源和服务资源以3D网格的形式进行展示资源间的分布,构成。动态关联的视觉效果进行展示,以更加直观形象的展示彼此间的关联。

(7)数据全景视图

系统从标准、质量、冗余、存储、分布、对象类型不同的角度来平台大数据平台建设情况,让管理者从宏观的全局的层面对大数据平台的建设有一个清晰明确的掌控。

数据质量分析

从时间维度来跟踪大数据平台质量的变化情况,来了解和掌握大数据平台目前建设的成效。从问题的类型和分布来把控数据质量出现的原因和位置。

空间使用率分析

对大数据平台存储资源的监控,来分析大数据平台数据的构成、分布,以及空间的分配。为决策者对存储资源的有效的规划提供参考数据。

数据冗余度分析

对大数据平台中数据冗余度的分析来监控存储资源的有效使用情况,对及时释放无效的存储空间提供参考。
(8)数据目录

大数据平台对数量多、分类广、分散在不同机构的信息资源进行集中统一管理,并对信息资源赋予唯一标识符,并根据数据来源、特性、主题域等对数据进行编目,采用灵活的多级目录配置方式。以数据目录对信息资源物理分散、逻辑集中的数据资源进行共享,提供标准化的数据资源信息。让用户可以根据自己业务领域在资源目录种查找关心的信息资源,帮助用户快速查找定位数据资源。

(9)可视化模型设计

基于WEB的图形化模型设计,开发人员重点关注模型的业务逻辑而忽略模型的具体的存储平台,系统根据存储的技术平台自动生成对应的物理模型,开发人员可以进行一次设计而在不同的数据平台进行存储,并完成自动的元数据的标准化管理。目前支持的数据库有:Oralce 、Mysql、Hive、DB2、Hbase、Gbase等主流的数据库。

数据资源详细信息

标准化后的数据信息
(10)提供自有仓库
服务组件一键安装

服务组件基于Web一键快速安装,支持集群部署和单机部署并能够自动根据服务的依赖性安装所需的其他服务组件。降低用户部署的复杂性,保障环境的稳定性。自有仓库的即支持系统的内置相关服务的安装,也支持第三方提供的服务组件,只要求第三方按照系统的规划提供服务组件。 (11)认证安全和支持按照数据实体、数据列、数据行的粒度,对数据进行加密存储数据安全 1.总体安全概述 建设数据安全防护体系,为大数据平台提供体系化的安全策略,全方位进行安全管控,通过事前数据安全管理、事中数据安全控制和事后数据安全管控多种手段保障大数据平台的数据安全。构建关键领域和敏感信息“进不来、拿不走、打不开、赖不掉”四道信息安全防线,实现主动、协同、纵深的全方位信息安全防御。 2.数据安全平台功能 安全防护体系分为五个层次:账号管理、认证管理、授权管理、数据加密、审计管理。 账号管理:提供平台用户的统一管理; 认证管理:包括用户认证和服务认证。防止非法用户以及非法主机的访问; 授权管理:提供用户与权限策略的映射关系。用户/用户组可以被赋予多个服务组件的权限策略,从而达到权限控制的目的; 数据加密:包含数据传输加密和数据存储加密; 安全审计:用户的行为应被记录在不同的载体中。 3 权限管理 采用基于角色的权限管理,通过配置用户、角色、资源三者之间的映射关系,对平台权限进行集中、统一管理,根据系统设置的安全规则、安全策略,用户可以访问而且只能访问自己被授权的资源。 平台对权限分两类来管理:功能级权限管理和数据级权限管理。 功能级权限管理基于角色菜单访问控制:定义角色,给用户分配角色,给角色分配权限。 具体功能包括菜单管理、用户管理、角色管理、角色用户、角色权限等功能。功能级权限控制还包括对用户可操作组件的控制管理。 数据级权限管理基于用户可使用数据范围进行管理,平台提供不同应用场景不同的数据权限管理功能:基于用户等级、元数据表安全等级、表字段安全等级的可获取数据限制和基于租户,对可使用数据库及数据库主题的数据权限控制。 3.1 系统菜单管理 系统菜单(资源)管理可以对平台功能菜单进行统一配置管理,并能将菜单分配给指定的角色。可以快速的配置添加新的功能模块,通过自定义配置的方式呈现个性化配置的菜单树结构。
3.2 用户管理 统一管理平台用户,并为用户分配角色。一个用户可以根据需要,分配一个或多个角色。
3.3 角色管理 为了对拥有相似权限的用户进行分类管理,将平台用户按角色划分。相同的角色用户拥有相同的菜单操作权限。同一用户可以属于多个不同角色。 3.4 角色权限 管理角色所拥有的系统权限,为角色分配具体的可操作菜单。

3.4 租户管理 租户管理通过租户注册的形式,管理团队租户的基本信息、团队成员、团队数据库信息资源分配、数据资源分配、团队可操作权限、API授权等。租户用户只能使用自己租户的数据资源和组件功能。

租户基本信息:管理租户的基本信息,包括租户名称、租户类型、租户管理员、租户状态等。 团队成员:为租户分配成员用户。 租户数据库资源:为租户分配该租户允许使用的数据库资源。 团队权限:为租户分配可使用的数据库资源的下级可使用主题层次权限。 API组件权限:为租户分配该租户可以使用的API组件,从组件级进行数据访问权限控制。 4 数据访问策略 数据访问策略帮助世界杯竞猜活动数据中心在大数据服务平台灵活地控制同一数据集下的多种受控策略。数据粒度级别控制用户、角色所能访问的数据范围,用户、角色的数据权限必须和功能的数据权限匹配才能访问特定数据粒度的数据范围;其授权方式分为长期授权和临时授权。 4.1 表级权限策略 设置表级权限策略,并将表权限赋予特定数据使用用户。表级权限策略,拥有该表权限的用户可以操作该表中所有数据。
分配到用户:

	

	

	
4.2 记录(行)级权限策略 设置记录级权限策略,指定可使用的数据范围,并将权限赋予特定数据使用用户。
分配到用户:

4.3 字段级权限策略 设置字段级权限策略,指定可使用的表具体字段,并将权限赋予特定数据使用用户。
指定字段:

(12)多租户管理

支持多部门多用户对平台中的数据进行批处理、交互访问和实时处理,从而提高集群的利用率。支持 FIFO Scheduler、Capacity Scheduler 和 Fair Scheduler 三种策略。支持租户建立、删除、修改操作,支持多租户资源分配,支持多租户之间资源隔离,支持不同用户的资源管理权限设置和计算队列使用权限分配;

(13)支持数据表拖拽

拖拽式的图形化组件进行ETL程序设计,让开发人员聚焦于数据逻辑,而忽略底层的技术细节。让开发人员上手快,需求响应迅捷、一键式上线部署。 (14)机器学习类算法和数据模型算法和数据挖掘 1. DID平台介绍 “大数据自助建模分析平台”简称DID。提供了一个通用的数据流系统,可以降低将机器学习算法应用于实际任务的难度。在该系统中,一个学习任务被构造为一个有向非循环图(DAG/directed acyclic graph),其中每个节点表征一步操作(即机器学习算法),每一条边表征从一个节点到后一个即节点的数据流。任务可被人工定义,或根据现有任务/模板进行克隆。在把任务提交到云端之后,每个节点将根据 DAG 自动执行。图形用户界面被实现,从而可使用户以拖拉的方式创建、配置、提交和监督一项任务。模型训练结果可进行图表可视化查看,包括表格、树状图、热力图、折线图等。 DID平台完全基于大数据平台,兼容Hadoop、Spark等主流数据挖掘引擎,执行引擎基于分布式x86架构, 具备性能扩展能力,有效解决传统SAS及SPSS系统的单机性能瓶颈问题,数据挖掘算子完全自研开发,可基于场景做定制优化,算子库丰富:包括数据预处理、ETL、NLP、数据挖掘、机器学习及深度神经网络等方面共100多个分布式算子。该系统降低定义和执行机器学习任务的门槛,共享和再利用算法的实现、 job DAG 以及试验结果,在一个任务中无缝整合单机算法和分布式算法。 DID包含三个主要组件: l 一个分布式的机器学习库,不仅能实现流行的机器学习算法(包括逻辑回归分类、决策树分类、随机森林分类、朴素贝叶斯分类、线性回归、决策树回归、K均值聚类、协同过滤、关联分析、模型预测等),也能实现数据预处理/后处理、数据格式转变、特征生成、表现评估等算法。这些算法主要是基于 Spark 实现的。 l 一个基于 GUI 的机器学习开发环境系统,能让用户以拖放的方式创造、安装、提交、监控、共享他们的机器学习流程。机器学习库中所有的算法都可在此开发环境系统中获得并安装,它们是构建机器学习任务的主要基础。 l 一个执行任务的云服务。基于开源的 Hadoop 和 Spark 大数据平台建立了该服务。从 GUI 上接受一个 DAG 任务之后,在所有的独立数据源准备好时,每个节点将会自动安排运行。对应节点的算法将会依据实现在 Linux、Spark 或者 Map-Reduce\cite 上自动安排运行。
2. DID系统截图

可视化的数据挖掘工具

基于Web的图形化的数据挖掘工具,通过不同组件的组合完成数据挖掘的设计。能够通过一键执行或是定时调度或是离线任务多种运行策略。

北明软件世界杯竞猜活动
北京地址:北京市西城区德胜门外大街13号院1号楼合生财富广场9层
广州地址:广州市天河区思成路1号北明软件大楼7-8层
版权所有@北明软件世界杯竞猜活动