加载中...请稍后..

金准数据分享:《大数据应用安全研究报告》

14935   发布时间:2017-08-02

一、阿里云大数据安全实践

阿里云数加大数据平台提供从数据采集,加工、数据分析、机器学习到最后数据应用的全链路技术和服务。

基于阿里云数加大数据平台,除了可以打造智能可视化透明工厂、智能交通实时预测和实时监控监测、智能医院就医接诊服务,以及大数据网络安全态势感知系统外,还可以打造成一个满足政府不同部门以及政企之间实现数据共享的数据交换平台。

为了保障数据共享和交换过程中的数据安全,数家大数据平台通过安全机制和管控措施实现不同用户之间数据的“可用不可见”,具体如图B-1所示:

为确保数据交换和共享的安全,避免数据滥用,阿里云数加平台提供了一系列安全措施

密钥管理和鉴权。提供统一的密钥管理和访问鉴权服务,支持多因素鉴权模型;

访问控制和隔离。实施多租户访问隔离措施,实施数据安全等级划分,支持基于标签的强制访问控制,提供基于ACL的数据访问授权模型,提供全局数据视图和私有数据视图,提供数据视图的访问控制;

数据安全和个人信息保护。提供数据脱敏和个人信息去标识化功能,提供满足国产密码算法的用户数据加密服务;

安全审计和血缘追踪。提供数据访问审计日志,支持数据血缘追踪,跟踪数据的流向和衍生变化过程;

审批和预警。支持数据导出控制,支持人工审批或系统预警;提供数据质量保障系统,对交换的数据进行数据质量评测和监控、预警;

生命周期管理。提供从采集、存储、使用、传输、共享、发布、到销毁等基于数据生命周期的技术和管理措施。

阿里云基于数据生命周期构建全面的数据安全保障体系,从数据行为、数据内容、数据环境等角度提供技术和管理措施,具体如图B-2所示:

通过实施阿里云大数据安全管控体系,提供“可用不可见”的大数据交换共享平台安全环境,以保障大数据在“存储、流通、使用”过程中的安全。

二、百度大数据安全实践

数据是百度公司的重要资产。百度公司在内部构建了公司级大数据平台,收录公司各个业务领域的数据,建设数据闭环解决方案,推动全公司数据的统一管理、数据共享、数据发现和数据使用。这些聚在一起的数据资产来自多个部门和业务,对安全的要求也不同。

百度非常重视大数据应用过程中的安全保障,在安全方面形成了统一的大数据安全框架,通过在数据全生命周期各环节实施安全技术和管理机制,为大数据平台和用户数据提供安全保障。

百度大数据平台安全架构

百度大数据平台具备基础的系统安全、安全管理,以及以数据安全分级机制为核心的数据安全架构,如图B-3所示:

系统安全和安全管理是百度大数据平台中最基础的安全机制。数据安全架构在整个大数据安全架构中处于极为重要的位置。数据安全架构包括安全审计、安全控制和安全加密三部分,并采用安全分级机制,分为基础级和可选级。

安全基础级别包括安全审计和安全控制两个功能,它是所有在大数据平台的业务数据都会得到的安全基础保障,为大数据平台上的数据提供生命周期过程中的可审计性和细粒度完整控制功能。可选级别包括数据的加解密功能,支持各种强度的加解密算法。

百度大数据平台支持数据的加密存储,考虑到平台每天产生的数据量极其庞大,以及数据运算的效率要求,可以根据数据的业务特点和密级要求来选择不同强度的加密算法。

百度大数据平台关键安全能力

百度提出4A安全体系来构建大数据平台的关键安全能力,主要包括:

Account(账号):为每个用户创建唯一的用户账号,并对用户身份进行鉴别,确保数据访问控制和安全审计可以追溯到个人账号。同时,采用基于角色的用户分组管理,将系统管理角色、系统数据建设角色和数据查看角色进行区分。

Authentication(鉴别):百度大数据平台上的数据访问必须有统一的身份鉴别机制。百度大数据平台采用统一单点登录身份认证技术对用户进行身份鉴别管理。

Authorization(授权):百度大数据平台需要根据数据访问主体身份,以及被访问数据的密级,实现对各类数据的访问授权。对于机密等级以上的数据,需要对接到具体的电子审批流程。此外,数据在流转过程中,大数据平台可以自动判断对应的下一个节点的安全等级和人员授权情况,进行数据流转的安全判断和维护。

Audit(审计):百度大数据平台具有审计日志记录功能,实现对系统中针对用户管理、权限管理、用户登陆、数据获取/访问/修改等行为的完整日志记录。基于系统审计日志,可以实现事中的安全监控,以及事后的行为溯源和取证分析。

三、华为大数据安全实践

华为大数据分析平台FusionInsight基于开源社区软件Hadoop进行功能增强,提供企业级大数据存储、查询和分析的统一平台,帮助企业快速构建海量数据信息处理系统。

FusionInsight是完全开放的大数据分析平台,并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求打造了高可靠、高安全、易使用的运行维护系统和全量数据建模中间件。华为FusionInsight大数据分析平台框架图如图B-4所示。

大数据分析平台汇聚着大量数据,面临着更多的安全威胁和挑战,包括数据滥用和用户隐私泄露问题。华为FuisonInsight大数据分析平台提供可运营的安全体系,从网络安全、主机安全、用户安全和数据安全方面提供全方位的安全防护(如图B-5):

网络安全

FusionInsight集群支持通过网络平面隔离的方式保证网络安全。

主机安全

通过对FusionInsight集群内节点的操作系统安全加固等手段保证节点正常运行,包括更新最新补丁、操作系统内核安全加固、操作系统权限控制、端口管理、部署防病毒软件等。

用户安全

通过提供身份认证、权限控制、审计控制等安全措施防止用户假冒、越权、恶意操作等安全威胁:

身份认证。FusionInsight使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证;统一了Manager系统用户和组件用户的管理及认证,提供单点登录。

权限控制。基于用户和角色的认证统一体系,遵从帐户/角色RBAC(基于角色的访问控制)模型,实现通过角色进行权限管理,对用户进行批量授权管理,降低集群的管理难度;通过角色创建访问组件资源的权限,可以细粒度管理资源(例如文件、目录、表、数据库、列族等访问权限);将角色授予用户/用户组,简化用户/用户组的权限配置。

审计日志。FusionInsight审计日志中记录了用户操作信息,可以快速定位系统是否遭受恶意的操作和攻击,并避免审计日志中记录用户敏感信息:确保每一项用户的破坏性业务操作被记录审计,保证用户业务操作可回溯;为系统提供审计日志的查询、导出功能,可为用户提供安全事件的事后追溯、定位问题原因及划分事故责任的重要手段。

数据安全

从集群容灾、备份、数据完整性、数据保密性等方面保证用户数据的安全。

文件系统加密:Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储;

加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能;

业务透明:上层业务只需指定敏感数据(Hive和HBase表级、列级加密),加解密过程业务完全不感知。

数据容灾

FusionInsight集群容灾为集群内部保存的用户数据提供实时的异地数据容灾功能;它对外提供了基础的运维工具,包含主备集群关系维护,数据重建,数据校验,数据同步进展查看等功能。

四、京东大数据安全实践

数据资源已经成为一种基础战略资源,数据的共享和流通会产生巨大价值。然而,数据资源在流通过程中却面临着诸多瓶颈和制约,尤其是当数据一种特殊的数字内容产品时,其权益保护难度远大于传统的大数据,一旦发生侵权问题,举证和追责过程都十分困难。

为了解决这些问题,京东万象数据服务平台(如图B-6所示)利用区块链技术对流通的数据进行确权溯源,数据买家在数据服务平台上购买的每一笔交易信息都会在区块链中存储起来,数据买家通过获得交易凭证可以看到该笔交易的数字证书以及该笔交易信息在区块链中的存储地址,待买家需要进行数据确权时,登录用户中心进入查询平台,输入交易凭证中的相关信息,查询到存储在区块链中的该笔交易信息,从而完成交易数据的溯源确权。

在安全保障方面,为了防止数据流通过程中的个人身份冒用问题,京东万象数据服务平台通过使用公安部提供的个人身份认证服务对用户身份进行识别和保护。京东万象数据服务平台结合公安部eID技术,该技术密码技术为基础、以智能安全芯片为载体、由“公安部公民网络身份识别系统”签发给公民的网络身份标识,能够在不泄露身份信息的前提下在线远程识别用户身份。

京东万象数据服务平台通过区块链溯源和eID技术,有效解决了合法用户基于互联网开展大数据安全交易的数字产品版权保护问题,保障了数据拥有者在数据交易中的合法权益。

五、奇虎360大数据安全实践

奇虎360在面对日益严峻的安全挑战时,不断更新技术思路,实现了及时响应最新的网络安全威胁。为应对千变万化的网络安全威胁,奇虎360通过部署的数万台大数据服务器,对当前网络安全事件进行实时监测与分析,采用大数据技术对网络安全威胁进行跟踪和防范。

为了保障安全,大数据平台依照“安全三同步”原则进行建设,即同步规划、同步组织实施、同步运作投产。

奇虎360的大数据平台安全保障体系框架如图B-7所示。大数据平台安全保障体系框架包括“安全职责划分”,“安全区域划分”,“安全级别划分”,“安全监测模块”,“安全防御模块”,“业务安全与安全运维模块”,“安全响应中心模块”等部分。

安全职责划分

安全职责划分是整体方案的基础,所有技术手段都应贴近安全职责划分,为其服务。梳理大数据平台各方安全责任边界,对整个活动中的安全事件进行详细的责任划分。

安全区域划分

大数据平台环境相对复杂,涉及多类业务,多类系统,现有网络结构已经考虑了分级问题,在此基础上,需进一步细化安全域的划分以及不同安全域、不同安全级别的访问控制设计。

安全级别划分

按照安全区域划分结果,为每个区域制定响应的安全等级,区域安全等级与用户安全等级、数据安全等级相互对应。通过安全级别的划分确保可信合规使用资源。

安全监测模块

其中主要包括大数据平台安全防御审查系统并提供基于人工或自动化的多层次的安全监测服务。

安全防御模块

按照统一规划、统一标准的设计思路,在充分考虑当前网络应用和实际环境的基础上,对整体的网络划分为若干个安全域和安全区,建设大数据平台面向各个区域的基础安全防御系统和大数据平台自身的防御系统。

业务安全与安全运维模块

实现安全运维操作的分级管理,针对大数据业务安全和安全运维工作的用户赋予符合其安全职责划分的权限,实现业务安全和安全运维。

安全响应中心模块

采用本地响应+安全响应的新型工作模式。本地响应实现当前问题的及时规范化处理,安全响应结合云端的情报威胁联动、本地终端协调联动、以及专家等提供及时的技术保障服务。

六、腾讯大数据安全实践

腾讯一直把大数据应用作为公司的重要发展战略,并依托十多年的互联网产品开发和运营经验,形成了一套完整、可靠、扩展性强的大数据业务应用框架,为用户提供大数据处理服务。

腾讯大数据业务应用框架为用户提供三大基础能力

数据:提供海量的数据接入能力与处理能力;

连接:提供开放接口,做互联网+的连接器;

安全:重视网络安全,将其作为连接一切的防护体系。

腾讯特别注重在提供大数据处理服务过程中的数据安全和隐私保护问题,采取安全技术和管理措施确保大数据业务的健康发展。大数据和云计算密不可分,腾讯云通过端、主机、网络、业务的安全服务,为客户提供安全的大数据业务。腾讯大数据安全涉及的安全关注重点如图B-8所示。

平台安全

关注系统自身的安全性,防止来自系统层面的攻击,同时为更高级安全防御措施提供系统级别的支持,包括:系统防御,即防御来自系统层面的攻击,如漏洞攻击、嗅探攻击、流量攻击(如DDoS)等;权限管理,即提供文件、设备等底层资源的权限管理能力,防止越权访问;操作审计:即提供文件、设备等底层资源的访问、操作历史日志,为更高级的审计提供数据和功能支持。

数据安全

关注数据生命周期各阶段的安全性,防止数据丢失、覆盖、篡改带来的损失。包括:存储安全,即采用多副本方式存储数据,防止数据非正常丢失;抹除安全,即数据延迟删除,防止误操作带来的数据丢失。

传输安全

关注数据在传输过程中的安全性,包括:接口安全,即采用安全接口设计及高安全的数据传输协议,保证在通过接口访问、处理、传输数据时的安全性,避免数据被非法访问、窃听或旁路嗅探;中间层安全,即使用加密等方法隐藏实际数据,保证数据在通过中间层的过程中不被恶意截获,只有数据管理者通过密钥等方式可以在平台中动态解密并访问原始数据。

安全管理

关注对大数据分析平台的合理、合规使用,通过与技术配套的管理手段控制风险,保证安全。包括:认证、鉴权、授信管理,即确保用户对平台、接口、操作、资源、数据等都具有相应的访问权限,避免越权访问;分级管理,即根据敏感度对数据进行分级,对不同级别的数据提供差异化的流程、权限、审批要求等管理措施,数据安全等级越高,管理越严格;

审计管理,基于底层提供的审计数据,在权限管理、数据使用、操作行为等多个维度上对大数据分析平台的运转提供安全审计能力,确保及时发现大数据分析平台中的隐患点,视不同严重程度采取包括排除隐患、挽回数据、人员追责在内的多种补救措施,同时指导大数据分析平台不再重复类似的问题。

七、中国移动大数据安全实践

为应对大数据应用服务过程中数据滥用和个人隐私安全风险,中国移动建立了完善的大数据安全保障体系,目标是保护大数据权属性、保密性、完整性、可用性、可追溯性,实现大数据“可管、可控、可信”,保护公司各领域大数据资产及用户隐私。大数据安全保障体系框架如图B-9所示。

中国移动大数据安全保障体系涉及安全策略、安全管理、安全运营、安全技术、合规评测、服务支撑等六大体系:

安全策略体系:是在遵循国家大数据安全政策框架的基础上,开展顶层设计,明确公司大数据安全总体策略,指导相关管理制度、技术防护、安全运营、合规评测、服务支撑工作的开展,是其它体系建设的基本依据。

安全管理体系:是通过管理制度建设,明确运营方安全主体责任,落实安全管理措施,相关制度包括第三方合作管理、内部安全管理、数据分类分级管理、应急响应机制、资产设施保护和认证授权管理等安全管理规范要求。

安全运营体系:是通过定义运营角色,明确运营机构安全职责,实现对大数据业务及数据的全流程、全周期安全管理,通过对大数据的平台系统、业务服务、数据资产和用户隐私的有效安全运营管控,保障业务可持续健康发展。

安全技术体系建设:目标是有效预构塔防能力,包括基础设施、网络系统、数据存储、数据处理以及业务应用等层次安全防护。通过制定涉及网络、平台、系统、数据、业务系列安全技术规范支撑开展安全防护能力建设。

安全合规评测体系:建设目标是持续优化安全评估能力,通过合规评估、安全测试、攻击渗透等手段,实现对大数据业务各环节风险点的全面评估,保障安全管理制度及技术要求的有效落实。

大数据服务支撑体系:理念是“安全保数据、数据促安全”,重点是基于大数据资源为信息安全保障提供支撑服务,如基础安全态势感知、数据安全监测预警、情报分析舆情监测、以及不良信息治理等安全领域的应用。通过开展大数据在大数据安全管控等各个领域的应用研究,为信息安全管控提供新型的支撑服务手段。

中国移动对用户个人信息的各个处理环节施行严格规定与落实

对客户信息所包含的内容进行界定、分类及分级;

明确信息安全管理责任部门及职责。对各部门的职责进行了严格要求和细致规定,并明确相关岗位角色及权限;

对客户敏感信息操作进行严格管理。对于涉及用户敏感信息的关键操作,严格遵守金库模式保护要求,采取“关键操作、多人完成、分权制衡”的原则,实现操作与授权分离;

设立客户信息安全检查制度;

不断提高客户信息系统技术管控水平;

严控第三方信息安全风险.

另外,中国移动自主研发了大数据安全管理平台——雷池,实现数据的统一认证、集中细粒度授权、审计监控、数据脱敏以及异常行为检测告警,可对数据进行全方位安全管控,做到事前可管、事中可控、事后可查。

八、Cloudera大数据安全实践

Hadoop已经广泛应用于金融、电信、制造、能源以及健康医疗领域,这些领域的客户基于Hadoop搭建企业数据湖,完成企业数据整合。数据整合之前是存放在相对独立的系统进行安全存储及管理。

数据整合之后,原本只有少数人访问到的数据分享给更多的用户进行分析,如何有效的对访问者进行身份审核,数据的权限管理,数据访问留痕即审计,以及对涉密程度比较高的数据在大数据平台进行加密,是企业数据湖面临的重要问题。

Cloudera在大数据安全保障方面,提供了从数据平台身份认证、访问授权管理、数据加密保护到安全审计全流程的安全解决方案体系架构。Cloudera大数据平台安全体系架构如图B-10所示:

边界

关注于控制外部用户或者服务对集群的访问过程中的身份鉴别,也称之为身份认证模块,这是实施大数据安全架构的基础;在Cloudera数据平台中所有组件都能提供基于Kerberos的认证功能,某些组件还能提供额外的基于LDAP(Active Directory)或者是SAML的认证;

用户在访问启用了安全认证的集群时,必须能通过服务所需要的安全认证方式。在部署身份认证时,根据的企业基础设施不同,可以选择不同的部署解决方案。

访问

关注于用户或者应用访问数据时,对用户的权限定义和实施过程,通常称为授权;Cloudera可以限定用户是否有对某种资源的访问能力。基于Hadoop的数据平台通常都提供了多样化的资源和服务,但受限于访问控制措施,不得不限制了Hadoop使用的广度和深度。

起初Hadoop仅仅是作为ETL的补充开放给SQL开发者使用,后来各业务分析部门意识到Hadoop的便利性,也需要相应数据和服务的访问授权,这就要求大数据平台需要和企业现有LDAP或者AD进行整合,同时能给不同应用提供一致的基于角色的访问控制能力。

Cloudera通过Apache Sentry来完成对大数据系统访问策略的配置和权限控制实施,从而可以实现一致的访问权限控制配置和实施过程,比如说,一个用户通过Hive或者Impala对某张表实施了权限配置,那么此用户通过Spark或者Search访问这个数据时,ApacheSentry同样能确保一致的权限控制效果。

透明

理解数据的来源,以及知道数据怎么被使用的,对监测大数据系统中是否存在非法数据访问非常关键,这需要通过安全审计来实现。安全审计的目的是捕获系统内的完整活动记录,且不可被更改。

Navigator提供了自动化的数据上下游关系收集,并能进行可视化展示。对任何一个Hadoop上的数据源,细致到数据表的一个列,可以抽取这个列是由上游的哪些数据源、哪些列,生成了下游数据源的哪些列。

数据

提供数据在传输过程及静态存储的加密保护,在敏感数据被越权访问时仍然能够得到有效保护。Cloudera推荐通过ClouderaManager配置TLS来完成数据在传输过程的加密,数据的静态加密可以通过HDFS Data-at-Rest Encryption,Navigator Encrypt以及Navigator KeyTrustee来完成。

关于加密的秘钥管理,Cloudera平台除了支持传统基于Java KeyStore的加密密钥管理方式外,还提供了Navigator Key Trustee服务提供更好的秘钥存储方案,它还能提供和企业现有的HSM集成解决方案。

通过Cloudera Manager提供的向导式操作界面,方便启用Hadoop的Kerberos认证,避免企业用户受到黑客勒索攻击。Sentry为大数据平台的组件Hive,Impala,Solr以及HDFS提供细粒度的基于角色的权限管理功能,避免数据集中后的非授权访问。

Navigator提供大数据平台所有组件的统一审计功能。Navigator Encrypt保障数据传输过程及静态存储都是以加密形式存在避免黑客截取数据及数据泄露。与此同时,Cloudera也在不断加强Hadoop生态系统的安全特性,比如RecordService为Hadoop平台提供统一的安全管控。增强Kudu,Spark等技术在数据存储及处理的安全。

九、Hadoop大数据安全实践

当前,以Hadoop为基础的大数据开源生态圈应用非常广泛。最早,Hadoop考虑只在可信环境内部署使用,而随着越来越多部门和用户加入进来,任何用户都可以访问和删除数据,从而使数据面临巨大的安全风险。另外,对于内部网络环境和数据销毁过程管控的疏漏,在大数据背景下,如不采取相应的安全控制措施,也极易出现重大的数据泄露事故。

为了应对上述安全挑战,2009年开始,Hadoop开源社区开始注重保护大数据安全,相继加入了身份验证、访问控制、数据加密和日志审计等重要安全功能,如图B-11所示。

身份验证是确认访问者身份的过程,是数据访问控制的基础。在身份验证方面,Hadoop大数据开源软件将Kerberos作为目前唯一可选的强安全的认证方式,并以此为基础构建安全的大数据访问控制环境。基于身份验证的结果,Hadoop使用各种访问控制机制在不同的系统层次对数据访问进行控制。

HDFS(Hadoop分布式文件系统)提供了POSIX权限和访问控制列表两种方式,Hive(数据仓库)则提供了基于角色的访问控制,HBase(分布式数据库)提供了访问控制列表和基于标签的访问控制。数据加密作为保护数据安全、避免数据泄漏的主要手段在大数据应用系统中广泛采用,有效地防止通过网络嗅探或物理存储介质销毁不当而导致数据泄密。

对于数据传输,Hadoop对各种数据传输提供了加密选项,包括对客户端和服务进程之间以及各服务进程之间的数据传输进行加密。同时Hadoop也提供了数据在存储层落盘加密,保证数据以加密形式存储在硬盘上。最后,Hadoop生态系统各组件都提供日志和审计文件记录数据访问,为追踪数据流向,优化数据过程,以及发现违规数据操作提供原始依据。

基于上述系列安全机制,Hadoop基本构建起了满足基本安全功能需求的大数据开源环境。Kerberos作为事实上的强安全认证方式被业界广泛采用。但由于Kerberos采用对称密钥算法来实现双向认证,在大规模部署基于Kerberos的分布式认证系统时,可能会带来部署和管理上的挑战。普遍解决方案是采用第三方提供的工具简化部署和管理流程。

访问控制方面,大数据环境访问控制的复杂性不仅在于访问控制的形式多样,另一方在于大数据系统允许在不同系统层面广泛共享数据,需要实现一种集中统一的访问控制从而简化控制策略和部署。数据加密方面,通过基于硬件的加密方案,可以大幅提高数据加解密的性能,实现最低性能损耗的端到端和存储层加密。

然而,加密的有效使用需要安全灵活的密钥管理,这方面开源方案还比较薄弱,需要借助商业化的密钥管理产品。日志审计作为数据管理,数据溯源以及攻击检测的重要措施不可或缺。然而Hadoop等开源系统只提供基本的日志和审计记录,存储在各个集群节点上。如果要对日志和审计记录做集中管理和分析,仍然需要依靠第三方工具。

十、IBM大数据安全实践

IBM Security Guardium是一个完整的数据安全平台,提供了一套完整的能力,比如敏感数据的发现和分类、分级,安全性评价,数据和文件活动检测,通过伪装,阻断,报警和隔离保护敏感数据。

Guardium不仅保护数据库,它还被扩展到保护数据仓库、ECM、文件系统和大数据环境等。除了安全平台,IBM架构提供了云上应用构建的实践。IBM为大数据分析和安全开发了客户云架构,这个构架作为参考架构和行业标准在CSCC发布,它描述了使用云计算托管大数据分析解决方案的厂商中立的最佳实践及构成这个架构的所有组件的细节。这个参考架构的所有组件都可以用开源技术实现。

        金准数据精品推荐

  精品行业报告______________________________ AI科技资讯