大数据多租户的技术研究和技术方案

3.0 闻远设计 2024-03-17 17 4 35.74KB 2 页 免费
侵权投诉
大数据多租户的技术研究和技术方案
  1 、引言
随着大数据的普及,越来越多的组织机构将自己的海量数据的存储与运算放在 Hadoop 集群
上。然而由于同公司不同项目或者部门之间对计算和存储的需求不同,原有提供一套底层
Hadoop 集群给用户使用已经不能满足用户的需求,主要存在以下几个问题:
(1)多个用户之间公用一套底层存储资源,彼此之间数据没有进行隔离,会导致存储的数据泄
露;
(2)不同用户编写的不同计算任务公用底层全量计算资源,会导致计算资源要求高的任务无法
获得足够资源等;
(3)对 IO,CPU,内存等的要求不同的任务无法分配到具备相应特长的节点上运行。
正是上述问题,在没有对 Hadoop 集群资源进行精细化管理时,很容易出现数据与集群资源混
乱无序的状态。
  2 、相关概念
在介绍多租户相关研究与设计前,首先需要对下述概念进行介绍:
(1)存储资源:分布式存储文件系统(Hadoop Distributed File System,HDFS)中的一个或者多
个目录;
(2)计算资源:资源调度协调系统(Yet Another Resource Negotiator,YARN)中队列;
(3)队列:计算任务进行资源分配的最小单位。
  3  、 多租户技术研究
目前,多租户的实现有多种方案,下面对相关技术方案进行分析。
基于容器的多租户大数据平台构建方案,通过容器化技术封装大数据组件成描述性文件,再通
过云计算,云安全提供多租户安全的隔离与共享。该方案主要利用了云计算的租户隔离手段,
来实现对所运行组件的隔离,但是由于其每个大数据组件所具有的数据是彼此隔离的,容易产
生数据孤岛,在需要对各个租户数据进行全量计算时,难以适用。
基于 Hadoop 的多租户大数据平台方案主要是基于 Hadoop 生态的 HDFSYARN 等的功能来对
资源进行隔离。HDFS 可以通过目录的访问权限,来对各个租户相关的用户访问权限进行隔离
限制。YARN 中的计算队列也可以通过相关配置来对其进行更细粒度的访问控制以达到不同租
户的访问隔离。
4  、 多租户技术方案
由于可能需要对各租户数据进行更高层次的计算,本论文主要采用基于 Hadoop 生态的多租户
实现方案。
但是由于不同版本的 Hadoop 在租户相关的功能上是有区别的。Hadoop2.7 虽然也支持多租户能
力,但是其对 YARN 中队列动态控制能力还有些欠缺。其无法做到对动态资源的删除,每次要
彻底删除动态资源都需要对组件进行重启。其次由于系统需要对国产飞腾服务器(ARM
构)支持。所以选择了 Hadoop3.3.0 版本。
摘要:

大数据多租户的技术研究和技术方案 1 、引言随着大数据的普及,越来越多的组织机构将自己的海量数据的存储与运算放在Hadoop集群上。然而由于同公司不同项目或者部门之间对计算和存储的需求不同,原有提供一套底层Hadoop集群给用户使用已经不能满足用户的需求,主要存在以下几个问题:(1)多个用户之间公用一套底层存储资源,彼此之间数据没有进行隔离,会导致存储的数据泄露;(2)不同用户编写的不同计算任务公用底层全量计算资源,会导致计算资源要求高的任务无法获得足够资源等;(3)对IO,CPU,内存等的要求不同的任务无法分配到具备相应特长的节点上运行。正是上述问题,在没有对Hadoop集群资源进行精细化管...

展开>> 收起<<
大数据多租户的技术研究和技术方案.docx

共2页,预览1页

还剩页未读, 继续阅读

作者:闻远设计 分类:其它行业资料 价格:免费 属性:2 页 大小:35.74KB 格式:DOCX 时间:2024-03-17

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 2
客服
关注