灾备 > 数存Datapp MergCloud超融合系统产品白皮书
数存Datapp MergCloud超融合系统产品白皮书
2018/3/26 15:52:00 分享到:
一、产品背景
随着我国进入信息化时代,企业对信息化技术的依赖越来越强。在计算机技术高速发展的今天,存储作为计算机的一个重要功能在不断发展着。然而在传统的计算资源与存储资源分离的体系架构下,光靠越来越快、核数越来越多的CPU是不够的,瓶颈在于传统存储的硬盘读写太慢了,计算主机上大部分的CPU计算能力都空闲或者说在等待存储数据传输过来,这种不匹配的架构已经不能满足企业IT数据中心高速发展和变化的需求。
扩展困难:
传统存储SAN/NAS通过添加新的存储柜扩容升级(Scale Up),但是这种方法并不能带来同倍的性能提升。存储访问性能并不能随着虚拟机数据量增加而线性增加,致使存储访问性能最终成为数据中心性能和容量的瓶颈。
性能瓶颈
虚拟化将多个业务系统打包成独立的虚拟机同时运行,众多虚拟机的同时运行使得整个存储系统基本都是随机I/O读写,现有存储通常采用SATA/SAS机械磁盘实现,无法应对大量并发随机读写请求。
服务质量保证问题
虚拟化数据中心中运行着大量不同的应用,这些应用通常对应不同的服务等级。现有存储为20年前的设计,并没有考虑虚拟化环境中的应用负载,利用现有存储很难为不同的应用负载制定存储性能策略,以适应不同的应用负载。
管理复杂
IT管理员不仅需要同时管理计算和存储两套系统,还往往需要面对专有化设备的配置,非常繁琐。传统网络存储架构SAN/NAS起初是为静态负载场景设计,对于动态变化的负载,其管理运维就会变得相对复杂。
硬件专有化,成本高
在未来,企业用户在构建信息系统时最关注的应该是存储系统的设计与配备。主流存储厂商使用自行设计的专有芯片去优化I/O路径,如利用专有芯片做数据压缩,去冗等。这些专有化硬件带来的高额研发和生产成本必然会提升存储系统的总体拥有成本。在政府、医疗、石油、电力、顶级互联网等超大型信息化应用环境中,普通的存储产品已经无法满足爆炸增长的数据业务需求,同时对硬件平台的性能、价格也会有个更高的要求,更需要一个分布式架构的计算存储资源池来解脱对性能与价格的束缚。
二、Datapp MergCloud系统设计理念
2.1 分布式计算
Datapp MergCloud采用数据融池分布式集群架构,每一个数据节点都有能力承担另一数据节点的功能,节点之间用内部的分布式协议完成相互协作和通信,系统中的任意组件都不会成为瓶颈,不但能够实现横向扩展,还具备与各种先进的网络存储解决方案相同甚至更好的企业级数据管理功能,包括高可用性、备份、快照、灾难恢复等。
2.2 系统冗余
Datapp MergCloud始终把可靠性作为系统设计的最高优先级。在实际环境中,任何硬件都无法保证100%可靠,磁盘可能损坏从而导致服务器宕机。为处理这些不可预期的硬件错误,保证数据的完整以及业务的连续性,MergCloud采用信息稀疏矩阵算法及加密技术将数据平均分散至每个物理数据节点上,即便一个元数据服务器停机,也完全不影响元数据服务;同一份数据块也会复制到不同的物理数据节点,防止单点故障。
2.3 虚拟化
Datapp MergCloud 是面向虚拟化环境设计的分布式存储系统,能够支持虚拟机迁移和高可用性等的管理功能。MergCloud能够在不停虚机的情况下实现集群系统升级,可感知数据块的热点,调度数据块到距离VM最近的节点,较少远程I/O的访问。
2.4 分层存储
Datapp MergCloud充分利用了企业级固态硬盘的技术优势,采用连续自适应数据分片技术对数据进行切分,细粒度可达4KB,同时记录和分析数据的冷热程度,将热门数据分布式地存储在SSD空间以获得最高性能,将“冷”数据或非常用数据迁移至大容量机械硬盘空间上。
2.5 自动化管理运维
Datapp MergCloud从部署、日常管理、容错处理都力争做到自动化。MergCloud的安装部署非常简单迅速,只需简单配置IP地址和服务器角色等信息就能在1小时内完成安装部署;当硬盘损坏,数据可靠性降低时,MergCloud会触发自动修复将数据复制到健康的节点,整个过程无需人工参与。MergCloud提供了Web可视化管理和丰富的分析功能,可以采集和分析当前系统的多维指标,并设置预警,第一时间通知管理员。
三、系统架构及产品功能
Datapp MergCloud是一个由多个高性能服务器节点组成的可实现横向扩展的集群系统, 集群系统包含有处理器、内存和SSD高速存储器以及SATA大容量存储器,每台计算节点都运行一个标准的管理程序,通过先进的数据管理功能,形成冗余的Server-SAN超融合计算存储平台。在这平台上用户可以在任意节点上启动VM,这些VM可像使用本地存储一样创建出虚拟盘。
3.1 按需Scale-out扩展
MergCloud摒弃了传统的通过扩展磁盘柜扩展容量的方式,而是通过添加新的服务器节点同时获得存储容量和性能的水平扩展,扩展后的Rack空间、容量和性能是可预估的,能极大帮助企业IT选择最合适的软硬件解决方案。
在MergCloud超融合架构中,每一次水平扩展都具有如下特性:
Ø 自动负载均衡
扩展节点后,MergCloud会根据集群中各个服务器节点的负载和容量使用情况做负载均衡,以达到整个系统的负载均衡,避免单点过热的情况出现。
Ø 扩展无需暂停业务
水平扩展只需要将部署了MergCloud的新节点和原有集群连接到同一网络,通过图形控制台或者命令将新节点添加到MergCloud集群中即可,整个扩容过程不会影响任何服务,虚拟机无需停机。
Ø 即刻生效
节点被添加到集群,该新增节点的计算和存储资源会通过一轮“心跳”向集群汇报,集群系统的整体容量和性能也随之线性扩展,此后新节点的资源就会被MergCloud接管。
3.2 数据保护
数据高可靠性是MergCloud设计中非常重要的一点:
Ø 弹性多副本和智能修复
同一份数据可以有多个副本,副本会分布到不同的物理节点,即便一个节点损坏也不会影响数据的可用性和可靠性。
Ø 数据块校验
为防止数据的静默损坏,MergCloud会对每个数据块做校验,通过周期性地扫描数据块的校验值发现损坏的数据块,并进行修复。
3.3 冷热数据分层存储
MergCloud可管理服务器节点上所有的本地存储盘,当需要进行数据读取时,MergCloud会按照4kB细粒度大小统计所有数据块访问频度,根据其最近的热度,将热数据保存在SSD中,并将冷数据替换到SATA盘中。MergCloud还进一步优化文件系统,通过将随机的小I/O写请求合并成一个大I/O写请求,顺序写到SSD日志中,既减少对SSD的擦写,提高SSD寿命,又大大提升了I/O吞吐量。
3.4 主动自愈式数据容错
Datapp MergCloud在多节点上可实现多副本的方式来提供数据冗余和高可用特性,并能够进行主动式的自愈修复。MergCloud对每个虚拟存储盘支持1~3个不同的副本,因此用户可以根据业务需求灵活的制定业务所需要的副本数。
同一份数据的多个副本会分布到不同的物理服务器节点上,即便一个服务器节点损坏也不会影响数据的可用性和可靠性。MergCloud会周期性的扫描系统中可用的数据块,一旦发现某个数据块的可靠性级别低于设定值,就会触发智能恢复。例如用户设定某个虚拟盘副本数为三份,同一份数据会复制到三个不同的物理服务器上,假使某台服务器损坏得数据副本数减少,MergCloud会及时发现这一事件,并将数据恢复到另一台健康的物理服务器,以确保三副本的数据可靠性。
3.5 业务连续性
3.5.1 不停机扩容
Datapp MergCloud在扩容升级过程无需暂停任何服务,用户虚拟机里的业务无需中断。
3.5.2 硬盘热插拔
当磁盘损坏需要更换的时候,无需停机断电,用好的磁盘替换损坏的磁盘即可,MergCloud可以自动将顺坏磁盘的数据恢复出来。
3.5.3 存储服务自动重连
网络分区在分布式系统里是很常见的错误,这类错误会导致分布式存储暂时不可用,MergCloud支持虚拟机自动重连存储服务的机制,使得虚拟机I/O不会受短暂网络错误影响。
3.5.4 VM热迁移
MergCloud天然支持虚拟机热迁移,允许在不关闭虚拟机的情况下,将其转移到另一台物理服务器上运行。MergCloud是一款分布式块存储系统,虚拟机热迁移不再需要迁移本地存储盘,仅仅需要拷贝内存和CPU状态,因此极大的提高了虚拟机热迁移的速度,提升业务的连续性。
3.6 快照与精简配置
Datapp MergCloud能够对数据进行快速的快照保护动作,其快照只是对元数据的一个拷贝,不影响其系统的运行。每一个快照都是独立的,用户可修改删除任何一个时间点的快照而不影响后续的快照,同时,用户也可以在几秒内将任何一个存储盘回滚到任何一个时间点的快照上。
MergCloud还能够提供精简配置功能。依托精简配置的功能,用户可以划分出大于当前实际容量的存储空间,而磁盘只有写入实际数据时才会被消耗存储空间。这项功能为公有云提供了强力的容量许可支持,为私有云客户也节约了成本支持,实现真正的按需购买。
3.7自动化运维管理
Datapp MergCloud可实现自动运维管理。在统一管理平台上,可提供硬件管理、虚拟化平台管理、资源池管理,以及在统一资源池之上的虚拟机数据管理、应用管理等功能。同时也能完成对全系统各种资源的生命周期维护。
MergCloud的管理平台可以部署在其中一个计算节点上,也可以部署在多台计算集群上实现高可用。能够提供以下功能:
应用自动部署:通过镜像模板自动部署应用,包括创建虚拟机、安装OS、配置网络、安装应用,应用拓扑等一系列的操作;
统一资源管理:建立统一的资源管理模型对使用者提供统一的资源管理视图,包括各种资源的监控以及预警;
硬件自动探测与恢复:系统能够自动发现并扫描内部的硬件信息,并自动完成软件的安装、配置并加入资源池;同时能够快速发现新加入的硬件并自动加入资源池;硬件发生故障后能够自动探测,故障解决后也能够自动恢复。