字体:  

SEPATON 虚拟带库打破常规的奥秘

武家麟 发表于: 2007-10-09 16:09 来源: 动力存储

当供应商打破常规,做出意想不到的创新,你一定会感到欣喜;当你体验到新产品的优点,而不需要改变现有的习惯时,你一定会爱上它。SEPATON公司正是在磁带世界中完成了这一切。
任何人如果维护过基于磁带的备份设备,一定会熟悉磁带的优点与缺点。磁带能够以较低的成本存储大量数据,如果将流式数据优化到合适的速率,磁带也能够较快地存储大量数据。然而,由于备份用户产生的数据量是变化的,不可预计的——特别是在增量备份中,许多备份系统使用多路调制技术来产生足够的流式数据,保证磁带驱动器正常工作。使用多路调制技术的负面影响是降低了恢复速度。
与磁带不同,基于ATA的磁盘阵列比传统的光纤通道磁盘阵列的成本低很多,同时逐渐变得非常流行,它可以通过两种方式集成到备份系统中。第一种方式是,将盘阵连接到备份服务器,将文件系统放置其上,使用备份软件的本地功能备份到基于磁盘的目标上。这一过程听上去很简单,但是需要用户改变备份系统的配置;最后的碎片还会引起性能的问题,基于文件系统的目标不能以磁带库的方式进行共享,需要管理员为多个备份服务器进行磁盘阵列的分区。
第二种将磁盘集成到备份/恢复系统中的方式是使用虚拟磁带库(Virtual Tape Library,VTL),它使得磁盘阵列对于备份/恢复系统来说像是磁带库,这样一来,无须改变配置就可以在备份系统中使用磁盘,而备份系统仍旧认为在向磁带进行备份——只有你知道其中的奥秘。如同物理磁带库一样,VTL可以通过驱动器共享软件来进行共享。此外,大多数VTL在磁盘上存放数据的方法确保了零碎片。

SEPATON S2100系列

SEPATON设计了高速的S2100系列产品,带给人们许多惊喜。下面将描述S2100可以完成的工作,并介绍其在未来将要实现的功能。SEPATON也是一家软件公司,它与硬件供应商一起为客户提供完整的VTL,其VTL包括一个或多个可扩容引擎(Scalable Replication Engine, SRE),在SRE上装有SEPATON VTL软件。另外,VTL还包括一个或多个RAID保护磁盘架。增加SRE可以提高性能,还可以用添加磁盘架来提高性能和容量。系统可以在单一机柜的情况下,将容量从1.5TB配置到200TB,速率从150MB/s配置到900MB/s。到今年年底,系统预计达到3600MB/s的传输速率,这相当于120台LTO-2做本地备份的速率。
使用集成的图形化用户界面(GUI),可以将磁盘架分组到多个甬道中;为每个VTL分配一个甬道,并使备份应用软件可以识别该甬道。例如,假设购买了十个一组的磁盘架,可以建立一个甬道来容纳十个磁盘架,或者建立两个甬道——一个容纳四个磁盘架,另一个容纳六个磁盘架(其他的磁盘架组合形式都是一样的),然后将每个甬道分配给不同的VTL,这一功能允许对相同的磁盘组放置类似的备份,进而带来性能和安全方面的好处。
SEPATON将数据写到甬道的方式使得其虚拟磁带库的传输速度很快,数据以块的形式写到磁盘,数据块也称做extent;同时使用算法在给定的甬道中把多个extent均匀分配到所有的磁盘架上,例如,假设备份软件向VTL写320MB数据,使用包含10个磁盘架的甬道,这320MB数据将会分为10个extent 1,每个extent会分别写到10磁盘架。
按照这种方式分配磁盘有两个好处,第一是提高了容量,正如前面所提到的,VTL的供应商希望以某种方法向磁盘写数据,而这种方法可以最小化/消除碎片,这也是VTL比起基于文件系统的备份目标的优势之一。一些VTL的供应商会把邻近的磁盘区预先分配给磁带卷,这种写数据的方法使得ATA磁盘写/读邻近磁盘区时达到极高的吞吐量。然而,如果为VTL中所有虚拟磁带预先分配磁盘,即使磁带尚未全满,仍会用掉所有的磁盘容量,这就导致了明显的磁盘容量的损失。而SEPATON VTL只有在磁盘写时才会用到磁盘。

       
1、1个extent的大小默认是32MB,但实际的extent大小是由用户配置的。
第二个按照这种方式分配磁盘的好处是提高了速度,由于在磁盘甬道中为所有的磁盘划分了读/写区,所以最大化了读/写吞吐量。如果分配给甬道更多的磁盘架,甬道的速度就会变得更快,并给予甬道更多可用的柱面。前面提到的其他VTL供应商所采用的方法限制了对单一磁盘卷进行备份的吞吐量,因为磁盘读写都是在同一卷中进行的,而SEPATON的方法如果说备份速度受到影响的话,只能是来自于备份通过SRE的速度,这也就是为什么能够亲眼所见单一的、非多路的数据流以大于100MB/S的速率写到一个SEPATON虚拟磁带驱动器上的原因所在。此外,虚拟磁带驱动器还能进行慢速写,这意味着虚拟磁带驱动器可以处理任何速率的备份——非常快或非常慢。
如果讲到这里就停止了,那么SEPATON VTL也已经给人留下了深刻的印象,但是功能和可扩容性不是SEPATON产品区别于其他产品最主要的地方,最突出的不同是SEPATON产品打破了常规。在SEPATON公司,你会意识到,虽然在模仿磁带,但并不是真正的磁带。真正的不同之处是特别为存储备份数据而建立的客户化文件系统,该文件系统可以完成快照、复制、指针和各种磁带不能完成的事情。如果在备份领域实现这些功能,要做哪些事情呢?
最初,SEPATON和其他VTL供应商一样也遇到了障碍,只是通过备份软件把数据块取出,然后将其放到磁盘上。他们并不知道数据块中究竟是什么,所以首先要做的是指出其中的内容。在这个时候,他们完全明白了使用NetBackup时的格式,并且正在逐渐了解使用NetWorker和TSM时的格式。一旦写完备份后,他们会检查所写影像,并识别影像的内容。此外,还要决定备份的类型、备份包含的文件(或其他项目)和文件的来源。在这些全部完成后,他们需要建立一个内部数据库——基本上就是备份服务器索引或目录的副本。当拥有了这些信息后,SEPATON便可以打破所有的规则。根据我的知识,这一切是因为SEPATON有了最初的备份目标,并且清楚该备份目标所存储的内容。今天,SEPATON利用这些信息所做的一切和今后将要做的一切正是其产品区别于其他产品的地方。
下面讨论一下全量备份。如果一个客户端上90%的数据没有改变,我们在磁带上就已经得到了90%的客户端数据,为什么要对该客户端进行全量备份,并将所有数据再次经过网络传输呢?答案是如果不这样做,就必须装载数百盘增量备份磁带来进行恢复。因此,有时备份客户端的所有数据(即使客户端没有改变)是为了减少恢复所需的磁带数目。TSM指出这种方法的缺点,并开发出从磁带到磁带传输未改变数据的方法,只传输客户端未改变的数据——也称为永久增量备份。这一观点传到NetBackup后就产生了综合全量的特性,传到NetWorker后产生了saveset合并的特性。其他的备份产品也采用了类似的机制。
结果就是,无须再次从客户端传递所有数据就可以得到全量备份。这样一来,节省了客户端的网络带宽和CPU周期,而缺点是数据在磁带到磁带间传输仍然耗费了时间。当已经完成的全量备份和许多增量备份从一个磁带集合传输到一个新的全量备份时,无论是磁带还是使用磁带的驱动器都不能用来进行另外的备份和恢复。
然而,SEPATON可以提供综合/集中全量备份的好处,而并没有上述缺点。在知道了所有文件的位置和发送的时间后,就可以简单地使用指针来建立新的全量备份。使用指针可以迅速建立一个新的虚拟全量备份,来取代从一个虚拟磁带向另一个虚拟磁带拷贝数据(这会占用时间)。当新的全量备份建立后,可以告诉备份软件全量备份的内容和全量备份所在的“磁带”2,然后备份软件会把该全量备份看做和其他全量备份一样。该全量备份还可以用于进一步的增量备份和恢复,并且能拷贝到真正的磁带。
虚拟全量备份除了即时功能以外,在容量方面也具备优势。如果使用备份软件建立了真正的综合全量备份,与通常的全量备份一样,也会占用同样大小的磁盘空间。然而SEPATON的虚拟全量备份几乎不会占用任何磁盘空间,请记住,SEPATON仅仅使用了指针。


2、这里写到的功能只有NetBackup可以支持,NetWorker和TSM很快也可以支持。这并不是说不可以把SEPATON VTL和这些产品一起使用,而是不能通过这些产品实现这一增强功能。一旦这些产品实现了这一功能,这一功能会向回和已经建立的备份兼容。

当然,也应该注意到SEPATON的虚拟全量备份所存在的一个缺点。因为只有在备份软件将备份影像写到磁盘上以后才能读取备份影像,所以并不知道在给定的文件系统中哪些文件已经被删除了。任何全量或增量备份中的文件,如果已经在源文件系统中被删除,仍旧会进入新的虚拟全量备份。对于NetBackup的用户来说,如果不使用真正的图像恢复特性,也会遇到同样的问题。如果恢复一个完整的文件系统,被删除的文件仍然会恢复。这个缺点所带来的不利程度取决于日常写和删除文件的数量。对于大多数的文件系统,不会有太大的影响,而对于其他一些文件系统将是非常糟糕的。对于这样的文件系统,采用传统的综合全量备份会更合适。SEPATON正和备份软件供应商一起为解决这个问题而努力。

SEPATON接下来会做什么

在全面评价了SEPATON的结构后,再看看他们接下来会完成什么。因此,下面的部分将讨论SEPATON的结构还会具备哪些特性。这些特性目前还不存在,所以这里谈到的是SEPATON计划所做事情的技术评估。SEPATON宣布,他们已经完成了最困难的部分,并且知道了备份的格式,如何使用新的方式仿真备份(例如虚拟全量备份),如何把所做的一切同备份软件联系起来。将要讨论的其他功能就是用不同的方式将上述各项联系起来实现的。
第一件SEPATON计划所做的事情是,基于网络的终端用户不必通过备份软件进行恢复。当文件进行备份时,就已经得到了文件列表。如同将文件仿真为新的虚拟全量备份一样,SEPATON可以通过网络浏览器来展示备份文件列表,并允许管理员(或终端用户)准确点击给定文件,并将文件从SEPATON VTL直接下载到用户的系统上。这个操作就如同从网络上下载文件一样简单,无须装载或学习管理客户机,仅仅是一个人们熟悉的给定系统或用户的备份文件树。选择你希望下载的文件,并且下载它们。这一切是再简单不过的了,当然还在这个特性中加进了用户认证。
很明显,下一步要做的事情是,通过一个NFS/CIFS界面把相同的文件列表作为一个虚拟文件系统展示出来。当人们听到这个工作原理的时候,可能会感到迷惑。假设有一个系统中的磁盘阵列被破坏,需要维修和/或恢复,一旦真正的文件系统被维修/恢复,是否可以通过NFS或CIFS来即时访问文件系统的备份版呢?因为SEPATON可以用文件系统的形式展示备份,所以允许文件系统通过NFS或CIFS安装到任何系统上。信不信由你,该文件系统甚至可以被安装用以读/写访问,允许你立刻使用备份的文件系统从——文件系统备份即时恢复。虚拟文件系统的所有变化会被记录下来,并且以一种增量备份展现给备份软件。一旦真正的文件系统被恢复,可以使用备份软件将虚拟文件系统的改动恢复——恢复到原始的卷。
SEPATON还计划减少用来恢复一组给定备份所需的磁盘存储容量。实现的方法是,使用SEPATON VTL执行一个常规全量或增量备份,当备份执行后(并且不影响性能),将检查普通文件和普通数据块的备份,只存储全新的文件和数据块。如果有一个全量备份,并且一个文件已经备份,该文件在备份后可以被删除,用一个指针来取代它。如果是一个给定文件的增量备份,该文件只有两块数据发生了改变,就可以只存储两块数据,剩余的部分用一个指针代替。上述技术将单实例存储和delta-block增量技术带到了备份中,否则备份是不可能拥有这两种技术的。这样的技术不是磁带能够实现的,而且一套数据在磁盘系统的存储量比一个磁带系统要小,因此减少了成本。
如同前面所讨论的,基于内容的压缩使得另一个特性——复制产生了。很多人希望复制备份,但是不能实现。设想有一个适度改变的10TB系统,即使只有1-2GB的数据块发生改变,每晚也要做1-2TB的增量备份。尽管可以复制几个GB数据,但是复制几个TB数据就不那么容易了。然而,如果一个SEPATON VTL进行1-2TB增量备份,它会缩减为仅仅备份1-2GB的新数据块,这又会发生什么呢?这个VTL就可以把1-2GB数据复制到另一个VTL,并允许在线和离线备份,而不需要接触磁带,也不需要对备份软件结构进行任何修改。
下一个SEPATON计划实现的特性将会解决一个古老的问题。假设已经使用备份软件产品XYZ做备份很多年了,但希望开始使用备份软件产品ABC。然而,最大的问题是,已经有5年都在进行每月的全量备份,所以有了5年的XYZ格式的磁带。如果XYZ是SEPATON所支持的产品之一,并且把这些磁带备份到一个SEPATON VTL上(或拷贝到一个新的SEPATON VTL上),然后,SEPATON计划将XYZ的备份虚拟为ABC的备份——包括使用适当的目录/索引条目来告诉ABC所有的备份情况。这样,就好像一直在用软件ABC来做备份。同时,也可以在所支持的产品之间传递备份,而不必担心旧的备份。这意味着,如果发现产品ABC并不像所说的那么好,也能够转移回产品XYZ,就好像什么都没有发生,把ABC备份虚拟化为XYZ备份。
这些特性是SEPATON计划在以后的18个月左右将要发布的,一旦实现了这些特性,我认为SEPATON会进一步的应用相关技术。此外,他们还会解决一些块级增量产品的限制问题,例如,一些类似的产品大大提高了备份速度,但是由于要加载大量包含许多小块数据的磁带来完成恢复,所以降低了恢复的速度。然而,如果SEPATON可以很好地读取备份,便可以创建一个即时读的虚拟全量备份。出于离线的目的,该虚拟全量备份还会拷贝到物理磁带上。
另一个运用该技术的地方是与物理磁带库集成,我对SEPATON正在计划完成的事情感到非常兴奋,我还看到VTL和物理磁带库集成后,在此环境下拷贝所产生的巨大价值。但是,集成的VTL有一个限制,即目前还不能够将该环境的磁带创建和备份软件联系起来。既然SEPATON在做虚拟磁带时已经考虑到备份软件产品的配合,那么在将来也许会添加磁带集成的功能。
正如我在白皮书的开头所说的,SEPATON已经打破了所有的规则,他们正在开始提供人们期盼已久的各种功能,而无须用户彻底改变现有的备份操作。