StorNext 所具有的特性完全适用于这项工作
30 亿个 DNA 片段?对于 StorNext 完全不是问题
有一些任务是比测序更加数据密集型的,30 亿个化学“积木”组成了 24 中不同人力染色体的 DNA。管理这类数据是一项艰巨的挑战,直至贝勒医学院人类基因组测序中心部署了昆腾的 StorNext,一切迎刃而解。成效: 经济高效的数据管理,可对海量研究内容进行即时性共享访问。
旧有系统容量难以应对如此多的数据
作为美国致力于疾病遗传影响研究的三大中心之一,HGSC 拥有几十位从事 DNA 排序数据分析的科学家。每日生成的大量数据和需要随时可访问数百 TB 的数据以进行分析,HGSC 零散的技术基础设置逐渐成为重要研究的障碍。
至 2008 年 Geraint Morgan 被任命为信息系统主管时,数据量已经使 HGSC 的存储容量几近枯竭,当时预期未来两年数据量将增长 20 PB。此外,集中管理由服务器、网络和各类存储技术构成的复杂异构环境也极具挑战。
实践证明 StorNext 是大数据管理“利器”
在借鉴其他公司如何应对大数据挑战时,Morgan 很快发现了一个名字:昆腾的 StorNext。
Morgan 表示:“StorNext 提供了我们所需的可扩展性,支持现有存储硬件,无需额外地大规模投资硬件,是一个易管理的系统。
HGSC 为了实现跨多个操作环境的文件共享和跨存储层的自动化数据迁移,购买了 StorNext 文件系统和 Storage Manager 两款产品。
现在,在本地基因组扫描仪设备上完成数据收录后,数据会复制到一个中央 StorNext 文件系统。StorNext 分布式 LAN 客户端上运行着多个基因组分析应用程序,同时它还连接着集中存储设备,因此可以并行处理数据。StorNext Storage Manager 可以自动地在不同磁盘系统和昆腾 Scalar 磁带库之间移动数据,所以可以以较低的成本保护内容。
自部署 StorNext 以来,Morgan 对这一产品的优势一直非常满意。
Morgan 坦言:“基因组研究的本质决定了我们今天生成的数据可能没有什么明显价值,但日后可能会成为重要发现的线索,所以,HGSC 生成的所有数据都要保留下来。这就导致了归档规模不断增长。而 StorNext 在帮助我们管理这一增长方面发挥了关键作用。数据的指数级增长是我们计划使用 StorNext 提供的重复数据删除功能的另一个原因,它可以帮助我们优化归档所需的存储容量。”