北京諾禾致源科技股份有限公司于2011年3月在北京中關村生命科學園注冊成立,專注于開拓前沿分子生物學技術和高性能計算在生命科學研究和人類健康領域的應用,致力于成為全球領先的基因組學產品和服務提供者。
諾禾致源全基因組重測序采用先進的測序平臺,快速、高效地讀取高質量的測序數據。隨著公司業務的發展,高性能計算平臺將會持續更新并擴容,以保證高效的數據處理和安全的數據存儲。然而隨著計算集群規模的不斷擴大,海量數據的存儲、管理等方面臨著諸多的挑戰:
【整體方案理念】
在充分理解用戶需求的基礎上,榮之聯極道存儲系統針對不同數據存儲模型,做了極致的性能優化,集合多套存儲系統,把他們有效的整合在一起,達到物盡其用的效果。同時通過與數據管理與計算系統的結合,使得數據不再僵化的存儲在一個大池子里面,而是能夠智能的流動起來。
【二代基因分析存儲方案】
二代基因分析業務對存儲性能、存儲容量要求都非常高,主要體現在如下方面:?
榮之聯極道生物數據存儲為了解決生物信息數據空間和數據持久化問題而設計,能夠理解應用場景,實現極致性能優化。
其中極道Alamo-D存儲系統針對高帶寬為主的應用類型設計,能夠提供卓越的帶寬性能(每個節點1GB以上),針對頻繁的元數據操作和訪問,存儲還具有SSD元數據加速、緩存加速技術來保證高IOPS響應。
同時榮之聯極道生物數據存儲能夠智能追蹤元數據的變化,自動提取數據特征信息,與數據管理系統結合實現快速發現數據、數據多維有序、動態組織數據集和數據溯源等功能;
方案拓撲示意圖
二代測序和三代測序都屬于高通量測序技術,測序數據產出量很大,需要結合高性能計算技術來進行后續的測序數據分析。三代基因測序組裝這類應用對于系統的計算性能、存儲性能等方面都有很高的要求。
目前,由Pacbio公司開發的FALCON是第三代基因測序組裝領域的主流軟件。FALCON由于把測序數據(rawdata)切割成KB級別的卷來進行糾錯,因而需要頻繁的磁盤I/O,所以在計算過程中,磁盤I/O經常會成為系統瓶頸。
FALCON應用特征:
1.磁盤IO 方面,程序運行過程會產生并產生大量小文件,IO操作較為頻繁;
2.raw_data 的merge 部分,IO壓力較大;
為了應對三代測序對于高磁盤IO操作的應用特點,榮之聯極道采用Anna存儲系統-----一款針對IO性能優化的分布式存儲系統。利用NVMeSSD 硬盤構成高速緩存池,極大的優化了IO響應性能,并且通過智能分層技術動態的將數據從SSD層遷移至HDD層,降低總體成本的同時,進一步提升了數據的可靠性。
存儲規劃:
? 存儲節點:3臺Anna分布式存儲節點
? 數據保護:雙副本
? 存儲空間規劃:
√CachePool :3 塊 3.2TB NVMe SSD/節點;
√MetaData:1塊 800GB SATA SSD/節點;
√DataPool:10 塊8TB 7.2K HDD/節點;
1)理解應用場景,極致性能優化
榮之聯極道分布式存儲系統是為解決生物信息數據空間和數據持久化的問題而設計的。推出Alamo-D、Anna和 Alamo三個系列的分布式集群存儲系統,分別滿足應用對高帶寬、高 IOPS、數據歸檔的需求。多套存儲系統能夠實現統一部署、統一管理,構成統一的生物數據空間。
2) 與“管”結合: 數據感知,多維數據呈現;
通過獨有的數據感知引擎,實時跟蹤記錄數據特征,實現快速的數據發現和組織。
3) 與“算” 結合: 應用感知,智能數據空間分配;
通過與計算系統的緊密結合,能夠智能感知應用負載類型,調用合適的存儲空間。