去年,NASA選擇了亞馬遜云服務(AWS)來托管地球科學和ESDIS信息系統的數據。
新數據庫可方便地整理相關任務信息,預計存儲需求會從當前的32PB增長到近250PB。
然而除了額外的容量需求,該機構似乎忘記了AWS的數據訪問和檢索成本,即所謂的“出口費用”。
【資料圖,來自:NASA】
當將數據從云端移動到另一個區域(比如供科學家進行分析的本地工作站)時,NASA將不得不在按月收取的服務費的基礎上,再支付一筆額外的費用。
換言之,檢索的數據越多,相關的開銷舊越大。目前該機構將數據本地存儲在12個分布式的活動檔案中心(DAAC)中,但希望在未來幾年完成全面的云端遷移。
初次轉移計劃已在今年一季度開展,但相關數據都來自何處、NASA又是如何精確到215PB的呢?
據悉,NASA是根據該機構即將開展的15次訪問來估算的,預計每日將產生100TB以上的信息。
其中包括NASA-ISRO合成孔徑雷達(NISAR)和地表水與海洋地形(SWOT)衛星的數據,這部分將率先上傳到EarthdataCloud。
若該機構可以負擔得起這部分數據出口費用,那將所有這些數據存儲在云端(而不是像現在這樣分散),將對NASA研究人員大有裨益。
【2017~2025數據增長量(藍色)/提取速度(橙色)】
遺憾的是,根據NASA監察長辦公室在今年3月份發布的一份審計報告,相關模擬并不能準確地得出ESDIS和EOSDIS的出口費用將有多高。
若NASA出于成本控制的原因而限制數據的輸出量,此舉也將帶來一些潛在的風險,即科學數據對最終用戶的可訪問性將大大地降低。
基于此,該報告提出了三點建議:
首先,一旦NISAR和SWOT投入運營并提供了足夠的數據,NASA必須完成獨立的分析,以確定云遷移和保障當前DAAC運營的長期財務可持續性。
其次,適當納入機構指導,以在制定數據管理計劃的早期階段,做好ESDIS和OCIO的協調工作。
第三,確保在DAAC分類過程中考慮所有適用的信息類型,在確定影響級別時考慮適當的前提,并對相關流程做到標準化。