原標(biāo)題:如何抓住一片云——云計算成科學(xué)家寵兒
計算機(jī)學(xué)家Mark Howison正在準(zhǔn)備分析提取自24個管水母目動物的RNA,這種海洋動物與水母和珊瑚關(guān)系密切。但美國羅得島州布朗大學(xué)的本地高性能計算機(jī)在維修之后并沒有恢復(fù)充分的可靠性。于是,Howison決定使用亞馬遜的彈性計算云。兩個小時后,Howison配置了一臺虛擬計算機(jī)運(yùn)行他的軟件,并上傳了管水母目動物的序列。14小時、花費(fèi)61美元,分析完成。
越來越多像Howison這樣的研究人員,選擇從亞馬遜和谷歌等商業(yè)供應(yīng)商手中在線租借計算資源,而且不僅僅限于緊急備份。2013年,美國國家科學(xué)基金會(NSF)資助的一項(xiàng)調(diào)查顯示,云為實(shí)驗(yàn)室提供了接觸到它們難以從其他地方獲得的計算能力。需要強(qiáng)大計算能力的科學(xué)家只需要租借額外的計算能力,而非購買永久硬件。
科學(xué)家能配置云環(huán)境,以適應(yīng)自己的需求。盡管云計算不能處理需要最先進(jìn)超級計算機(jī)進(jìn)行的分析工作,或機(jī)器間的互聯(lián),它可能只適合太大而無法在臺式機(jī)上完成或太小而不值得使用高性能超級計算機(jī)的項(xiàng)目。而且,在線工作讓研究團(tuán)隊(duì)可以更容易地展開合作,分享數(shù)據(jù)的虛擬快照、軟件和計算配置。
但將科學(xué)轉(zhuǎn)移到云上,并不是一個輕松的任務(wù)。“你需要一個技術(shù)背景。針對一個像科學(xué)家這樣的終端用戶進(jìn)行設(shè)計,這并非易事?!盚owison說。盡管活化能量可能較高,但這里為嘗試為自己的研究或?qū)嶒?yàn)室配置云環(huán)境的科學(xué)家推薦了路徑。
大部分云平臺都要求使用者具備基本的計算機(jī)技術(shù)。例如,理解命令行是如何工作的,以及能熟練使用操作系統(tǒng)和文件結(jié)構(gòu)。一旦研究人員擁有了堅實(shí)的計算機(jī)基礎(chǔ),下一步就是嘗試在云中工作了。
普吉特灣大學(xué)植物生物學(xué)家Andreas Madlung表示,部分對科學(xué)家而言容易使用的云可能是Atmosphere平臺。他參與創(chuàng)建了名為iPlant的協(xié)作網(wǎng)絡(luò)基礎(chǔ)設(shè)施項(xiàng)目。這個由NSF資助、美國3所大學(xué)和冷泉港實(shí)驗(yàn)室領(lǐng)銜的項(xiàng)目,自2008年起,就幫助科學(xué)家分享軟件和進(jìn)行免費(fèi)分析。
考慮到科學(xué)家的需要,該平臺的界面設(shè)有預(yù)先載入的軟件、一系列操作數(shù)據(jù)集和討論區(qū),以便用戶彼此幫助解決問題。Madlung還負(fù)責(zé)教授生物信息學(xué)本科課程,其中就包括云計算的章節(jié)。他首先向?qū)W生介紹了Unix操作系統(tǒng),然后讓他們使用相關(guān)知識在Atmosphere平臺分析RNA序列數(shù)據(jù)。
那些注冊iPlant的用戶,被自動分配到每月約168小時的處理時間。而且如果有需要,用戶還能申請更多時間。用戶能加載攜帶其需要的額外軟件的虛擬計算機(jī),并且如果一項(xiàng)工作對于標(biāo)準(zhǔn)設(shè)備而言過于繁重,任務(wù)會被卸載給得克薩斯高級計算中心的超級計算機(jī)。
加州大學(xué)戴維斯分校生物學(xué)家Mike Covington由于超載使得服務(wù)器頻繁崩潰,后將自己實(shí)驗(yàn)室的計算工作轉(zhuǎn)移到了iPlant。他還制作了自己的虛擬計算機(jī)副本,以便合作者和iPlant的用戶能登入和使用相同的軟件、數(shù)據(jù)和計算結(jié)構(gòu)?!叭绻夷芑ㄙM(fèi)數(shù)小時設(shè)置好自己的虛擬計算機(jī)并完美地進(jìn)行de novo基因裝配,我也能迅速并簡便地讓其他希望進(jìn)行相同工作的科學(xué)家使用它?!盋ovington說。
而這些虛擬快照可能成為那些需要計算工作的項(xiàng)目的標(biāo)準(zhǔn)。例如,任何需要復(fù)制一篇論文中的微生物基因組分析的人,都能使用作者在亞馬遜云上提供的虛擬計算機(jī)快照,只需要支付使用時間費(fèi)用。
對于一些研究人員而言,選擇一個云平臺是簡單的。自2013年起,歐洲核子研究委員會的科學(xué)家就開始使用一個大型的內(nèi)部云平臺,康奈爾大學(xué)和圣母大學(xué)等機(jī)構(gòu)也在開發(fā)云計算。而布朗大學(xué)進(jìn)化生物學(xué)家Casey Dunn更喜歡培訓(xùn)學(xué)生使用商業(yè)平臺?!爱?dāng)他們在其他地方開始博士后工作或擁有自己的實(shí)驗(yàn)室時,他們?nèi)阅艿卿泚嗰R遜?!彼f。
斯坦福大學(xué)基因組學(xué)和個性化醫(yī)療中心生物信息學(xué)部門主任Somalee Datta就正在使用谷歌的云平臺——而非僅僅依賴斯坦福大學(xué)的計算服務(wù)——支撐該中心龐大的基因數(shù)據(jù)和計算需求。她說,選擇谷歌的原因有幾個:該公司研發(fā)者積極為基因組研究開發(fā)工具,谷歌在衛(wèi)生保健研究方面也展示了興趣,并且價錢合理。
對于Datta和其他人而言,圍繞云計算的一個重要議題是安全性?!斑@是一個極大的關(guān)注點(diǎn)?!彼f,“黑客知道什么是有價值的,他們將把注意力集中在這里?!倍遥珼atta認(rèn)為云計算并不比其他計算機(jī)網(wǎng)絡(luò)安全。例如,一所大學(xué)的云系統(tǒng)僅像其防火墻一樣堅固。
困擾打算進(jìn)入云平臺的研究人員的另一個問題是所需要的技術(shù)支持水平。獲得在新系統(tǒng)上運(yùn)行的軟件可能需要數(shù)天,并需要反復(fù)嘗試計算能力或虛擬計算機(jī)的記憶能力。盡管所有云服務(wù)者都提供培訓(xùn)和教程,但專門的技術(shù)服務(wù)人員在擁有校園云的大學(xué)中更為常見。
盡管存在挑戰(zhàn),但云計算正吸引著越來越多的科學(xué)家投身其中。Dunn表示,這并不令人驚訝,“幾乎所有的計算機(jī)產(chǎn)品消費(fèi)者都擁有一個云,可能是移動應(yīng)用程序、流媒體服務(wù)或桌面工具”。