谷歌將CloudDataflow捐獻給Apache軟件基金會,以此開放更多源代碼。此舉對谷歌來說可謂開了先河,為大數據公司提供了新的基于云的數據分析方案和集成機會。
CloudDataflow是一種用來處理云端大量數據的平臺。它擁有一種基于Java的開源SDK(軟件開發(fā)工具包),這樣一來,就很容易與其他以云為中心的分析和大數據工具實現集成。該平臺對大數據業(yè)務來說主要的價值在于,提供了與新出現的技術保持兼容的優(yōu)點,同時仍可以整合到現有工作流程中。這樣一來,每當出現一種新的數據處理框架,企業(yè)組織就沒必要重新改動其分析基礎設施或代碼。
雖然DataflowSDK在一年多前就已開源,但谷歌在這周邁出了更大的一步:提議將這個平臺變成Apache孵化器項目。此舉為Dataflow的代碼庫最終成為Apache軟件基金會旗下一個完備的項目鋪平了道路。谷歌與Cloudera、dataArtisans、Talend、Cask和PayPal共同提出了這個提議;這項提議如果獲得批準,就更容易以一種開源、與廠商中立的方式,將Dataflow在可擴展性和集成方面的功能做入到商業(yè)大數據平臺中。
比如說,Talend就這么說:“充分利用Dataflow框架的開發(fā)人員不會被某一種特定的數據處理運行時環(huán)境‘鎖定’,能夠充分利用新出現的數據處理框架,沒必要重寫其Dataflow流水線,因而可以適應未來的需要。”對渠道而言,谷歌的提議意味著,云和大數據勢必會更相輔相成地一同發(fā)展,這會讓開源大數據公司更容易確保未來的數據分析解決方案具有開放性。