短短幾年之內,大數據已經徹底改變了企業運營業務的方式——但截至目前,我們才剛剛初窺其門徑。隨著企業開始有意識到收集各類數據信息,其亦開始發現對這部分數據加以正確利用所能夠帶來的巨大潛力。
一些積極迎接變革的企業發現,他們的數據實際上可能正是其掌握的最大資產。除了數據本身之外,精明的企業還能夠通過分析數據內容以了解并更好地服務于自身客戶,甚至能夠將其中一些關鍵性數據出售給合作伙伴及下游廠商以賺取額外利潤。舉例來說,優步與Lyft等服務就能夠非常準確地把握與客戶出行習慣相關的數據,并將其交付至Airbnb、VRBO等其它網站。與此同時,Fitbit及其它廠商提供的健身追蹤器亦能夠利用用戶的健康活動數據實現巨大價值。即使是與醫療衛生業務毫不沾邊的蘋果公司,也能夠以前所未有的洞察能力審視其原生健康應用數據。
在理論層面講,如此龐大的數據寶庫將能夠為B2B及B2C企業帶來集中且立足實踐行為的洞察結論,進而以前所未有的方式開啟新的機遇大門。然而,面對著一系列重大的技術性與財務性障礙,很多企業實際上并不清楚自己的下一步大數據戰略該走向何處。其已經開始在數據挖掘領域試水,但尚未制定出一套能夠順利邁進的堅實戰略思路。
為何存在挑戰
截至目前,實現大數據技術承諾的最大障礙之一在于龐大的資金投入要求。從當下的情況來看,最為成功的項目往往需要耗資數百萬美元,例如沃爾瑪的專用數據創新實驗室WalmartLabs。然而,這種項目只適用于那些世界上最為龐大的企業,其具備極為雄厚的財力與幾乎無窮無盡的資源。很明顯,這樣的標準對于其它公司而言并不適用,或者說毫無實現的可能。
為何利用大數據技術會呈現出如此明確的資源密集型傾向?答案主要分為以下三個方面:
數據的輸入速度極快,且數據來源數量亦急劇增加:移動、云應用、物聯網——從用于追蹤庫存與設備的RF標簽到一切接入網絡的家用電器——當然,社交媒體亦是一大不容忽視的實時數據來源。
此類新型來源幾乎全部在以非結構化或者半結構化格式交付數據,這使得傳統的關系型數據庫管理方案——即SQL以及幾乎一切現代數據庫系統的實現基礎——毫無用武之地。除了收集及存儲方面的挑戰之外,合規性要求中的隱私與監管要求亦會帶來新的復雜性層。不斷發展的標準要求需要完整團隊配合先進的技術、管理與維護手段方可實現。
隨著在數據復雜度的日益提高,用于管理數據的具體技術方案亦變得更難于使用。Hadoop、Kafka、Hive、Drill、Storm、MongoDB以及Cassandra等開源工具外加一系列專有方案共同構成了獨立且相互競爭的方案生態系統,只有具備深厚的技術操作知識方可將其真正應用在商業環境當中。事實上,此類人才資源非常稀缺,大多數非財富五百強企業都無力承擔由此帶來的高昂開支。
缺失之處何在
可以看到,絕大多數企業僅僅是在努力管理并挖掘自己的存儲數據集,而很難實際利用數據中的信息建立自身競爭優勢。在實踐性、實用性及可行性方面,企業還無法充分運用現有工具發揮數據中的可觀潛能。需要明確的是,目前我們并不缺乏良好的大數據工具,事實上我們缺乏的是真正具備效率與有效性的解決方案,這種能夠解決數據孤島及高度依賴性難題的手段既匱乏又難于維護。
為什么?因為截至目前,我們的重點一直放在整合應用程序并建立各類獨立工具與平臺之間的連接機制,缺少這種橋梁它們將根本無法協作。舉例來說,我們需要想辦法對接CROM與ERP,或者將銷售工具與市場營銷自動化機制相整合。
這種應用到應用型方案的問題在于,其完全忽略了數據本身——這意味著數據仍然可能以分裂化、孤立化或者碎片化形式存在。即使應用程序能夠彼此連接,如果其各自擁有自己的數據存儲形式,那么數據亦無法實現通用。這意味著我們將面對大量不完整或者重復的數據記錄,即通常所謂的“臟”數據。任何分析方法都無法利用這樣的數據素材提供可靠的結論——因為數據本身就不夠可靠。
我們該如何解決問題
為了真正處理大數據——同時利用其實現洞察分析與業務增長,而非單純進行數據收集——我們需要一套新型方案以專注于數據本身,而非應用程序。事實上,相較于應用程序級別,立足于數據層級解決集成化問題才是實現大數據項目成功的關鍵所在。
通過將集成與數據管理融入單一統一化平臺,我們將能夠構建起一套全面、簡潔且具備來源中立性的數據湖,企業可將其作為單一可靠來源基礎,并接受任何源或者分析應用的寫入或者讀取訪問。除了敞開大門允許幾乎一切應用出于幾乎一切目的以正確方式接入正確數據之外,其還能夠顯著提升分析工作的效率、精度與可信度。
iPaaS就是答案?也許言之尚早……
盡管不少從業者高度提倡將iPaaS(即集成平臺即服務)作為最佳解決方案,但這種自助式方案仍然會給內部團隊帶來沉重的復雜集成工作負擔,而且相當一部分企業根本不具備相關資源或者由自身IT及業務人員管理集成化“管道”的意愿。隨著新型集成化需求的快速涌現,我們很難找到順暢可行的iPaaS方案規模擴展途徑,更不用提由此帶來的合規性與數據治理難題了。為業務用戶提供獨立于IT之外配置集成機制的能力可能對安全性及合規性造成危害,亦可能無意中導致企業遭遇信息泄露進而受到懲罰,同時此類未受IT集成策略支持的一次性實施工作還可能造成設計中需要盡可能避免的數據孤島問題。
最后,盡管實現過程較為簡單,但其在成本與可擴展能力方面存在嚴重局限。利用iPaaS,我們將很難為未來的發展做好打算;在本質上,這只是一種臨時性解決辦法,且必須反復調整以適應需求增長與變化。
理想的解決方案:dPaaS真正實現大數據成功
值得慶幸的是,目前已經出現了一種全新的大數據管理與集成方法,且適用于任何規模的企業,并可通過高效、可管理且可擴展的方式對大數據資源加以運用。
數據平臺即服務,簡稱dPaaS,是一套統一化多租戶云平臺,可通過更為靈活且以數據為中心的應用中立性方式提供集成與數據管理托管服務,從而滿足幾乎一切與大數據相關的需求。相較于專注于集成應用程序,dPaaS專門負責集成數據,確保跨應用數據湖讀取或寫入操作的簡潔性、質量、可訪問性以及合規性。
利用dPaaS,企業能夠徹底告別數據孤島及復雜性乃至高成本集成項目,真正隨時擁抱新型應用、從堅實的數據存儲庫內提取信息并保持完整的數據生命周期內可視性——且享受各類內置合規性與治理能力。
下面來看其中的幾項核心功能:
統一化數據管理
利用dPaaS,企業的整體數據存儲庫可被管理為單一全面存儲集合。不同于iPaaS與應用到應用類集成方案所導致的數據孤島、不匹配字段、缺失值、重復記錄以及其它“臟”數據問題,dPaaS能夠保持數據獨立于應用程序之外。其創建并維持一套無模式中央存儲庫,同時包含指向幾乎一切數據源的元數據關系,這意味著企業能夠輕松地隨時添加新型應用并繼續保持其數據的簡潔性、綜合性與準確性。
內置合規性
保持對不斷演變的合規性要求的持續遵循正變得愈發困難且成本高昂,這意味著我們需要投入大量資源與時間進行審計及重新認證。然而利用dPaaS,合規性能夠立足數據層得到保障,這意味著由相關平臺供應商負責對基礎設施進行持續認證維護,從而確保以全面而非零散的方式進行監管遵循。具體來講,dPaaS會將大部分合規性負擔轉移給供應商,從而更好地保障閑置與活動數據與合規要求相符。
卓越中心
dPaaS能夠構建起一套集成卓越中心(簡稱COE),甚至使得中小型企業能夠利用來自供應商的資源、知識、流程、工具乃至人才實現出色的效率并解決更為復雜的業務流程及挑戰。構建內部卓越中心過去需要規模龐大的團隊方可實現,但如今dPaaS能夠將卓越中心作為一種常態。平臺供應商負責提供專業人員、資源及工具,這意味著幾乎任何規模的企業皆可利用這一綜合性集成卓越中心享受到前沿技術與服務。
管理服務
與自助性iPaaS解決方案不同,dPaaS能夠將大部分集成復雜性轉移至平臺供應商處,由后者負責處理ETL及其它用于構成集成基礎的“管道”流程。這不僅能夠讓企業擁有更出色的成本效益水平,同時亦可簡化最新技術的獲取方式,幫助客戶保持明確的市場競爭優勢。這意味著企業客戶能夠將更多內部人員及預算投入到戰略性項目當中,進而有力推動營收增長并強化企業的核心業務。
dPaaS的光明未來
憑借著全面的統一化數據集成與管理方案,dPaaS已經顯示出光明的發展前景,足以幫助客戶擺脫過去粗放的數據挖掘工作,真正邁入大數據利用階段。而由此提供的全部工具及專業知識——以及未來發展路線圖——都將幫助企業以更加高效、有效且具備成本效益的方式建立并推動大數據項目。
相較于浪費時間與精力“重新發明輪子”,企業應當利用dPaaS幫助自身建立競爭優勢,同時更為準確地獲取并保持市場領先性。(中國智能制造網)