了解最新公司動態(tài)及行業(yè)資訊
數(shù)據(jù)庫性能優(yōu)化、云時代的數(shù)據(jù)庫、NoSQL技術進步、大數(shù)據(jù)云服務、數(shù)據(jù)分析與挖掘、機器學習……不同于“曇花一現(xiàn)”的技術分享會,盛拓組織的2017年會議媒體與IT168 2018中國數(shù)據(jù)庫技術大會()大會第二天依舊干貨滿滿。
12日上午的數(shù)據(jù)分析與挖掘?qū)鲇瓉砹思夹g嘉賓——聯(lián)想大數(shù)據(jù)研發(fā)經(jīng)理張成松。他從零開始體驗了聯(lián)想大數(shù)據(jù)平臺的發(fā)展。一路上,他踩過很多坑,過很多河。明天,張成松將為我們帶來題為《 Spark to MPP - Large-scale -Class Rooms》的演講。

▲聯(lián)想大數(shù)據(jù)研發(fā)經(jīng)理張成松
隨著業(yè)務急劇下滑,數(shù)據(jù)越來越多,很多企業(yè)經(jīng)常會面臨這樣的困擾:數(shù)據(jù)查詢和數(shù)據(jù)分析越來越慢,運行半小時往往出不來;沒有了,維護成本和費用越來越高; T+1數(shù)據(jù)處理太慢,很難知道下一秒的業(yè)務是否有問題;不僅是傳統(tǒng)的商業(yè)數(shù)據(jù),智能、可穿戴設備數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)也越來越多。
在這種情況下,傳統(tǒng)的企業(yè)級數(shù)據(jù)庫機房勢必會向大數(shù)據(jù)平臺轉(zhuǎn)變。張成松覺得,在這個轉(zhuǎn)型過程中,需要解決三個問題。一是傳統(tǒng)數(shù)據(jù)應用問題,涉及歷史數(shù)據(jù)遷移、與傳統(tǒng)數(shù)據(jù)庫機房和應用工具的無縫集成、對原有業(yè)務處理邏輯的適配、數(shù)據(jù)支持等。 CRUD,支持存儲過程;二是大數(shù)據(jù)預估,涉及PB級數(shù)據(jù)預估、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲、應用、大數(shù)據(jù)場景數(shù)據(jù)分析、大數(shù)據(jù)環(huán)境下的數(shù)據(jù)修復;第三個是實時數(shù)據(jù)處理問題,涉及實時數(shù)據(jù)采集、流技術、實時估計、交互、多維數(shù)據(jù)分析探索。
張成松表示,企業(yè)級大數(shù)據(jù)實施平臺分為三類,一類是兩套框架MPP+,數(shù)據(jù)獨立存儲,集群間數(shù)據(jù)同步,缺點是資源浪費;系統(tǒng),數(shù)據(jù)獨立存儲,具體接入服務,可按需選擇估算引擎;三是一套/框架it技術支持,既支持大數(shù)據(jù)估計,也支持傳統(tǒng)的數(shù)據(jù)庫機房。導出歷史數(shù)據(jù)后it技術支持,同意保存數(shù)據(jù)。
張成松現(xiàn)場分享了他們在上的相關操作:

張成松表示,實現(xiàn)數(shù)據(jù)CRUD操作,支持存儲過程、游標、函數(shù)、變量等邏輯,只是Spark架構(gòu)中實現(xiàn)MPP功能的第一步。為了提高執(zhí)行效率和性能,還需要從不同層面對引擎進行優(yōu)化。
聯(lián)想的大數(shù)據(jù)企業(yè)級分析平臺最初是為了支持其手機業(yè)務而設計的。經(jīng)過6年的持續(xù)投入和300余名研發(fā)人員,聯(lián)想在上海、成都、香港擁有3個研發(fā)中心,擁有200余名大數(shù)據(jù)開發(fā)人員。工程師,60多位大數(shù)據(jù)平臺運維工程師。目前聯(lián)想總數(shù)據(jù)容量12PB,總數(shù)據(jù)10PB,日新增數(shù)據(jù)30TB,日處理數(shù)據(jù)4.3PB。

此外,聯(lián)想大數(shù)據(jù)企業(yè)級分析平臺由數(shù)據(jù)采集與轉(zhuǎn)換套件、大數(shù)據(jù)估算平臺、數(shù)據(jù)能力開放平臺、業(yè)務分析套件、數(shù)據(jù)資產(chǎn)管理平臺和系統(tǒng)運營平臺六大部分組成維度監(jiān)控中心。
,