大數(shù)據(jù)、人工智能與云計(jì)算的融合與應(yīng)用
人工智能、大數(shù)據(jù)與云計(jì)算三者有著密不可分的聯(lián)系。人工智能從1956年開(kāi)始發(fā)展,在大數(shù)據(jù)技術(shù)出現(xiàn)之前已經(jīng)發(fā)展了數(shù)十年,幾起幾落,但當(dāng)遇到了大數(shù)據(jù)與分布式技術(shù)的發(fā)展,解決了計(jì)算力和訓(xùn)練數(shù)據(jù)量的問(wèn)題,開(kāi)始產(chǎn)生巨大的生產(chǎn)價(jià)值;同時(shí),大數(shù)據(jù)技術(shù)通過(guò)將傳統(tǒng)機(jī)器學(xué)習(xí)算法分布式實(shí)現(xiàn),向人工智能領(lǐng)域延伸;此外,隨著數(shù)據(jù)不斷匯聚在一個(gè)平臺(tái),企業(yè)大數(shù)據(jù)基礎(chǔ)平臺(tái)服務(wù)各個(gè)部門以及分支機(jī)構(gòu)的需求越來(lái)越迫切。通過(guò)容器技術(shù),在容器云平臺(tái)上構(gòu)建大數(shù)據(jù)與人工智能基礎(chǔ)公共能力,結(jié)合多租戶技術(shù)賦能業(yè)務(wù)部門的方式將人工智能、大數(shù)據(jù)與云計(jì)算進(jìn)行融合。
數(shù)據(jù)處理的發(fā)展階段
隨著信息技術(shù)的蓬勃發(fā)展,特別是近十年,移動(dòng)互聯(lián)技術(shù)的普及,運(yùn)營(yíng)商、泛金融、政府、大型央企、大型國(guó)企、能源等領(lǐng)域數(shù)據(jù)量更是呈現(xiàn)幾何級(jí)數(shù)的增長(zhǎng)趨勢(shì)。數(shù)據(jù)量的膨脹除了帶來(lái)了數(shù)據(jù)處理性能的壓力外,數(shù)據(jù)種類的多樣性也為數(shù)據(jù)處理手段提出了新的要求,大量新系統(tǒng)的建設(shè)同時(shí)產(chǎn)生了眾多數(shù)據(jù)孤島,給企業(yè)的數(shù)據(jù)運(yùn)營(yíng)維護(hù)與價(jià)值發(fā)掘帶來(lái)了重大的挑戰(zhàn)。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,企業(yè)的數(shù)據(jù)處理技術(shù)轉(zhuǎn)型也經(jīng)歷了幾個(gè)階段,如圖1所示。
c9b3aee039b743d2ba11d2d1f6de2d77
▲圖1 企業(yè)數(shù)據(jù)處理轉(zhuǎn)型的階段變化
在第一階段,大數(shù)據(jù)技術(shù)發(fā)展的早期,為了打破數(shù)據(jù)孤島,將各類數(shù)據(jù)向大數(shù)據(jù)平臺(tái)匯集,形成數(shù)據(jù)湖的概念,作為多源、異構(gòu)的數(shù)據(jù)的數(shù)據(jù)歸集,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,建立企業(yè)數(shù)據(jù)的匯聚中心。在這個(gè)階段,對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理以存儲(chǔ)檢索為主,對(duì)結(jié)構(gòu)化數(shù)據(jù)處理提供各類API和少量SQL支持,使海量的以SQL實(shí)現(xiàn)為主的業(yè)務(wù)難以遷移到大數(shù)據(jù)平臺(tái),新業(yè)務(wù)開(kāi)發(fā)使用門檻高,大數(shù)據(jù)技術(shù)的推廣受到阻礙。
在第二階段,企業(yè)客戶的需求集中表現(xiàn)為,如何更好地處理結(jié)構(gòu)化數(shù)據(jù)以及將老的IT架構(gòu)遷移到分布式架構(gòu)中。各大數(shù)據(jù)平臺(tái)廠商開(kāi)始在SQL on Hadoop領(lǐng)域進(jìn)行研發(fā)和競(jìng)爭(zhēng),不斷提高SQL標(biāo)準(zhǔn)的兼容程度。在這個(gè)過(guò)程中,Spark誕生并逐漸取代了過(guò)于笨重且TB量級(jí)計(jì)算性能存在缺陷的MapReduce架構(gòu),Hadoop技術(shù)開(kāi)始向結(jié)構(gòu)化數(shù)據(jù)處理分析更深度的應(yīng)用領(lǐng)域進(jìn)發(fā)。隨著SQL on Hadoop技術(shù)的不斷發(fā)展與星環(huán)科技解決了Hadoop分布式事務(wù)的難題,越來(lái)越多的客戶在Hadoop上構(gòu)建新一代數(shù)據(jù)倉(cāng)庫(kù),將Hadoop技術(shù)應(yīng)用于越來(lái)越多的業(yè)務(wù)生產(chǎn)場(chǎng)景,技術(shù)門檻的降低,使越來(lái)越多的客戶可以利用強(qiáng)大的分布式計(jì)算能力輕松分析處理海量數(shù)據(jù)。在這個(gè)階段后期,隨著企業(yè)客戶對(duì)實(shí)時(shí)數(shù)據(jù)分析研判需求的不斷提高,流處理技術(shù)得以蓬勃發(fā)展。
在第三階段,一部分企業(yè)已經(jīng)完成了由基于關(guān)系型數(shù)據(jù)庫(kù)為核心的數(shù)據(jù)處理體系向基于大數(shù)據(jù)技術(shù)為核心的數(shù)據(jù)處理體系的轉(zhuǎn)變。在本階段早期,很多企業(yè)客戶不滿足于通過(guò)SQL基于統(tǒng)計(jì)對(duì)數(shù)據(jù)的分析和挖掘,促使傳統(tǒng)的機(jī)器學(xué)習(xí)算法開(kāi)始實(shí)現(xiàn)分布化,但主要還是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的學(xué)習(xí)挖掘。隨著深度學(xué)習(xí)技術(shù)和分布式技術(shù)的碰撞,演化出了新一代的計(jì)算框架,如TensorFlow等,計(jì)算能力的提升,并結(jié)合大量訓(xùn)練數(shù)據(jù),使機(jī)器學(xué)習(xí)人工智能技術(shù)在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域產(chǎn)生巨大威力,開(kāi)始應(yīng)用于人臉識(shí)別、車輛識(shí)別、智能客服、無(wú)人駕駛等領(lǐng)域;同時(shí),對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法產(chǎn)生了巨大沖擊,一定程度上減少了對(duì)特征工程與業(yè)務(wù)領(lǐng)域知識(shí)的依賴,降低了機(jī)器學(xué)習(xí)的進(jìn)入門檻,使人工智能技術(shù)得以普及。另一方面,可視化的拖拽頁(yè)面、豐富的行業(yè)模板、高效率的交互式體驗(yàn),極大地降低了數(shù)據(jù)分析人員的使用門檻,讓人工智能技術(shù)進(jìn)一步走入企業(yè)的生產(chǎn)應(yīng)用。
大數(shù)據(jù)、人工智能與云技術(shù)的融合
隨著企業(yè)內(nèi)部對(duì)于數(shù)據(jù)資源的應(yīng)用不再僅僅局限于IT部門,越來(lái)越多的內(nèi)部項(xiàng)目組與分支機(jī)構(gòu)加入大數(shù)據(jù)平臺(tái)的使用中,加之?dāng)?shù)據(jù)處理技術(shù)的不斷發(fā)展,如何解決基礎(chǔ)平臺(tái)的資源隔離問(wèn)題、管理分配問(wèn)題、編排調(diào)度問(wèn)題;如何將企業(yè)業(yè)務(wù)應(yīng)用需要的基礎(chǔ)服務(wù)能力做更好地抽象,降低應(yīng)用所需的基礎(chǔ)服務(wù)的環(huán)境搭建、開(kāi)發(fā)、測(cè)試部署周期,提升IT支撐效能;如何更好地管理眾多的基于大數(shù)據(jù)與人工智能開(kāi)發(fā)的應(yīng)用等等成為企業(yè)急需解決的問(wèn)題。
在大數(shù)據(jù)技術(shù)發(fā)展的早期,僅僅是在計(jì)算框架MapReduce中提供簡(jiǎn)單的作業(yè)調(diào)度算法,隨著資源管理的需求,在Hadoop 2.0時(shí)代,Yarn作為單獨(dú)組件負(fù)責(zé)分布式計(jì)算框架的資源管理。但是,一方面,Yarn僅僅能夠管理調(diào)度計(jì)算框架的資源;另一方面,資源的管理粒度較為粗放,不能做到有效的資源隔離,越來(lái)越不能滿足企業(yè)客戶的需求。
云計(jì)算技術(shù)作為資源隔離封裝虛擬化,以及管理調(diào)度的技術(shù),本應(yīng)應(yīng)用于解決上述問(wèn)題。但是,在Docker容器技術(shù)被廣泛接受之前,云計(jì)算虛擬化技術(shù)主要基于虛擬機(jī)封裝資源,并在其之上加載操作系統(tǒng),資源利用率低,早期有廠商嘗試將大數(shù)據(jù)平臺(tái)構(gòu)建在基于虛擬機(jī)技術(shù)的云化方案上,由于資源利用和穩(wěn)定性問(wèn)題,在私有云上的嘗試鮮有成功案例。在公有云方面,借助公有云較為強(qiáng)大的基礎(chǔ)平臺(tái)硬件與運(yùn)維支持能力,有一些非核心業(yè)務(wù)的應(yīng)用嘗試。
隨著Docker、Kubernetes等容器技術(shù)的發(fā)展,與微服務(wù)等技術(shù)概念的形成,大數(shù)據(jù)與人工智能基礎(chǔ)平臺(tái)開(kāi)始基于容器云構(gòu)建底層資源管理與調(diào)度平臺(tái)。容器云就像一個(gè)分布式的操作系統(tǒng),將集群中的各類硬件資源進(jìn)行封裝、管理以及調(diào)度,將封裝的資源作為容器承載大數(shù)據(jù)的相關(guān)組件進(jìn)程,再將這些容器進(jìn)行編排,組成一個(gè)個(gè)的大數(shù)據(jù)和人工智能的基礎(chǔ)服務(wù),如分布式文件系統(tǒng)HDFS、NoSQL數(shù)據(jù)庫(kù)Hbase、分布式分析型數(shù)據(jù)庫(kù)Inceptor、分布式流處理平臺(tái)Slipstream、分布式機(jī)器學(xué)習(xí)組件Sophon等。由這些基礎(chǔ)服務(wù)編排構(gòu)建公共能力服務(wù)層,提供如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、圖數(shù)據(jù)庫(kù)、全文搜索數(shù)據(jù)庫(kù)、流處理服務(wù)、NoSQL數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)平臺(tái)服務(wù)、定制圖像識(shí)別服務(wù)等,為企業(yè)打造全新的數(shù)據(jù)處理核心系統(tǒng)?;谶@一核心系統(tǒng)服務(wù)于各類企業(yè)的不同部門。通過(guò)資源隔離技術(shù),通過(guò)對(duì)每個(gè)租戶的資源分配和權(quán)限管理,滿足業(yè)務(wù)分析人員的個(gè)性化分析需求,專注于業(yè)務(wù)邏輯的開(kāi)發(fā)和數(shù)據(jù)的分析挖掘。
技術(shù)融合的應(yīng)用
中國(guó)郵政大數(shù)據(jù)平臺(tái)建設(shè)以Transwarp Data Hub(以下簡(jiǎn)稱TDH)與Transwarp Operating System(以下簡(jiǎn)稱TOS)作為基礎(chǔ)架構(gòu)系統(tǒng),搭建的新一代邏輯數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市,完全取代了Teradata和Oracle.
總體架構(gòu)與實(shí)現(xiàn)
中國(guó)郵政大數(shù)據(jù)平臺(tái)服務(wù)于量收、郵務(wù)、名址等系統(tǒng),同時(shí)運(yùn)用容器云TOS實(shí)現(xiàn)創(chuàng)新多租戶的數(shù)據(jù)分析挖掘環(huán)境。建立從業(yè)務(wù)層到管理層到?jīng)Q策層的智能分析體系,模擬量化風(fēng)險(xiǎn)和收益,實(shí)現(xiàn)對(duì)郵政各種業(yè)務(wù)數(shù)據(jù)進(jìn)行分類、管理、統(tǒng)計(jì)和分析等功能,給各級(jí)管理人員提供各類準(zhǔn)確的統(tǒng)計(jì)分析預(yù)測(cè)數(shù)據(jù),使其能夠及時(shí)掌握全面的經(jīng)營(yíng)狀況,為宏觀決策提供支持;為省分公司基層業(yè)務(wù)人員提供詳盡的數(shù)據(jù),供其對(duì)各自的工作目標(biāo)、當(dāng)前和歷史狀況進(jìn)行準(zhǔn)確的把握,對(duì)業(yè)務(wù)活動(dòng)進(jìn)行有效支撐,滿足郵政經(jīng)營(yíng)分析管理及決策支持。
中國(guó)郵政大數(shù)據(jù)平臺(tái)以五大基礎(chǔ)服務(wù)集群域?yàn)榛A(chǔ),分別是數(shù)據(jù)湖集群域、企業(yè)數(shù)據(jù)倉(cāng)庫(kù)集群域、省分服務(wù)集群域、機(jī)器學(xué)習(xí)實(shí)驗(yàn)室集群域、開(kāi)發(fā)/測(cè)試/培訓(xùn)集群域。
(1)數(shù)據(jù)湖集群域:基于TDH平臺(tái)搭建的數(shù)據(jù)湖,主要承擔(dān)多源異構(gòu)的數(shù)據(jù)歸集,數(shù)據(jù)湖內(nèi)包括:原始數(shù)據(jù)池、清洗加工數(shù)據(jù)池、整合加工數(shù)據(jù)池等。
(2)企業(yè)數(shù)倉(cāng)集群域:基于TDH搭架的數(shù)據(jù)倉(cāng)庫(kù)集群,基于大數(shù)據(jù)創(chuàng)新搭架邏輯數(shù)據(jù)倉(cāng)庫(kù),用于遷移改造原有基于Teradata搭架的數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市和基于Oracle搭建的報(bào)刊集市的郵政量收管理系統(tǒng)。
(3)省分服務(wù)集群域:基于TOS搭建容器化多租戶數(shù)據(jù)分析平臺(tái)云。為省、市分公司開(kāi)發(fā)人員和業(yè)務(wù)人員提供省分多租戶的平臺(tái)環(huán)境,集團(tuán)分發(fā)數(shù)據(jù)與自有數(shù)據(jù)存儲(chǔ)計(jì)算,自有應(yīng)用的開(kāi)發(fā)與管理,獨(dú)立租戶使用運(yùn)行。
(4)機(jī)器學(xué)習(xí)實(shí)驗(yàn)室集群域:基于TOS搭建的容器化多租戶大數(shù)據(jù)機(jī)器學(xué)習(xí)平臺(tái),為集團(tuán)數(shù)據(jù)中心分析師提供多租戶的開(kāi)發(fā)實(shí)驗(yàn)環(huán)境平臺(tái),進(jìn)行數(shù)據(jù)探查、業(yè)務(wù)建模、算法研究、應(yīng)用開(kāi)發(fā)、成果推廣等。
(5)開(kāi)發(fā)/測(cè)試/培訓(xùn)集群域:為應(yīng)用開(kāi)發(fā)人員、系統(tǒng)測(cè)試人員、培訓(xùn)師、學(xué)員提供多租戶的大數(shù)據(jù)與機(jī)器學(xué)習(xí)平臺(tái),為開(kāi)發(fā)商及內(nèi)部單位提供開(kāi)發(fā)測(cè)試培訓(xùn)服務(wù)。
以此為基礎(chǔ),達(dá)到了數(shù)據(jù)管理、服務(wù)管理、運(yùn)維管控、安全管控四個(gè)維度的統(tǒng)一。在風(fēng)險(xiǎn)管控、決策支持、服務(wù)支撐、流程優(yōu)化、品牌創(chuàng)新、交叉營(yíng)銷六大應(yīng)用領(lǐng)域展開(kāi)應(yīng)用。實(shí)現(xiàn)了租戶管理、數(shù)據(jù)治理、數(shù)據(jù)加工、數(shù)據(jù)挖掘、數(shù)據(jù)探索、數(shù)據(jù)展現(xiàn)六大平臺(tái)功能。
數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)基于TDH構(gòu)建,將包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)、實(shí)時(shí)流數(shù)據(jù)、合作單位數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等不同數(shù)據(jù)源,通過(guò)ESB接入、ETL工具、Kafka、Sqoop、文本上傳、人工接入等方式,統(tǒng)一匯聚進(jìn)入數(shù)據(jù)湖。加工后獲得的數(shù)據(jù)資產(chǎn)發(fā)布到數(shù)據(jù)資產(chǎn)目錄,通過(guò)數(shù)據(jù)資產(chǎn)目錄的構(gòu)建TDH與TOS用戶間數(shù)據(jù)交互體系。便于用戶快速檢索數(shù)據(jù),通過(guò)數(shù)據(jù)資產(chǎn)目錄實(shí)現(xiàn)對(duì)數(shù)據(jù)的集成、融合、安全、共享。數(shù)據(jù)資產(chǎn)目錄包括:元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)輪廓、數(shù)據(jù)生命周期等。此外,企業(yè)用戶通過(guò)大數(shù)據(jù)門戶按需申請(qǐng)租戶存儲(chǔ)計(jì)算資源、數(shù)據(jù)資源、審批流程通過(guò)后,集群資源管理員按需快速部署集群,自動(dòng)化將數(shù)據(jù)從數(shù)據(jù)湖加載入數(shù)據(jù)分析集群或省分集群對(duì)應(yīng)的租戶空間,供數(shù)據(jù)開(kāi)發(fā)人員使用。數(shù)據(jù)開(kāi)發(fā)人員會(huì)將數(shù)據(jù)應(yīng)用成果固化到數(shù)據(jù)湖內(nèi),對(duì)外提供數(shù)據(jù)服務(wù)。
中國(guó)· 上海

關(guān)鍵詞
辦公室:上海市浦東新區(qū)郭守敬路351號(hào)
CopyRight?2009-2019 上海谷谷網(wǎng)絡(luò)科技有限公司 All Rights Reserved. 滬ICP備11022482號(hào)-8
- top
- 在線咨詢
-
添加微信咨詢