企業(yè)該如何做大數(shù)據(jù)的分析挖掘呢?
時(shí)間:2018-08-18 14:29 閱讀:1294 整理:市場(chǎng)調(diào)研公司
現(xiàn)如今已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,各種系統(tǒng)、應(yīng)用、活動(dòng)所產(chǎn)生的數(shù)據(jù)浩如煙海,數(shù)據(jù)不再僅僅是企業(yè)存儲(chǔ)的信息,而是成為可以從中獲取巨大商業(yè)價(jià)值的企業(yè)戰(zhàn)略資產(chǎn)。這樣背景下,如何存儲(chǔ)海量復(fù)雜的數(shù)據(jù)、從紛繁錯(cuò)綜的數(shù)據(jù)中找到真正有價(jià)值的數(shù)據(jù),是大數(shù)據(jù)時(shí)代企業(yè)面臨的難題。
8月18日的“UCan下午茶”杭州站,來(lái)自UCloud、網(wǎng)易、華為的五位技術(shù)專家,從數(shù)據(jù)庫(kù)高可用容災(zāi)方案設(shè)計(jì)和實(shí)現(xiàn)、新一代公有云分布式數(shù)據(jù)庫(kù)、基于Impala平臺(tái)打造交互查詢系統(tǒng)等不同維度出發(fā),分享了他們?cè)诖髷?shù)據(jù)查詢、分析、存儲(chǔ)開(kāi)發(fā)過(guò)程中遇到的“困惑”與解決方案。
UCloud丁順:數(shù)據(jù)庫(kù)高可用容災(zāi)方案設(shè)計(jì)和實(shí)現(xiàn)
高可用容災(zāi)是搭建數(shù)據(jù)庫(kù)服務(wù)的一個(gè)重要考量特性,搭建高可用數(shù)據(jù)庫(kù)服務(wù)需要解決諸多問(wèn)題,保證最終的容災(zāi)效果。UCloud云數(shù)據(jù)庫(kù)產(chǎn)品UDB在研發(fā)演進(jìn)過(guò)程中,根據(jù)用戶的需要不斷完善和演進(jìn),形成了一套完善的高可用架構(gòu)體系。
UCloud資深存儲(chǔ)研發(fā)工程師丁順從高可用數(shù)據(jù)庫(kù)概述、典型的高可用架構(gòu)分析以及高可用數(shù)據(jù)庫(kù)自動(dòng)化運(yùn)維等角度,講述了如何設(shè)計(jì)和運(yùn)營(yíng)一套完善的數(shù)據(jù)庫(kù)高可用架構(gòu),保證在出現(xiàn)異常時(shí)能夠及時(shí)恢復(fù)數(shù)據(jù)庫(kù)服務(wù)。
業(yè)界典型的高可用架構(gòu)可以劃分為四種:第一種,共享存儲(chǔ)方案;第二種,操作系統(tǒng)實(shí)時(shí)數(shù)據(jù)塊復(fù)制;第三種,數(shù)據(jù)庫(kù)級(jí)別的主從復(fù)制;第三,高可用數(shù)據(jù)庫(kù)集群。每種數(shù)據(jù)同步方式可以衍生出不同的架構(gòu)。
第一種,共享存儲(chǔ)。共享存儲(chǔ)是指若干DB服務(wù)使用同一份存儲(chǔ),一個(gè)主DB,其他的為備用DB,若主服務(wù)崩潰,則系統(tǒng)啟動(dòng)備用DB,成為新的主DB,繼續(xù)提供服務(wù)。共享存儲(chǔ)方案的優(yōu)點(diǎn)是沒(méi)有數(shù)據(jù)同步的問(wèn)題,缺點(diǎn)是對(duì)網(wǎng)絡(luò)性能要求比較高。 第二種,操作系統(tǒng)實(shí)時(shí)數(shù)據(jù)塊復(fù)制。這種方案的典型場(chǎng)景是DRBD。如下圖所示,左邊數(shù)據(jù)庫(kù)寫入數(shù)據(jù)以后立即同步到右邊的存儲(chǔ)設(shè)備當(dāng)中。如果左邊數(shù)據(jù)庫(kù)崩潰,系統(tǒng)直接將右邊的數(shù)據(jù)庫(kù)存儲(chǔ)設(shè)備激活,完成數(shù)據(jù)庫(kù)的容災(zāi)切換。這個(gè)方案同樣有一些問(wèn)題,如系統(tǒng)只能有一個(gè)數(shù)據(jù)副本提供服務(wù),無(wú)法實(shí)現(xiàn)讀寫分離;另外,系統(tǒng)崩潰后需要的容災(zāi)恢復(fù)時(shí)間較長(zhǎng)。
第三種,數(shù)據(jù)庫(kù)主從復(fù)制。這種方案是較經(jīng)典的數(shù)據(jù)同步模式,系統(tǒng)采用一個(gè)主庫(kù)和多個(gè)從庫(kù),主庫(kù)同步數(shù)據(jù)庫(kù)日志到各個(gè)從庫(kù),從庫(kù)各自回放日志。它的好處是一個(gè)主庫(kù)可以連接多個(gè)從庫(kù),能很方便地實(shí)現(xiàn)讀寫分離,同時(shí),因?yàn)槊總€(gè)備庫(kù)都在啟動(dòng)當(dāng)中,所以備庫(kù)當(dāng)中的數(shù)據(jù)基本上都是熱數(shù)據(jù),容災(zāi)切換也非???。 第四種,數(shù)據(jù)庫(kù)高可用集群。前面三種是通過(guò)復(fù)制日志的模式實(shí)現(xiàn)高可用,第四種方案是基于一致性算法來(lái)做數(shù)據(jù)同步。數(shù)據(jù)庫(kù)提供一種多節(jié)點(diǎn)的一致性同步機(jī)制,然后利用該機(jī)制構(gòu)建多節(jié)點(diǎn)同步集群,這是業(yè)界近年來(lái)比較流行的高可用集群的方案。
UCloud綜合了原生MySQL兼容、不同版本、不同應(yīng)用場(chǎng)景的覆蓋等多種因素,最終選擇采用基于數(shù)據(jù)庫(kù)主從復(fù)制的方式實(shí)現(xiàn)高可用架構(gòu),并在原架構(gòu)基礎(chǔ)上,使用雙主架構(gòu)、半同步復(fù)制、采用GTID等措施進(jìn)行系列優(yōu)化,保證數(shù)據(jù)一致性的同時(shí),實(shí)現(xiàn)日志的自動(dòng)尋址。
自動(dòng)化運(yùn)維是高可用數(shù)據(jù)庫(kù)當(dāng)中的難點(diǎn),UDB在日常例行巡檢之外,也會(huì)定期做容災(zāi)演練,查看在不同場(chǎng)景下數(shù)據(jù)是否丟失、是否保持一致性等,同時(shí)設(shè)置記錄日志、告警系統(tǒng)等等,以便于第一時(shí)間發(fā)現(xiàn)問(wèn)題,并追溯問(wèn)題的根源,找出最佳解決方案。
UCloud劉堅(jiān)君:新一代公有云分布式數(shù)據(jù)庫(kù)UCloud Exodus
公有云2.0時(shí)代,云數(shù)據(jù)庫(kù)新產(chǎn)品不斷涌現(xiàn)。諸如AWS Aurora、阿里云PolarDB等,UCloud在采用最新軟硬件和分布式技術(shù)改造傳統(tǒng)數(shù)據(jù)庫(kù)的工作中,也在思考除了分布式數(shù)據(jù)庫(kù)所要求的更大和更快之外,是否還有其他更重要的用戶價(jià)值?UCloud資深數(shù)據(jù)庫(kù)研發(fā)工程師劉堅(jiān)君,現(xiàn)場(chǎng)講解了UCloud對(duì)于新一代公有云分布式數(shù)據(jù)庫(kù)的思考與設(shè)計(jì)。
劉堅(jiān)君首先從1.0時(shí)代存在的問(wèn)題入手,他認(rèn)為1.0時(shí)代云數(shù)據(jù)庫(kù)帶來(lái)了三方面價(jià)值:彈性、故障救援、知識(shí)復(fù)用。但它同樣面臨三大難以解決的問(wèn)題:容量和性能、租用成本、運(yùn)營(yíng)成本。
到2.0時(shí)代,解決上述三個(gè)問(wèn)題的思路是計(jì)算和讀寫分離。通過(guò)計(jì)算和讀寫分離,將傳統(tǒng)數(shù)據(jù)庫(kù)的計(jì)算層和存儲(chǔ)層拆開(kāi),各自獨(dú)立擴(kuò)展和演進(jìn)。這樣做的好處是:1.提供更大的容量和讀寫性能;2.按需擴(kuò)容和付費(fèi);3.優(yōu)化運(yùn)營(yíng)成本并降低運(yùn)營(yíng)風(fēng)險(xiǎn)。業(yè)界已推出的2.0云數(shù)據(jù)庫(kù)(如Aurora、PolarDB等),均采用計(jì)算和存儲(chǔ)分離的架構(gòu)。
UCloud Exodus的產(chǎn)品和技術(shù)理念則更進(jìn)一步:計(jì)算和存儲(chǔ)分離后,存儲(chǔ)層將完全復(fù)用云平臺(tái)的高性能分布式存儲(chǔ)(如UCloud UDisk、阿里云盤古等),而Exodus則專注于構(gòu)建一款數(shù)據(jù)庫(kù)內(nèi)核,去適配主流公有云和私有云廠商發(fā)布的高性能分布式存儲(chǔ)產(chǎn)品。Exodus的這種產(chǎn)品架構(gòu),稱之為Shared-ALL-DISK架構(gòu)。
Shared-ALL-DISK架構(gòu)的優(yōu)點(diǎn)明顯,在提供云數(shù)據(jù)庫(kù)2.0創(chuàng)新功能的同時(shí),賦予用戶業(yè)務(wù)自由遷徙的能力,不被某個(gè)云平臺(tái)綁架,同時(shí)能夠連接上下游的軟硬件廠商,共建Exodus數(shù)據(jù)庫(kù)生態(tài)。
更為重要的是,Exodus將最終將開(kāi)源, UCloud會(huì)將核心系統(tǒng)的每一行源碼開(kāi)放,賦予用戶深入了解和優(yōu)化Exodus的能力。并建設(shè)開(kāi)源社區(qū),吸收全行業(yè)的優(yōu)化成果,共同改進(jìn)和完善Exodus。
網(wǎng)易蔣鴻翔:基于Impala平臺(tái)打造交互查詢系統(tǒng)
在數(shù)據(jù)分析當(dāng)中,因?yàn)閿?shù)據(jù)基數(shù)龐大、關(guān)系模型復(fù)雜、響應(yīng)時(shí)間要求高等特性,數(shù)據(jù)之間的交互查詢就顯得尤為重要。來(lái)自網(wǎng)易的大數(shù)據(jù)技術(shù)專家蔣鴻翔現(xiàn)場(chǎng)從交互式查詢特點(diǎn)著手,深入淺出講解了Impala架構(gòu)、原理,以及網(wǎng)易對(duì)Impala的改進(jìn)思路和使用場(chǎng)景。
Impala是Cloudera公司主導(dǎo)開(kāi)發(fā)的新型查詢系統(tǒng),它提供SQL語(yǔ)義,能查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語(yǔ)義,但由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個(gè)批處理過(guò)程,難以滿足查詢的交互性。相比之下,Impala能夠很快速的實(shí)現(xiàn)數(shù)據(jù)查詢。下圖是一個(gè)Impala的架構(gòu)圖。
Impala擁有元數(shù)據(jù)緩存、MPP并行計(jì)算、支持LLVM與JIT以及支持HDFS本地讀、算子下推等特性。但它也有一些缺陷,如服務(wù)單點(diǎn)、Web信息無(wú)法持久化、資源隔離并不精確、負(fù)載均衡需要外部支持等。
網(wǎng)易針對(duì)上述不足之處,在原有的Impala查詢系統(tǒng)下,進(jìn)行了系列改進(jìn)優(yōu)化:
基于ZK的Loadbalance。原始的Impala負(fù)載均衡需要外部支持,為此網(wǎng)易基于ZK做了一個(gè)Loadbalance方案; 管理服務(wù)器。主要為了解決當(dāng)某一個(gè)節(jié)點(diǎn)掛掉時(shí)數(shù)據(jù)丟失的問(wèn)題,管理服務(wù)器會(huì)將所有的狀態(tài)信息搜集進(jìn)來(lái),后續(xù)如果做分析都可以通過(guò)關(guān)聯(lián)的服務(wù)器查詢; 細(xì)粒度權(quán)限和代理; Json格式; 兼容Ranger權(quán)限管理; 批量元數(shù)據(jù)刷新; 元數(shù)據(jù)同步; 元數(shù)據(jù)過(guò)濾; 對(duì)接ElasticSearch查詢。
據(jù)蔣鴻翔介紹,改造后的交互查詢系統(tǒng),已經(jīng)成功應(yīng)用于網(wǎng)易數(shù)據(jù)科學(xué)中心的一站式大數(shù)據(jù)平臺(tái)自助查詢系統(tǒng)上。同時(shí),數(shù)據(jù)分析中心的一站式報(bào)表系統(tǒng)底層,也搭載在Impala上。相信未來(lái),基于Impala的查詢系統(tǒng)將會(huì)應(yīng)用于更多不同的場(chǎng)景。
UCloud王仆:UCloud分布式KV存儲(chǔ)系統(tǒng)
分布式KV存儲(chǔ)系統(tǒng)在互聯(lián)網(wǎng)公司中扮演著重要角色,各類上層業(yè)務(wù)對(duì)于KV存儲(chǔ)系統(tǒng)的高可用性、可擴(kuò)展性和數(shù)據(jù)一致性都有著很高的要求。UCloud存儲(chǔ)部門在迭代升級(jí)分布式Redis架構(gòu)的同時(shí),也一直致力于研發(fā)基于硬盤存儲(chǔ)的大容量分布式KV系統(tǒng)。來(lái)自UCloud的技術(shù)專家王仆,著重介紹了UCloud在大容量分布式KV系統(tǒng)設(shè)計(jì)方面的經(jīng)驗(yàn),以及應(yīng)對(duì)線上業(yè)務(wù)高性能、高容量要求的系統(tǒng)架構(gòu)設(shè)計(jì)思路。
下圖為UCloud分布式KV存儲(chǔ)系統(tǒng)架構(gòu),底層為多個(gè)Storage,每一個(gè)Storage有三個(gè)節(jié)點(diǎn),這三個(gè)節(jié)點(diǎn)需要放在不同的物理機(jī)上,防止一臺(tái)機(jī)器宕機(jī)后系統(tǒng)不可用;標(biāo)紅框的屬于Master節(jié)點(diǎn),Master節(jié)點(diǎn)通過(guò)日志同步的方式,同步到層節(jié)點(diǎn),整個(gè)數(shù)據(jù)的請(qǐng)求從Proxy進(jìn)入。
整個(gè)系統(tǒng)是有中心節(jié)點(diǎn)的系統(tǒng),路由管理由Master來(lái)管理,Master通過(guò)每個(gè)機(jī)器上的Host管理Storage節(jié)點(diǎn),由Zookeeper確定誰(shuí)是主誰(shuí)是從,因此,一些管理方面的請(qǐng)求都是直接連接到Master上的,包括創(chuàng)建、刪除和控制臺(tái)方面的功能等。
在測(cè)試過(guò)程中也發(fā)現(xiàn)了一些性能方面的問(wèn)題,如采用的部分Raft協(xié)議是單Raft,設(shè)計(jì)之初并沒(méi)有實(shí)現(xiàn)并行Raft功能,因此數(shù)據(jù)同步較慢;其次,請(qǐng)求是通過(guò)代理的方式實(shí)現(xiàn),代理的延遲會(huì)比直接訪問(wèn)的延遲更高,后期,會(huì)考慮提供一些客戶端的SDK,讓請(qǐng)求可以跳過(guò)代理,減少一次網(wǎng)絡(luò)交互。
在KV系統(tǒng)的后續(xù)優(yōu)化上,王仆介紹到,為了能夠?qū)⒋鎯?chǔ)系統(tǒng)應(yīng)用于更多不同的業(yè)務(wù)場(chǎng)景,未來(lái)會(huì)考慮更高的通用性,適配多種的存儲(chǔ)引擎;另外,因?yàn)镽edis比較流行,系統(tǒng)設(shè)計(jì)之初主要是支持Redis,但是業(yè)界還有一些其他協(xié)議,這時(shí)候需要特殊的轉(zhuǎn)化流程,未來(lái)希望做成一個(gè)支持各種協(xié)議的通用結(jié)構(gòu)化存儲(chǔ)系統(tǒng),適配其他不同協(xié)議。
華為時(shí)金魁:實(shí)時(shí)流計(jì)算技術(shù)及其應(yīng)用
隨著Flink/Spark Streaming的大受歡迎,實(shí)時(shí)流計(jì)算開(kāi)始為人熟知,進(jìn)入大眾視野。流計(jì)算在物聯(lián)網(wǎng)行業(yè)、車聯(lián)網(wǎng)、智慧城市等行業(yè)快速落地,亦創(chuàng)造出越來(lái)越多的價(jià)值。來(lái)自華為的架構(gòu)師時(shí)金魁,現(xiàn)場(chǎng)分享了實(shí)時(shí)流計(jì)算的一些技術(shù)方案和落地應(yīng)用。
在傳統(tǒng)的數(shù)據(jù)處理流程中,總是先收集數(shù)據(jù),然后將數(shù)據(jù)放到DB中。當(dāng)人們需要的時(shí)候通過(guò)DB對(duì)數(shù)據(jù)做query,得到答案或進(jìn)行相關(guān)的處理。這個(gè)流程看起來(lái)雖然合理,但是結(jié)果卻非常的緊湊,尤其是對(duì)于一些實(shí)時(shí)搜索應(yīng)用環(huán)境中的某些具體問(wèn)題,類似于MapReduce方式的離線處理并不能很好地解決問(wèn)題。這就引出了一種新的數(shù)據(jù)計(jì)算結(jié)構(gòu)---流計(jì)算方式。它可以很好地對(duì)大規(guī)模流動(dòng)數(shù)據(jù)在不斷變化的運(yùn)動(dòng)過(guò)程中實(shí)時(shí)地進(jìn)行分析,捕捉到可能有用的信息,并把結(jié)果發(fā)送到下一計(jì)算節(jié)點(diǎn)。
目前,業(yè)界開(kāi)源的流計(jì)算框架很多,最早有Storm、Heron,后來(lái)還有Akka,Beam,以及現(xiàn)在的Kafka等等。在諸多的開(kāi)源框架中,時(shí)金魁認(rèn)為,F(xiàn)link是最恰當(dāng)?shù)牧饔?jì)算框架,Spark Streaming則是最有潛力的流計(jì)算框架,但這兩個(gè)框架在落地應(yīng)用中都有各自的優(yōu)缺點(diǎn)。
華為根據(jù)Flink與Spark框架各自的特點(diǎn),摒棄其劣勢(shì),設(shè)計(jì)開(kāi)發(fā)出一款全新的實(shí)時(shí)流計(jì)算服務(wù)Cloud Stream Service(簡(jiǎn)稱CS)。CS采用Apache Flink的Dataflow模型,實(shí)現(xiàn)完全的實(shí)時(shí)計(jì)算,同時(shí),采用在線SQL編輯平臺(tái)編寫Stream SQL,定義數(shù)據(jù)流入、數(shù)據(jù)處理、數(shù)據(jù)流出,用戶無(wú)需關(guān)心計(jì)算集群, 無(wú)需學(xué)習(xí)編程技能,降低流數(shù)據(jù)分析門檻。下圖為華為的實(shí)時(shí)流計(jì)算服務(wù)概覽圖。
據(jù)介紹,CS聚焦于互聯(lián)網(wǎng)和物聯(lián)網(wǎng)場(chǎng)景,適用于實(shí)時(shí)性要求高、吞吐量大的業(yè)務(wù)場(chǎng)景。主要應(yīng)用在互聯(lián)網(wǎng)行業(yè)中小企業(yè)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、金融反欺詐等多種行業(yè)應(yīng)用場(chǎng)景,如互聯(lián)網(wǎng)汽車、日志在線分析、在線機(jī)器學(xué)習(xí)、在線圖計(jì)算、在線推薦算法應(yīng)用等。
總結(jié)
雖然說(shuō)開(kāi)源軟件因?yàn)槠鋸?qiáng)大的成本優(yōu)勢(shì)而擁有極其強(qiáng)大的力量,數(shù)據(jù)庫(kù)、云計(jì)算廠商仍會(huì)嘗試推出性能、穩(wěn)定性、維護(hù)服務(wù)等指標(biāo)上更加強(qiáng)大的產(chǎn)品與之進(jìn)行差異化競(jìng)爭(zhēng),并同時(shí)參與開(kāi)源社區(qū),借力開(kāi)源軟件來(lái)豐富自己的產(chǎn)品線、提升自己的競(jìng)爭(zhēng)力,并通過(guò)更多的高附加值服務(wù)來(lái)滿足部分消費(fèi)者需求。
總的來(lái)看,未來(lái)的大數(shù)據(jù)分析技術(shù)、存儲(chǔ)將會(huì)變得越來(lái)越成熟、越來(lái)越便宜、越來(lái)越易用,相應(yīng)的,用戶將會(huì)更容易、更方便地從自己的大數(shù)據(jù)中挖掘出有價(jià)值的商業(yè)信息。

關(guān)注公眾號(hào)
獲取更多行業(yè)資訊
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來(lái)源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點(diǎn),不代表華夏經(jīng)緯立場(chǎng)。 如涉及侵權(quán),請(qǐng)聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。
相關(guān)新聞
- 2025消毒碗柜行業(yè)市場(chǎng)運(yùn)營(yíng)格局及銷售渠道分析
- 2025年人工智能+融合市場(chǎng):行業(yè)從“單點(diǎn)突破”到“生...
- 2025年防護(hù)鞋行業(yè)現(xiàn)狀與發(fā)展趨勢(shì)分析
- 2025在線地圖服務(wù)行業(yè)市場(chǎng)未來(lái)發(fā)展趨勢(shì)預(yù)測(cè)
- 2025年壁畫(huà)行業(yè)產(chǎn)業(yè)鏈結(jié)構(gòu)及投資分析
- 2025年極地機(jī)器人行業(yè)發(fā)展趨勢(shì)及產(chǎn)業(yè)鏈結(jié)構(gòu)
- 2025年服裝設(shè)計(jì)行業(yè)產(chǎn)業(yè)鏈結(jié)構(gòu)及前景預(yù)測(cè)
- 2025睫毛膏行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及競(jìng)爭(zhēng)格局、供需趨勢(shì)分...
- 2025年智能家居產(chǎn)業(yè)鏈全景、現(xiàn)狀與未來(lái)發(fā)展趨勢(shì)
- 2025年家具物流行業(yè)發(fā)展趨勢(shì)及供需分析