<track id="0aiby"><code id="0aiby"><dd id="0aiby"></dd></code></track>

<ins id="0aiby"></ins>

二八科技-二八科技新聞資訊

關注天氣:

當前位置: 主頁 > 家居 >

大數據時代，數據架構的演繹發展歷程

時間:2018-11-19來源:互聯網作者:編輯點擊: 次

近期看到很多企業在設計自己的數據平臺，以及選型一些數據分析工具，正好拜讀了數據倉庫之父的《數據架構：大數據、數據倉庫以及Data Vault》一書，有些許感觸，就來聊一下個人思

近期看到很多企業在設計自己的數據平臺，以及選型一些數據分析工具，正好拜讀了數據倉庫之父的《數據架構：大數據、數據倉庫以及Data Vault》一書，有些許感觸，就來聊一下個人思考吧。

首先從企業信息化發展階段時，數據平臺結構的程度來看。個人依照企業信息化，將數據平臺階段劃分為：只有業務數據庫——>中間庫——>完善數據倉庫(DW)——>數據集市(Data Mart)，順序與階段并不絕對正確，可能有組合，可能所在階段不完全一致。以下先看各個數據平臺階段特點，再看對應階段數據分析工具選型的考慮吧。

大數據時代，數據架構的演繹發展歷程

1.業務數據庫

一個企業IT信息化建設最初的階段，業務庫中數據量不大，要分析展示下數據情況啦，不慌，問題不大，這時候OLTP結構下也可以寫寫SQL快速展現，隨便玩玩office工具也沒問題。

大數據時代，數據架構的演繹發展歷程

但是隨著時間的推移，各種問題開始出現：

(1)查詢和寫入頻率越來越高，高頻write和和長時間read沖突越來越嚴重。而數據分析要耗費大量計算資源，不能動不動掛業務系統吧。

(2)數據量越來越大，歷史業務數據啦，新業務數據激增啦，第一要務就是要解決業務應用效率問題了，誰管數據分析里的問題呢。

(3)業務越來越多，表結構越來越復雜。業務系統數量的越來越多，導致數據孤島開始形成。

這種情況下，企業面臨數據展示與數據平臺建設的階段了要怎么處理。這種情況下要做數據分析就麻煩了，要人為去各個系統取數，人力是一個方面。各個系統口徑命名啥都有差異，人為的處理出錯率高就是另一方面。

2.中間庫

由于上述問題，就要引入中間庫來處理。左圖結構解決了高頻write和read沖突問題，以及單數據庫服務器性能問題，順手也搞定了數據備份。這種情況下呢簡單查詢還是可以的，但是在轉換聚合等需要多表關聯、以及大數據量等業務復雜度高的情況下，其處理性能就不容樂觀了。

此時就開始考慮可以利用空閑時間的服務器性能來做預先處理呢。右圖這種T+n的預處理離線計算的架構就出現了，引入獨立的任務調度和計算引擎：計算壓力可以交給數據庫處理，也可交給ETL處理，展現性能初步解決。

大數據時代，數據架構的演繹發展歷程

但是這種情況下，數據庫表結構實在太過復雜，每做一個分析，就要理一次業務邏輯、寫一段sql，還沒法進行歷史追溯，以及數據整理成果的復用，so sad。

那有沒有理一次之后，后續能夠省點事的方式呢?這時候數倉的概念就可以使用上了。

3.完善數據倉庫(DW)

把業務庫數據整理成星型結構，保證了事實的積累和維度的追溯。自由選擇需要的維度和相關事實進行篩選計算，麻麻再也不用擔心每次寫sql都要去看“蜘蛛網”了。還有索引、結果表、分區分表等等黑科技來保證每次查旬需掃描的數據量最小，解決數據庫性能問題。

當然這種架構方式的缺點也很明顯，不是企業內一致的數據(多系統，多主題數據不一致)，就會產生信息孤島。當然，如果客戶企業就是很小，就一個系統，不用整合，一個數據集市足以的情況下采用這種方式也可以。常見情況是會在各個獨立的DW間建立一些對照表，可實現數據交換。如果多個DW間沒有物理隔絕，也可以形成EDW。

大數據時代，數據架構的演繹發展歷程

4.完善數倉+數據集市(Data Mart)

為了實現各個業務系統取數分析，或者做更多操作，就實現中心數據倉庫EDW從各個源系統收集數據，再將數據提供給各個數據集市和挖掘倉庫使用。這也被稱為企業信息工廠架構(CIF)，一般情況下，大型企業會花費許多精力實現這類架構。

大數據時代，數據架構的演繹發展歷程

業務復雜度的提高與數據量級的增大以及對這些數據的應用，促成了各個大數據平臺的繁榮，這個放到另一篇文章陳述。

無論是以什么架構存在，數據展示的需求都必不可少。分析工具選擇必不可少，要在以上階段以一款工具涵蓋，那必然需要一款既可以做敏捷數據集市建模，又可以做數據展示分析的工具來處理。這種工具可對業務數據進行簡單、快速整合，實現敏捷建模節省時間，并且可以大幅度提升數據的展示速度，可對接前端的數據分析展示層，實現自由數據展示與OLAP分析，典型如各類BI分析工具。

數據分析也很考驗分析工具數據讀取、運算的性能，但擁有大數據量計算引擎的BI分析工具并不多。像FineBI與其高性能數據引擎在以上幾個階段均可在不同程度解決很多場景。

(1)業務數據庫階段，此階段已經陳述過，重點問題就是計算性能影響大，以及數據孤島問題。建立數倉的過程相對敏捷數據集市而言，時間還是久的。這個時候就看看建立個常規意義的數倉和數據展示需求誰更緊急啦，或者可能有的也沒建數據平臺的意識也說不準。此時快速的數據展示需求，就可以通過將數據放到FineBI的數據引擎中支撐實現。

(2)中間庫與完善數倉階段，此階段其實主要就是計算性能問題了，用戶的數據量級也一定挺大了。正好借助于FineBI的分布式引擎，完成數據加速計算工作。此引擎屬hadoop生態，核心計算引擎利用的spark，借助了alluxio作為內存加速計算，處理了大數據計算問題，也很好闡釋了“大數據”。這個在接下來的文章中也會說到，這里先埋個伏筆，暫不贅述。

此階段呢，肯定有一些響應時間要求較高的展示需求，多次作業同步可能帶來延遲影響。而FineBI的引擎擴展了kettle的插件，實現數據可以直接load到引擎中，倒是將麻煩的作業處理工作解決了。

大數據時代，數據架構的演繹發展歷程

(3)完善數倉+數據集市階段，這種階段數據平臺建設已經很完善了，各業務部門數據量級，業務復雜度都很高。

底層技術上雖然數據集市是建立在集成的中心數據倉庫EDW上，但是這些數據集市之間還是不能進行數據交換的，大家建立的方法和ETL程序都會不同，各個數據集市之間的數據不見得的是一致，且平臺架構超級復雜，擴展以及再為各業務部門設計計算層結果表之類都相對麻煩。此時可考慮部分需整合數據放到敏捷數據集市處理，可直接對接的再直接對接處理。FineBI的引擎恰好都滿足這樣的場景需求，前端OLAP分析恰好也有，簡單處理整合展示一站式解決。

大數據時代，數據架構的演繹發展歷程

在不久的將來，多智時代一定會徹底走入我們的生活，有興趣入行未來前沿產業的朋友，可以收藏多智時代，及時獲取人工智能、大數據、云計算和物聯網的入門知識和資訊信息，讓我們一起攜手，引領人工智能的未來

頂一下

(0)

0%

踩一下

(0)

0%

------分隔線----------------------------

上一篇：2018淮北墻布最暢銷品牌十大排行榜
下一篇：沒有了

發表評論: 請自覺遵守互聯網相關的政策法規，嚴禁發布色情、暴力、反動的言論。

評價: 中立好評差評

匿名?

最新評論 進入詳細評論頁>>

最新文章

最近熱門文章

推薦文章

文章導航

推薦內容

大數據時代，數據架構的演繹發展
近期看到很多企業在設計自己的數據平臺，以及選型一些數據分...
2018淮北墻布最暢銷品牌十大排行榜
時代快速發展進程中很多朋友把裝修選擇軟裝當作一件重要事情...
牛魔王集成灶廚房不止是做飯的地
在這個社交媒體盛行的時代，各種App形式的客戶端早已滲透到我...
智能家居的理念有什么
物聯網專家中國工程院院士徐祖哲表示，物聯網作為國家戰略性...
智能燈光照明系統有什么優勢？
隨著科技的進步，人們生活質量的提高，智能化已經成為現在的...
千兆網口/智能設備一鍵快連小米路
小米路由器已經進化到了第四代，相比小米路由器3，剛剛發布的...
智能的家居跟普通的家居的利弊
大家對智能家居概念有了一定的了解了，下面我就智能家居跟傳...
智能家居住宅怎樣選擇家庭背景音
家庭背景音樂它是通過定阻方式來進行單獨控制的一種新型背景...
智能家居必裝理由！
昨天有朋友問我，為什么現在那么多人想裝智能家居啊,好像就一...
智能家居幫你解決家庭問題
現在，都市生活節奏越來越快，人們的生活壓力也隨之增大。年...
智能家居：定制你的專屬浪漫
豐唐物聯告訴您：真正的智能應該是看不見、感覺不到但又無處...
智能家居不可忽視的便利性
從智能家居的舒適性到功能性，再到藝術性，我們無一不在強調...
智能家居的實用功能你知道多少
智能家居把和家居生活相關的各個子系統，包括家電控制、安防...
什么是智能照明系統？有什么功能
智能照明系統介紹智能照明系統是智能住宅里面的一個組成部分...
是什么阻礙了智能家居的發展？
經過多年發展，智能家居迎來了推廣和普及的“瓶頸”。智能家...

熱點內容

隨機文章

丁香婷婷激情综合俺也去_国产精品国色综合久久蜜桃_欧美在线播放一区三区不卡_九九久久国产精品九九久久99

<track id="0aiby"><code id="0aiby"><dd id="0aiby"></dd></code></track>

<ins id="0aiby"></ins>