數(shù)據(jù)湖是近十年來出現(xiàn)的一個(gè)術(shù)語,用于描述大數(shù)據(jù)世界中數(shù)據(jù)分析管道的重要組成部分。這個(gè)想法是為組織中的任何人可能需要分析的所有原始數(shù)據(jù)建立一個(gè)單一的存儲(chǔ)區(qū)。人們通常使用 Hadoop 來處理湖中的數(shù)據(jù),但這個(gè)概念比 Hadoop 更廣泛。
當(dāng)提到一個(gè)單一的點(diǎn)可以將一個(gè)組織想要分析的所有數(shù)據(jù)集中在一起時(shí),我立即想到了數(shù)據(jù)倉庫和數(shù)據(jù)集市的概念。但是數(shù)據(jù)湖和數(shù)據(jù)倉庫之間有一個(gè)重要的區(qū)別。數(shù)據(jù)湖以數(shù)據(jù)源提供的任何形式存儲(chǔ)原始數(shù)據(jù)。沒有關(guān)于數(shù)據(jù)模式的假設(shè),每個(gè)數(shù)據(jù)源都可以使用它喜歡的任何模式。數(shù)據(jù)的使用者需要根據(jù)自己的目的來理解這些數(shù)據(jù)。
許多數(shù)據(jù)倉庫由于模式問題而沒有取得太大進(jìn)展。數(shù)據(jù)倉庫傾向于采用單一模式的概念來滿足所有分析需求,但單一的統(tǒng)一數(shù)據(jù)模型對(duì)于除最小組織之外的任何組織都是不切實(shí)際的。即使要為稍微復(fù)雜的域建模,也需要多個(gè)有界上下文,每個(gè)都有自己的數(shù)據(jù)模型。在分析方面,需要每個(gè)分析用戶使用對(duì)他們正在進(jìn)行的分析有意義的模型。通過轉(zhuǎn)向僅存儲(chǔ)原始數(shù)據(jù),這將責(zé)任推給了數(shù)據(jù)分析師。
【資料圖】
數(shù)據(jù)倉庫的另一個(gè)問題是確保數(shù)據(jù)質(zhì)量。試圖獲得權(quán)威的單一數(shù)據(jù)源需要對(duì)不同系統(tǒng)如何獲取和使用數(shù)據(jù)進(jìn)行大量分析。系統(tǒng) A 可能適用于某些數(shù)據(jù),而系統(tǒng) B 可能適用于其他數(shù)據(jù)。這便會(huì)遇到一些規(guī)則,系統(tǒng) A 更適合最近的訂單,而系統(tǒng) B 更適合一個(gè)月或更早以前的訂單,除非涉及退貨。最重要的是,數(shù)據(jù)質(zhì)量往往是一個(gè)主觀問題,不同的分析對(duì)數(shù)據(jù)質(zhì)量問題的容忍度不同,甚至對(duì)什么是好質(zhì)量的概念也不同。
這導(dǎo)致了對(duì)數(shù)據(jù)湖的批判——它只是質(zhì)量參差不齊的數(shù)據(jù)的垃圾場,更確切地說是數(shù)據(jù)沼澤。批評(píng)既有道理又無關(guān)緊要。新分析的熱門標(biāo)題是“數(shù)據(jù)科學(xué)家”。盡管這是一個(gè)經(jīng)常被濫用的頭銜,但這些人中的許多人確實(shí)擁有扎實(shí)的科學(xué)背景。任何嚴(yán)肅的科學(xué)家都知道數(shù)據(jù)質(zhì)量問題。試想一下隨時(shí)間分析溫度讀數(shù)的簡單問題,必須考慮到某些氣象站的重新定位可能會(huì)微妙地影響讀數(shù)、設(shè)備問題導(dǎo)致的異常、傳感器不工作時(shí)的缺失時(shí)段數(shù)據(jù)。許多復(fù)雜的統(tǒng)計(jì)技術(shù)都是為了解決數(shù)據(jù)質(zhì)量問題而創(chuàng)建的??茖W(xué)家總是對(duì)數(shù)據(jù)質(zhì)量持懷疑態(tài)度,習(xí)慣于處理有問題的數(shù)據(jù)。所以對(duì)他們來說,湖泊很重要,因?yàn)樗麄兛梢允褂迷紨?shù)據(jù),并且可以慎重地應(yīng)用技術(shù)來理解它,而不是一些可能弊大于利的不透明數(shù)據(jù)清理機(jī)制。
數(shù)據(jù)倉庫通常不僅會(huì)清理數(shù)據(jù),還會(huì)將數(shù)據(jù)聚合成一種更易于分析的形式。但科學(xué)家們也傾向于反對(duì)這一點(diǎn),因?yàn)榫酆弦馕吨鴣G棄數(shù)據(jù)。數(shù)據(jù)湖應(yīng)該包含所有數(shù)據(jù),因?yàn)椴恢廊藗儠?huì)發(fā)現(xiàn)什么有價(jià)值,無論是今天還是幾年后。
它們正在被一些月末處理報(bào)告修改。所以簡而言之,數(shù)據(jù)倉庫中的這些值是無用的;科學(xué)家擔(dān)心無法進(jìn)行這種比較。經(jīng)過更多挖掘,發(fā)現(xiàn)這些報(bào)告已被存儲(chǔ),因此可以提取當(dāng)時(shí)所做的真實(shí)預(yù)測。這種原始數(shù)據(jù)的復(fù)雜性意味著有空間將數(shù)據(jù)整理成更易于管理的結(jié)構(gòu)以及減少相當(dāng)大的數(shù)據(jù)量。不應(yīng)該直接訪問數(shù)據(jù)湖。因?yàn)閿?shù)據(jù)是原始數(shù)據(jù),所以需要很多技巧才能理解它。在數(shù)據(jù)湖中工作的人相對(duì)較少,因?yàn)樗麄儼l(fā)現(xiàn)了湖中通常有用的數(shù)據(jù)視圖,他們可以創(chuàng)建許多數(shù)據(jù)集市,每個(gè)數(shù)據(jù)集市都有一個(gè)針對(duì)單個(gè)有界上下文的特定模型。然后,更多的下游用戶可以將這些集市視為該上下文的權(quán)威來源。
現(xiàn)在,很多時(shí)候我們已經(jīng)將數(shù)據(jù)湖視為跨企業(yè)集成數(shù)據(jù)的單一點(diǎn),但應(yīng)該指出,這并不是它最初的意圖。這個(gè)詞是 James Dixon 在 2010 年創(chuàng)造的,當(dāng)時(shí)他打算將數(shù)據(jù)湖用于單個(gè)數(shù)據(jù)源,多個(gè)數(shù)據(jù)源將形成一個(gè)“水上花園”。盡管有最初的表述,但現(xiàn)在普遍的用法是將數(shù)據(jù)湖視為整合了許多來源。
我們應(yīng)該將數(shù)據(jù)湖用于分析目的,而不是用于業(yè)務(wù)系統(tǒng)之間的協(xié)作。當(dāng)業(yè)務(wù)系統(tǒng)協(xié)作時(shí),它們應(yīng)該通過為此目的設(shè)計(jì)的服務(wù)來實(shí)現(xiàn),例如 RESTful HTTP 調(diào)用或異步消息傳遞。
重要的是,所有放入湖中的數(shù)據(jù)都應(yīng)該有明確的時(shí)間和地點(diǎn)來源。每個(gè)數(shù)據(jù)項(xiàng)都應(yīng)該清楚地跟蹤它來自哪個(gè)系統(tǒng)以及何時(shí)生成數(shù)據(jù)。因此,數(shù)據(jù)湖包含歷史記錄。這可能來自將業(yè)務(wù)系統(tǒng)事件饋送到湖中,也可能來自定期將當(dāng)前狀態(tài)轉(zhuǎn)儲(chǔ)到湖中的系統(tǒng)——當(dāng)源系統(tǒng)沒有任何時(shí)間能力但想要對(duì)其數(shù)據(jù)進(jìn)行時(shí)間分析時(shí),這種方法很有價(jià)值。
數(shù)據(jù)湖是無模式的,由源系統(tǒng)決定使用什么模式,并由消費(fèi)者決定如何處理由此產(chǎn)生的混亂。此外,源系統(tǒng)可以隨意更改其流入數(shù)據(jù)模式,而消費(fèi)者也必須應(yīng)對(duì)。顯然,我們更希望此類更改的破壞性盡可能小,但科學(xué)家更喜歡全面的數(shù)據(jù)而不是缺失數(shù)據(jù)。
數(shù)據(jù)湖將變得非常大,并且大部分存儲(chǔ)都圍繞著大型無模式結(jié)構(gòu)的概念——這就是為什么 Hadoop 和 HDFS 通常是人們用于數(shù)據(jù)湖的技術(shù)。數(shù)據(jù)湖中集市的一項(xiàng)重要任務(wù)是減少需要處理的數(shù)據(jù)量,這樣大數(shù)據(jù)分析就不必處理大量數(shù)據(jù)。
數(shù)據(jù)湖對(duì)大量原始數(shù)據(jù)的存儲(chǔ)引發(fā)了有關(guān)隱私和安全的尷尬問題。數(shù)據(jù)湖對(duì)黑客來說是一個(gè)誘人的目標(biāo),他們可能喜歡把選擇的數(shù)據(jù)塊吸進(jìn)公共海洋。限制小型數(shù)據(jù)科學(xué)組織直接訪問數(shù)據(jù)湖可能會(huì)減少這種威脅,但無法避免該組織如何對(duì)其獲取的數(shù)據(jù)的隱私負(fù)責(zé)的問題。
關(guān)鍵詞: 數(shù)據(jù)倉庫 原始數(shù)據(jù) 數(shù)據(jù)集市
- 天天觀焦點(diǎn):談?wù)剶?shù)據(jù)湖和數(shù)據(jù)倉庫
- 當(dāng)前觀察:見證歷史!中國航天員乘組完成首次在軌交接!
- 當(dāng)前速遞!前三季度凈利潤增長22.5% 夢(mèng)天家居為何能走出舒適區(qū)?
- 【世界新要聞】報(bào)告:2023年全球經(jīng)濟(jì)仍將疲軟 增長或?yàn)?.8%
- 環(huán)球快訊:12月2日0-24時(shí)成都市新增本土感染者476例
- 全球微速訊:航天新征程 | 中國航天員乘組完成首次在軌交接
- 當(dāng)前快報(bào):行走的代碼生成器:chatGPT要讓谷歌和程序員“下崗”了
- 雄安新區(qū)組建8個(gè)“產(chǎn)業(yè)人才引進(jìn)服務(wù)團(tuán)”助企發(fā)展
- 今日播報(bào)!成都疫情防控最新答疑:7天不做核酸不會(huì)變黃碼
- 最新:北京辟謠網(wǎng)傳“取消查驗(yàn)健康寶”等
- 當(dāng)前快看:寒潮致廣西1.2萬余戶居民停電 當(dāng)?shù)鼐o急搶修
- 熱推薦:我國渤海首個(gè)千億方大氣田Ⅰ期項(xiàng)目開鉆
- 中老鐵路首列全鐵路運(yùn)輸水果冷鏈班列從磨憨開車發(fā)往全國
- 環(huán)球報(bào)道:通用汽車、LG新能源宣布向田納西州合資電池廠追加投資2.75億美元
- 世界新資訊:欣旺達(dá):子公司將向沃爾沃供應(yīng)電池電芯
- 全球視訊!日本2022年新上市企業(yè)數(shù)創(chuàng)10年來次高
- 乘火車高鐵需要核酸嗎?成都疫情防控最新熱點(diǎn)答疑
- 當(dāng)前熱點(diǎn)-副業(yè)三大“騙局”:有興趣、能賺錢、不占時(shí)間
- 天天要聞:歌爾股份大幅下修業(yè)績預(yù)期 凈利潤同比降幅達(dá)50%-60%
- 當(dāng)前時(shí)訊:中俄東線天然氣管道穿越長江隧道貫通
- 低碳菜單引領(lǐng)寧波餐飲消費(fèi)新風(fēng)尚 試點(diǎn)將持續(xù)至今
- 深圳坪山打造餐飲服務(wù)食品安全示范高地 嚴(yán)守食品
- 黑龍江哈爾濱推出“沙盒”監(jiān)管新模式 激發(fā)市場活
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對(duì)機(jī)動(dòng)車檢測機(jī)構(gòu)開展監(jiān)督抽查 規(guī)范機(jī)動(dòng)
- 天津北辰扎實(shí)做好價(jià)格監(jiān)管工作 維護(hù)安全有序市場
- 北京石景山開展冬季供暖前特種設(shè)備安全專項(xiàng)檢查
- 陜西延安:開展兒童化妝品專項(xiàng)檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項(xiàng)監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進(jìn)網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費(fèi)直
- 1 天天觀焦點(diǎn):談?wù)剶?shù)據(jù)湖和數(shù)據(jù)倉庫
- 2 當(dāng)前觀察:見證歷史!中國航天員乘組完成首次在軌交
- 3 當(dāng)前速遞!前三季度凈利潤增長22.5% 夢(mèng)天家居為
- 4 【世界新要聞】報(bào)告:2023年全球經(jīng)濟(jì)仍將疲軟 增長
- 5 環(huán)球快訊:12月2日0-24時(shí)成都市新增本土感染者476例
- 6 全球微速訊:航天新征程 | 中國航天員乘組完成首
- 7 當(dāng)前快報(bào):行走的代碼生成器:chatGPT要讓谷歌和程序
- 8 雄安新區(qū)組建8個(gè)“產(chǎn)業(yè)人才引進(jìn)服務(wù)團(tuán)”助企發(fā)展
- 9 今日播報(bào)!成都疫情防控最新答疑:7天不做核酸不會(huì)變
- 10 最新:北京辟謠網(wǎng)傳“取消查驗(yàn)健康寶”等