資料可管理性:將資料信任轉變為新北極星的革命

幾週前,我正在查看我們內部 BI 系統中的儀表板。這是一個簡單的系統。 Redash 在只有幾十萬行的 PostgreSQL 上。

我注意到我最喜歡的指標之一發生了變化,該指標計算自本季初以來的新安裝數量。當然,這是一個非遞減的指標。

然而,當我查看時,它顯示了 499 個,比我前一天看到的 500 個要少。我們的BI 分析師嘗試透過在昨天的時間範圍內運行相同的查詢來調試該問題,預期為500。重現的問題…

我們這裡討論的不是大數據環境

此錯誤並不是由於 Spark 分佈或配置不當造成的。它就像 PostgreSQL 上的 SQL 一樣簡單。

25 年前,當我開始數據從業者的職業生涯時,我會對此感到非常沮喪。但隨著時間的推移,我了解到,在處理數據時,類似的事件只是辦公室裡的另一天。

數據世界充滿了挑戰幸運的是

我們現在擁有工具來解決我們在每個資料從業者的經驗中發現的兩個核心問題。繼續閱讀,了解最近開發的工具如何幫助解決我們熟知的兩個內在資料挑戰。

目錄
處理資料的兩個內在挑戰
挑戰 1:數據發現,或了解您的數據

挑戰 2:數據是瞬態的,並且會隨著時間的推移而變化

這兩個問題並不新鮮
數據發現?發現平台來救援
資料發 菲律賓 WhatsApp 號碼數據 現的範例解決方案
解決數據的瞬態性
開啟表格格式
類似 Git 的資料處理方法
包起來

什麼是資料可管理性?

資料可管理性是確保組織能夠控制和追蹤其持有的資料的一組流程和工具。

這意味著諸如這樣的問題:我們有哪些資料集?他們之間的關係如何?它們是如何產生的以及為什麼?誰擁有它們?它們如何隨著時間的推移而演變?很容易回答。

WhatsApp數據

處理資料的兩個內在挑戰

讓我們先快速概述資料固有的兩個障礙:

挑戰 1:數據發現,或了解您的數據
我面前有什麼數據?它在哪裡?它的意思 標是增加資本流向最需要的 是我認為的意思嗎?其收集、儲存或計算的背景是什麼?誰擁有它?這是我們從中獲得相關且正確的見解所需的所有基本資訊。

挑戰 2:數據是瞬態的,並且會隨著時間的推移而變化

我們喜歡將數據視為靜態的。一旦我們收到一組事件的報告,我們收到的數據就是正確、完整且一致的。事實上,對於大多數資料集來說,這些假設都不成立。我們可能有資料延遲到達,我們可能在先前的計算中存在需要修復的錯誤,並且我們 台灣新聞 可能有額外的資料來源為舊的見解提供新的啟示。無論原因是什麼,我們的單一事實來源僅在我們查看時才是真實的。雖然瞬態性是我們在處理小數據時遇到的問題,但隨著資料規模的擴大,這個問題會變得更糟。

這兩個問題並不新鮮

這些問題甚至在 50 年前就存在於傳統資料倉儲中。大型資料倉儲提供者引入了解決方案,例如使用倉庫模式作為資料目錄。開源解決方案,例如 PostgreSQL,對目錄有部分解決方案,企業軟體和開源解決方案都沒有為瞬態提供真正的解決方案。如果這些問題如此迫在眉睫,為什麼沒有製定解決方案?

因為生態系統正試圖在規模的指數級成長中存活下來。

我們優先考慮能夠獲取更多數據

運行計算、分析這些大量數據,並以消費者可以消化的方式提供給他們。

大約 4 年前,一旦我們弄清楚如何處理大量資料集,我們就開始再次研究這些內在問題。市場上出現了大量新工具!

其中一些出現較早,但在過去 3-4 年中獲得了關注,而另一些則現在才得以實現。讓我們更深入地研究這些工具,看看數據從業者如何使用它們來解決這兩個數據挑戰。

返回頂端