距離我們分享2021 年資料工程現況已經過了一年。自從我們去年五月發布那篇文章以來,數據格局並沒有太大變化。事實上,我們內部討論過是否應該在 2022 年進行更新。
我們開玩笑。
這又是值得黃金時段戲劇的一年,我們回來分享我們更新的、易於理解的快照!
今年發生了什麼變化?
去年我們看到的主要主題是整合。公司擴大業務範圍以進入新的類別,或只是以替換資料堆疊中的多個現有工具為價值主張而存在。
讓我們看看今年更新的圖表,解析度更高!
按此處查看 2022 年資料工程狀況地圖的全尺寸、可縮放版本。
食入此層包括串流技術和 SaaS 服務,提供
從作業系統到資料儲存的管道。
這裡值得一提的演變是Airbyte的急劇崛起。 Airbyte 成立於 2020 年,直到當年年底才轉向目前的產品,它是一個開源項目,目前已被超過 15,000 家公司使用。該社區有600 多名貢獻者。使用量和社區呈指數級增長的情況很少見。
Airbyte 剛剛推出了其商業產品,並透過收購 Grouparoo(一個用於反向 ETL 連接器的開源軟體)擴展到反向 ETL(我們在圖表中未涵蓋的類別)。我們認為反向 ETL 是一種與 ETL 截然不同的產品,因為它需要以有利於該系統內使用者工作流程的方式將資料整合到作業系統中。
很好奇事情會如何發展
資料湖
2021 年,我們將資料倉儲和 Lakehouse 作為資料湖層的一部分。但今年,我們決定僅將資料湖類別保留為用作資料湖的物件儲存技術。我們將所有倉庫和湖屋移至分析引擎類別。
為什麼?如今資料工程師處理的大多數架構都非常複雜,足以包含物件儲存和分析引擎。因此,您要么只需要一個分析資料庫(在這種情況下,您沒有資料湖,但有一個充當分析引擎的資料倉儲),或者兩者都需要。當您需要兩者時,您通常會透過物件儲存執行一些分析,並透過分析引擎執行一些分析。這就是為什麼他們需要好好合作。
這種依賴性發生在不同的層
大型資料集將在物件儲存中進行管理,而工件和服務層資料集將儲存在分析引擎和資料庫中。他們中的一個會征服另一個的想法是我們在周圍的建築中看不到的。
我們在現實中看到的是這些解決方案並存。這種架構背後有幾個原因,其中之一肯定是成本考量。在Snowflake或BigQuery中查詢大 卡塔爾 WhatsApp 號碼數據 量資料的成本很高。因此,您不必讓分析資料庫管理整個湖,而是可以透過更便宜的運算來管理物件儲存中的所有內容,並將所有必備功能留給分析引擎。
我們認為 Lakehouse 是一個分析
引擎(儘管在 Databricks 中它既包括資料湖又包括分析引擎)。該架構具有 Spark SQL 的最佳化版本,可基於 Delta 表格式建立分析引擎。這可以提高分析引擎的性能並降低成本。
同樣的規則適用於 Iceberg 上的 Dremio,或支援 Iceberg 作為其資料庫外部表的 Snowflake。
元資料管理
元資料空間正在發生很多事情!元資料的兩層(這一層和圖表頂部的組織層)正在成為許多組織的焦點。
回顧我們作為可擴展資料從業者
所面臨的挑戰的演變,我們在 女性認同藝術家 涵蓋多種藝術形式 競爭性申請 過去十年中圍繞儲存和電腦進行創新——所有這些都是為了確保它們支援資料規模。
今天,我們面臨的主要是可管理性問題,可以透過產生和管理元資料來解決這些問題。這一層包括元資料的不同面,讓我們逐一了解。
開啟表格格式
去年,我們看到開放表格格式取得
了有趣的進步。它們正在成 台灣新聞 為在資料湖中保存結構化資料的標準。
一年前,Delta Lake是一個Databricks項目,有一個名為 Delta 的實際商業產品。然後今年,我們有Onehouse商業化的Apache Hudi和Tabular商業化的Apache Iceberg。兩家公司都是由這些開源專案的創建者創立的。
因此,整個領域從開源變成了完全由商業實體支援。既然開源專案背後有商業利益,這就為其他參與者對開源專案產生多大的影響力帶來了一個問號。
由於所有三個開源專案都是
基金會的一部分,因此社群面臨的風險很低。這似乎並沒有平息這三個項目的創建者和粉絲之間關於誰是「真正」開源以及誰擁有最佳解決方案的激烈爭論。 Netflix 很快就會把這個故事當作電視劇的絕佳素材。
Metastore 的未來仍處於黑暗之中…
我們看到Hive Metastore被從架構中撤出,可以用開放式表格式取代它。並非所有組織都充分利用 Metastore 功能,如果他們唯一的用例是虛擬化表,那麼開放表格式及其周圍的商業產品提供了一個不錯的選擇。 Metastore 的其他用例尚未獲得更好的替代解決方案。