是一個極其強大的產品套件,由所有主要雲端供應商、Azure、AWS 和 GCP(後者的 用戶足跡最小)提供。
它提供了管理層所需的全部三個組件。由於 依賴專有的 Spark 實作作為計算引擎,因此它適用於結構化、半結構化和非結構化資料。
是一個開放式平台,您可以使用許
多選項,包括基於 ORC、Parquet 或 Avro 檔案的舊式 Hive Metastore。
也就是說,無伺服器 產品已經專注於一個非常具體且高效能的管理層,該管理層由Delta Lake作為開放表格式、Unity Catalog作為元存儲以及 作為計算層構建。
開啟表格格式
Delta Lake 由 於 2019 年推出,作為開源開放表格式以及 delta.io 下的閉源版本。隨著時間的推移,它遭受了Iceberg 社區的攻擊,稱其“並非 俄羅斯 WhatsApp 號碼數據 真正開源”,但在2022 年,Databricks 發布了完全開源的Delta Lake 2.0,並退役了delta.io(它的閉源雙胞胎) 。
在 中使用 Delta Lake 表可將 計算引擎的效能提高多達 8 倍。
自 於 2024 年 6 月收購 Tabular 以來,憑藉 Apache Iceberg 核心貢獻者團隊(包括其創作者 Ryan Blue),預計 Apache Iceberg 將在未來幾年內成為 平台內的一等公民。但是,如果您現在選擇,Delta Lake 將是 最安全的選擇。
元儲存
Unity Catalog 是 平台的主要元件,隨著向無伺服器的發展,它成為該平台的關鍵部分,本質上提供資料目錄(例如 Alation)和元儲存。
在我們的對話中,我們最關心
的是元存儲,而 Unity Catalog 的構建目的是作為 Delta 表的元存儲。因此,雖然 Unity Catalog 中支援其他格式,但在使用 Delta Lake 時表現最佳。
在考慮非結構化資料時,它具有稱 客戶細分的深入指南 為磁碟區的功能,可讓您管理非結構化資料或至少是非結構化資料的元資料。
這對於機器學習專案非常有用。例如,如果您正在處理電腦視覺模型,則可以選擇所有帶有貓的圖像,並擁有與所需圖像關聯的所有元資料。
計算引擎嗯,這就是 的核心功能
該平台曾經是“The Spark Company”,如今是“專有的高效能 Spark 版本”公司,透過 等介面提供分散式運算功能。
數據版本控制
由於 是一個組織範圍的資 馬來西亞數據 料平台,因此其使用者自然可以透過使用資料版本控制為資料管理添加重要價值。
使用 為每個角色提供價值:
資料工程師
隔離的開發/測試環境
透過利用 LakeFS 分支創建單獨的開發/測試環境,您可以將測試時間縮短 80%。清理和組織資料、解決異常值、添加缺失值以及執行其他任務,以確保預處理資料管道可靠並提供高品質的結果。
僅將高品質數據推廣到生產中
透過使用lakeFS鉤子來實現資料的寫入-審核-發布,品質驗證檢查可以自動化。
使用生產回滾更正錯誤數據
提交可讓您保存完整、一致的
資料快照,並允許您在出現資料品質問題時回滾到先前的提交。
數據科學家
執行本地資料檢查
透過將 LakeFS 資料的選定部分複製到本地環境來保持遠端和本地位置之間的同步。