當 Databricks 用戶第一次聽說 LakeFS 時,常見的反應是,“我已經在 Delta Tables 中實現了時間旅行。”這就提出了一個重要的問題:lakeFS 如何更好,或者它如何補充 Delta Tables?讓我們探討 LakeFS 的關鍵差異和用例,並解釋為什麼包括許多大型企業在內的數千個組織選擇使用 LakeFS 來管理其生產資料。
單表時間旅行與資料版本控制:有什麼不同?
雖然增量表允許給定表進行時間旅行,但資料版本控制系統允許您將資料作為代碼進行管理。它管理增量表(例如數十萬個表)的儲存庫,並允許同時對所有這些表進行時間旅行。當您回到某個特定時間點時,您可以看到該時間點儲存庫中所有資料表的快照。
此外,lakeFS 是一個資料版本控制系統
可讓您將資料作為程式碼進行管理。您可以提交對資料的更改;換句話說,您可以隨時返回快照。您可以在儲存庫中開啟一個分支來取得要使用的隔離資料環境,並且可以將資料變更合併到主生產分支。
同樣重要的是要注意增量表壓縮依賴於遺失歷史記錄。對於資料版本控制系統,除非需要,否則您永遠不會遺失歷史記錄。因此,壓縮使得 波蘭 WhatsApp 號碼數據 增量時間旅行中的可用歷史更加有限。即使您使用 LakeFS 對增量表使用壓縮,您也只會丟失所執行的給定提交的歷史記錄,但所有先前的提交仍將保留這些表的歷史記錄。
讓我們來看看區分 Delta 時間旅行和資
料版本控制的一些用例。
用例差異
LakeFS 適用於任何格式
最重要的區別之一是 LakeFS 與格式無關。它可以在 Delta Tables、Iceberg 甚至非結構化資料(例如視訊和圖像)上運行。這種靈活性使您可以在同一系統內管理多種資料格式,從而為資料管理提供更通用的解決方案。這種多功能性確保了資料/人工智慧產品更快的上市時間,因為團隊不受資料格式的限制,並且可以更有效地利用現有基礎設施。
建立多個隔離的開發/測試環境
零拷貝克隆
借助 LakeFS 分支,您可以產生數百萬個環境的零拷貝克隆。這意味著任何從事 ETL 工作的資料工程師都可以創建自己的獨立環 清理電子郵件清單 境副本並進行工作,而不會妨礙彼此。同樣,任何訓練模型的資料科學家都可以單獨執行預處理。這種隔離可以防止意外的變更和衝突,從而提高資料質量,使所有資料從業者能夠安全地進行資料協作。
寫入-審核-發布您的數據
安全資料推廣
使用 LakeFS 合併和掛鉤的組合,您可以安全地將資料提升到生產環境。例如,透過實施寫入-審核-發布工作流程,您可以在將資料供生產使用之前確保資料完整性和合規性。這種結構化的推廣流程解決了數據和人工智慧管道和模型開發和測試緩慢且容易出錯的痛點。
故障排除和再現性
邏輯資料集
由於lakeFS管理儲存庫,時間旅行(即存取歷史提交)是在一組邏輯資料集而不是每個表上完成的。您可以從對生產引入變更的 馬來西亞數據 特定合併/提交中開啟分支。您可以重現環境的各個方面,解決分支上的問
題並進行調試同時您可以將主分支
恢復到先前的時間點或保持原樣,具體取決於用例。此功能增強了資料再現性,這是審計和 AI/ML 建模的關鍵要求。
機器學習再現性
超越時空旅行
時間旅行只有一個維度:時間
然而,機器學習是一個非線性的迭代過程。每個資料科學家通常都會執行單獨的預處理步驟來準備用於訓練模型的資料。為了實現機器學習的可重複性,您需要了解所有這些並發變更的沿襲。借助 LakeFS,您可以追蹤每個實驗和轉換的資料直到原始資料集,確保您可以重現和驗證任何模型的結果。這種追蹤和重現資料轉換的能力可確保 AI/ML 產品的高資料品質和可靠性。