是最受歡迎的開放式表格式。它起源於 Netflix,因為需要為文件中保存的資料提供表表示,並使團隊能夠像在關聯式資料庫中管理這些表一樣使用這些表。
從廣義上講,Apache Iceberg 由三個主要層構成:
以 Parquet 格式儲存的資料文件
清單檔案保存元資料以允許表表示
目錄,列出這些表並提供使用 SQL 存取它們的權限
雖然 Apache Iceberg 只為資料和清單檔案提供一種選項,但它為您提供了很大的自由度來選擇可以使用的目錄。繼續閱讀以了解不同的選項以及如何選擇適合您的選項。
什麼是冰山目錄?
Apache Iceberg 是一種資料湖屋表格式,以其複雜的分區、ACID 保證、模式演化、時間旅行等創新功能重新定義了資料業務。
Apache Iceberg 資料表的目錄 荷蘭 WhatsApp 號碼數據 機制對其操作至關重要,並且隨著時間的推移會顯著影響其功能的建立和使用方式。
過去要求目錄為支援 Iceberg 的每
種語言(Java、Python、Rust 和 Go)提供支持,這阻礙了資料湖屋「使用您想要的工具」的理念。這導致目錄支援不一致。
Apache Iceberg 專案建立了「REST Catalog 規格」來解決這個問題。透過定義所需的伺服器端點,此開放 API 規格建立了服務目錄標準。
現代目錄尋求在各種 Iceberg 支
援技術中提供統一的桌面體驗。他們不僅透過使表格更容易被發現,還透過保證治理規則和其他資訊的可移植性來做到這一點。
目錄的不同用途
Apache Iceberg 使用名為的 能量補充線上計算器/透過新的線上計算器可以計算能量補充量 頂級元資料文件,為查詢引擎提供對關鍵資料的訪問,包括表格的結構、快照歷史記錄和分區歷史記錄。
每次修改 Apache Iceberg 表時都會建立一個新文件,從而導致資料湖中累積許多版本(例如和。
即使清理程式定期刪除這
些額外的文件,問題仍然存在:Dremio、Snowflake 和 Apache Spark 等查詢引擎如何識別哪個 檔案是「目前」文件?
這就是目錄 馬來西亞數據 發揮作用的時候。
Iceberg 目錄最常見的用例是:
追蹤目前的 Iceberg 表列表。
維護「目前」的副本。
目錄作為單一事實來源,保證多個查詢引擎可以存取同一資料庫並獲得一致的資料版本。
冰山目錄的類型
Iceberg 目錄分為基於檔案和基於服務的類別。基於服務的目錄依賴活動服務來追蹤這些引用,而基於檔案的目錄透過檔案保存它們。
讓我們結合目前市場上找到的範例
來探討每種類型的 Apache Iceberg 目錄。
基於檔案的目錄
基於文件的目錄保留一個名為 的文件,引用最新的。每當查詢引擎進入包含 Iceberg 表的目錄時,查詢引擎都會尋找此檔案以找到正確。
由於 Iceberg 目錄具有適應性,因此您幾乎可以將它們與任何後端系統一起使用。任何 Iceberg 運行時都可以連接到它們,並且任何與 Iceberg 相容的處理引擎都可以使用它們來載入追蹤的 Iceberg 表。 Apache Iceberg 中也包含幾個開箱即用的目錄實作。