Apache Iceberg 目錄:類型以及如何選擇正確的目錄

是最受歡迎的開放式表格式。它起源於 Netflix,因為需要為文件中保存的資料提供表表示,並使團隊能夠像在關聯式資料庫中管理這些表一樣使用這些表。

從廣義上講,Apache Iceberg 由三個主要層構成:

以 Parquet 格式儲存的資料文件

清單檔案保存元資料以允許表表示
目錄,列出這些表並提供使用 SQL 存取它們的權限
雖然 Apache Iceberg 只為資料和清單檔案提供一種選項,但它為您提供了很大的自由度來選擇可以使用的目錄。繼續閱讀以了解不同的選項以及如何選擇適合您的選項。

什麼是冰山目錄?

Apache Iceberg 是一種資料湖屋表格式,以其複雜的分區、ACID 保證、模式演化、時間旅行等創新功能重新定義了資料業務。

Apache Iceberg 資料表的目錄 荷蘭 WhatsApp 號碼數據 機制對其操作至關重要,並且隨著時間的推移會顯著影響其功能的建立和使用方式。

過去要求目錄為支援 Iceberg 的每

種語言(Java、Python、Rust 和 Go)提供支持,這阻礙了資料湖屋「使用您想要的工具」的理念。這導致目錄支援不一致。

Apache Iceberg 專案建立了「REST Catalog 規格」來解決這個問題。透過定義所需的伺服器端點,此開放 API 規格建立了服務目錄標準。

WhatsApp數據

現代目錄尋求在各種 Iceberg 支

援技術中提供統一的桌面體驗。他們不僅透過使表格更容易被發現,還透過保證治理規則和其他資訊的可移植性來做到這一點。

目錄的不同用途

Apache Iceberg 使用名為的 能量補充線上計算器/透過新的線上計算器可以計算能量補充量 頂級元資料文件,為查詢引擎提供對關鍵資料的訪問​​,包括表格的結構、快照歷史記錄和分區歷史記錄。

每次修改 Apache Iceberg 表時都會建立一個新文件,從而導致資料湖中累積許多版本(例如和。

即使清理程式定期刪除這

些額外的文件,問題仍然存在:Dremio、Snowflake 和 Apache Spark 等查詢引擎如何識別哪個 檔案是「目前」文件?

這就是目錄 馬來西亞數據 發揮作用的時候。

Iceberg 目錄最常見的用例是:

追蹤目前的 Iceberg 表列表。

維護「目前」的副本。
目錄作為單一事實來源,保證多個查詢引擎可以存取同一資料庫並獲得一致的資料版本。

冰山目錄的類型
Iceberg 目錄分為基於檔案和基於服務的類別。基於服務的目錄依賴活動服務來追蹤這些引用,而基於檔案的目錄透過檔案保存它們。

讓我們結合目前市場上找到的範例

來探討每種類型的 Apache Iceberg 目錄。

基於檔案的目錄
基於文件的目錄保留一個名為 的文件,引用最新的。每當查詢引擎進入包含 Iceberg 表的目錄時,查詢引擎都會尋找此檔案以找到正確。

由於 Iceberg 目錄具有適應性,因此您幾乎可以將它們與任何後端系統一起使用。任何 Iceberg 運行時都可以連接到它們,並且任何與 Iceberg 相容的處理引擎都可以使用它們來載入追蹤的 Iceberg 表。 Apache Iceberg 中也包含幾個開箱即用的目錄實作。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端