delta-io / delta

8,8302,108+4 todayScala

一种开源存储框架，能够通过Spark、PrestoDB、Flink、Trino和Hive等计算引擎及API构建湖仓架构。

Delta Lake 是一个开源存储框架，旨在构建现代化的“湖仓一体”架构。它在现有数据湖（如云存储或HDFS）之上，通过提供 ACID 事务、数据版本控制、模式演进和审计历史等关键特性，将数据湖的灵活性与数据仓库的可靠性结合起来。该项目支持使用 Apache Spark、PrestoDB、Flink、Trino 和 Hive 等多种流行的大数据计算引擎进行读写操作，并提供了 Scala、Java、Python、Rust 和 Ruby 等多种语言的 API。这使得团队能够在同一个数据存储上同时运行高性能的批处理、流式处理和交互式查询，有效解决了数据湖中常见的数据一致性和可靠性问题，适用于大数据分析、机器学习和实时数据处理等多种场景。

💡 应用场景

最适合需要ACID事务、多引擎协作和数据版本管理的数据湖仓一体化场景。

数据更新与回滚

问题：在数据湖中更新或删除特定记录时，传统Parquet文件无法保证ACID事务，可能导致数据不一致。

方案：Delta Lake提供ACID事务支持，允许通过Spark SQL执行UPDATE、DELETE和MERGE操作，并支持版本回滚到历史状态。

示例：电商平台需要修正某批订单的价格错误，可以使用`MERGE INTO`语句精准更新，如果操作失误还能通过`RESTORE TABLE`回滚到前一版本。

多引擎统一访问

问题：不同计算引擎（Spark、Presto、Flink）访问同一数据湖时，格式兼容性和并发读写容易冲突。

方案：Delta Lake作为开放存储格式，通过标准连接器支持Spark、PrestoDB、Trino、Flink等引擎安全并发读写。

示例：数据团队用Spark ETL写入数据，分析师用Presto/Trino实时查询，Flink流处理同时写入，所有引擎通过Delta事务日志协调避免冲突。

流批数据统一

问题：流处理和批处理数据存储分离，导致架构复杂且难以保证数据一致性。

方案：Delta Lake支持将流式数据直接写入数据湖，实现同一张表同时服务流处理和批处理查询。

示例：用户行为日志通过Spark Structured Streaming实时写入Delta表，同时批处理任务可以读取同一张表进行历史分析，无需数据同步。

数据质量监控

问题：数据管道写入错误数据后难以快速发现和修复，影响下游分析结果。

方案：Delta Lake提供数据版本控制、Schema约束和时间旅行功能，便于数据审计和质量追溯。

示例：通过`DESCRIBE HISTORY table`查看数据变更记录，使用`VERSION AS OF`查询历史快照定位问题数据，并设置Schema约束防止非法数据写入。

📊 项目信息

语言: Scala
Stars: ⭐ 8,830
Forks: 2,108
今日新增: +4
排名: #9
收录: 语言榜
趋势日期: 2026年6月1日
最后推送: 2026/6/2

🏷️ 标签

acidanalyticsbig-datadelta-lakespark