Skip to content

欢迎新晋 Committer 二夕|Greptime 双周精选 - No. 84

欢迎二夕(QuakeWang)成为 GreptimeDB 新晋 Committer。此外近期亮点:表可通过 `meta-srv` 重新分区,无需删除重建;Flow 查询支持 checkpoint,跟踪增量读取位置;查询预过滤器缓存结果,跳过重复的 parquet 行组扫描。
欢迎新晋 Committer 二夕|Greptime 双周精选 - No. 84
本页内容

热烈欢迎新晋 Committer:二夕 🎉

欢迎二夕成为 GreptimeDB Committer

我们非常高兴地欢迎 二夕 成为 GreptimeDB 的新晋 Committer!

他在社区里用的名字是「二夕」,背后藏着一点小巧思:取自「无名」二字,把这两个字各保留上半部分,就成了「二夕」。

二夕此前从事大数据和 OLAP DBA 工作。最早把他吸引到 GreptimeDB 的,是稳定性——多年运维生产系统的经历让他深知稳定性的分量。在和 Wayne 的一次交流中,他了解到 GreptimeDB 在生产环境里几乎没有出现过系统级的严重问题,绝大多数问题都偏逻辑层面,而这在一定程度上得益于它用 Rust 写成。越深入参与,他越认可这个项目虽有商业公司支撑,却把开源社区维护得非常开放、活跃,对贡献者也格外友好。

在 GreptimeDB 中,他关注存储与 flush 行为、大数据生态集成以及可观测性。过去两个月,他持续贡献了一系列有分量的工作,包括:

  • 加固 metasrv 控制面:禁止在非 metasrv leader 节点上写入 meta KV(#8060
  • Flush 可观测性:在 FlushRegions 路径上传播 flush reason(#8051
  • 查询生命周期:在 process manager 中跟踪 INSERT ... SELECT,使其可被取消,并补充 KILL 测试(#8138#8151
  • Pipeline 易用性:支持在 pipeline 中进行精细化索引配置(#8036
  • Mito 选项校验#8094)与 gRPC CLI 选项命名对齐#8021
  • COPY FROM CSV 易用性:跳过坏记录(#8198)以及支持无表头 CSV(#8233

在 GreptimeDB 之外,二夕也活跃于 Apache Paimon 社区——尤其是 paimon-rust 项目,以及与 Ray Data、Daft 等项目的集成——他还维护着一个个人的 GreptimeDB Flink connector,最近也在探索 AI 可观测性和多模态数据处理。

用他自己的话说,他不太想给自己贴太多标签,只愿把自己描述为「一个喜欢探索、喜欢折腾有意思东西的开发者」。可以在 XGitHub 上找到他。

欢迎加入,二夕!🚀

内容概述

开发周期:2026-05-18 - 2026-05-31

近期主要更新:

  • 表可以通过 meta-srv 重新分区,无需删除重建。
  • Flow 查询支持 checkpoint,跟踪增量读取位置
  • 查询预过滤器缓存结果,跳过重复的 parquet 行组扫描

建议旧版本用户升级到最新版本。

贡献者

过去两周,共有 15 位贡献者合并了 50 个 PR。 其中 4 位独立贡献者贡献了 5 个 PR。 欢迎新贡献者:@rogierlommers

本期活跃独立贡献者:

PR 亮点

db#8179 feat(flow): support incremental read checkpoints

流式查询支持增量 checkpoint,不再对整表扫描。系统跟踪 region watermarks 安全推进 checkpoint,将增量结果与现有 sink 状态合并,降低持续数据处理的计算开销。

db#8108 feat: inc query join rewrite helper

增量查询现在可以重写为与 sink 表的 join 操作。这个内部优化为更高效的增量查询执行模式打下基础。

db#8154 feat: add flow query-context plumbing for terminal watermarks

Flow 任务现在能够传播查询上下文,并通过前端节点客户端收集终端 watermark metrics。这为增量 Flow 读取做好了基础设施准备,当前的批处理执行行为保持不变。

db#8186 feat(meta-srv): support repartition for unpartitioned tables

之前 repartition 只能处理已经定义了分区键的表。现在可以把无分区表转换成分区表,自动添加分区键索引并将单个 region 拆分成多个 region。

db#8102 feat: implement a cache for the prefilter

同一 parquet row group 重复扫描时会复用之前的过滤结果,不再重新读取和计算过滤列。缓存按 row group 和过滤表达式分组,可通过新增的 prefilter_result_cache_size 参数配置大小限制(默认 128MB)。

Good First Issue

Issue#8227 Timestamp display precision should respect column schema

通过 MySQL/PostgreSQL CLI 查询时,时间戳的渲染没有始终遵循列 schema 中定义的精度——例如 TIMESTAMP(9) 列会被截断到微秒。修复格式化逻辑,使其遵循每列声明的精度。

  • 关键词:MySQL protocol, Timestamp formatting
  • 难度:Easy

Issue#7987 feat: add flow_statistics system table and SHOW FLOW STATUS for flow runtime observability

新增一个名为 flow_statistics 的系统表和 SHOW FLOW STATUS SQL 命令,显示流处理的运行时信息,包括启动时间、运行时长、处理的数据量和最近的错误。

  • 关键词:SQL parser, Observability
  • 难度:Medium

Stay in the loop

加入我们的社区