正式文档为什么更适合从 Git 接入：把“数据上传”重塑为“受控发布流”

在很多早期的 RAG（检索增强生成）项目演示里，“上传文档”通常是一个极其随意的动作：用户在界面上点个按钮，扔进去一个 PDF 或是 Markdown，系统在后台切个块、算个向量，然后马上就可以开始跟 AI 聊天了。

这种体验在个人玩具、或者单纯的客服知识库里确实很爽，见效极快。但在真实的企业技术架构环境中，当这套系统要去承载 API 接口定义、安全规范准则、核心业务 SOP 这类“严肃知识”时，这种随意的“单点上传”简直是一场工程灾难。

在研发 Knowledge Hub (KH) 的过程中，我曾反复推演过一个场景：如果某份核心架构文档被发现有严重错误，我们能在知识库里追溯出是哪位员工在什么时候改的吗？我们能一键把它精准回滚到上个星期的稳定版本，而不影响其他文档吗？

如果依赖随意的 UI 旁路上传，答案是：完全不能。因为这种模式彻底破坏了知识体系的“可审计性”与“版本连贯性”。

为了根除这个熵增的源头，我在 KH 中确立了一条冷酷的架构红线：对于正式项目，唯一的真相源（Single Source of Truth）必须是 Git 仓库，坚决切断前台的随性编辑。

一、架构的克制：向“双重入口”说不

在 KH 开发初期，AI 伙伴为了追求所谓的“功能完整性”，极其贴心地在 UI 层给我生成了一套完整的在线富文本编辑器。它认为，让用户能在页面上直接改文档是一个“高感官价值”的功能。

但我行使了决策剪枝权。

作为一个常年处理分布式系统一致性的开发者，我很清楚“双重入口”意味着什么。如果允许双向修改，当 Git 仓库触发了新的一次 Push，而 KH 平台内部又被人手工修改过时，系统该信谁？那种复杂的、涉及到语义冲突的 Merge 处理，最终会把整个同步逻辑拖入死锁。

我在 internal/document/service.go 中强行增加了拦截逻辑：

“当文档归属于 SourceType: git 的项目时，禁止在平台直接进行任何 Save 操作。如果试图通过 API 绕过，直接抛出 ErrReadOnlyGitSource。”

我宁愿在前期牺牲一点操作上的“便利性”，让习惯了“随手改”的用户觉得麻烦，也要换取整个系统状态的绝对清晰。这种克制，是维持架构长久生命力的底线。

决定了全面拥抱 Git 后，下一个硬核挑战是如何安全地把数据搬进来。

在传统的 RAG 导入中，数据一旦拉取就直接进入了向量化管道。如果拉过来的文档格式有错，或者是 Git 仓库里有人误传了一个巨大的二进制大文件，整个向量库的检索质量和存储成本会瞬间崩掉。

我在 internal/gitsync 模块中定义了一套极具秩序感的生命周期：Staging（暂存区）。

在我的设计逻辑中，Git 同步不再是一个单纯的“下载”动作，而是一套状态机：

后缀强拦截：在 StageNewFile 阶段，我们强制执行白名单。非 .md 或 .txt 的文件，连进入暂存区的资格都没有。这在第一道防线上过滤掉了非结构化噪声。
挂起与预览：同步过来的变更不会立刻覆盖线上索引，而是先变成 GitStageStatusPending 状态。管理员可以在 VFS 树形 UI 上清晰地看到“哪些文件新增了、哪些被删除了”。
原子提交：只有当管理员确信这批改动符合预期，点击“Confirm Commit”，数据才会流向底层的 Dataset 切片引擎。

这种设计，把盲目的“数据倾倒”变成了“有缓冲、可审查、可撤销”的发布流水线。 它承认了一个朴素的真理：即便在 AI 时代，正式知识的发布也需要人类的最后一次确认。

在多人协作的真实场景下，最怕的是“内容踩踏”。

设想这样一个场景：管理员 A 在 KH 后台点击了“开始同步”，一堆数据进入了暂存区，A 正在慢悠悠地检查。就在这时，开发者 B 在 GitHub 上强行 Push 了一个紧急的生产补丁。如果此时 A 检查完点击了“确认提交”，B 的补丁就会被旧的暂存数据覆盖，甚至在索引层永远丢失。

为了杜绝这种低概率但极其致命的一致性漏洞，我在 internal/gitsync/service.go 中设计了 CBWM（基于当前基线的写入模型）安全闸。

这段逻辑的执行逻辑非常死板且可靠：

这种在细节处进行的“防御性编程”，虽然让开发过程多了不少拉锯，但它向每一个使用 KH 的用户传达了一个强烈的信号：这系统是有并发纪律的。

KH 的 Git Sync 还有一个极其极客的特性：它支持反向的、受控的语义提交。

如果你在 KH 平台上对文档做了一些合法的调整（比如在界面上移动了目录结构或添加了分类标签），系统绝不会野蛮地用 git push 去强上主分支。相反，我们实现了一套自动化的 PR 流程。

在 CommitStagedFiles 流程中，系统会：

这堪称整个同步系统的点睛之笔。它彻底打通了 AI 知识库与企业现有研发工作流的壁垒。任何由系统产生的修改，都必须乖乖地躺在 PR 列表里，接受人类资深工程师的 Code Review。这种对流程的尊重，才是企业级方案应有的素养。

回顾 KH 接入 Git 的整个过程，这本质上是一场通过工程约束来消灭数据混乱的战役。

在 AI 辅助全栈开发的狂热下，系统很容易被塞满各种看似炫酷、取悦用户的“双向实时在线编辑”功能。但我作为唯一的负责人，职责是不断地做“减法”和“设卡”。我砍掉了旁路编辑，卡死了 BaseSha 校验，引入了 Staging 审核和自动 PR。

这一切看似是在给用户“添堵”，但实际上，我们在为企业知识的长期确定性保驾护航。当面对海量的核心业务文档和随时面临变动的代码库时，一条冰冷但严丝合缝的受控链路，远比一个只会炫技的 AI 模型更能让人睡得踏实。 这，就是我对工程完整性的偏执。