返回博客

企业知识库中的 RAG 架构实践

从数据治理、检索增强到权限控制,拆解企业级 RAG 系统从原型走向生产的关键路径。

背景与问题

企业知识库问答通常从一个很轻的原型开始:上传文档、切分文本、建立向量索引,然后把检索结果交给大模型生成答案。这个路径能很快展示效果,但进入真实业务后,问题会变得复杂。

真正影响落地质量的不是单次问答是否“看起来聪明”,而是系统能否稳定地回答正确的人、正确的问题,并在权限、审计、更新和运营上形成闭环。

核心架构

一个可生产化的 RAG 系统至少需要包含四层能力:

  1. 数据接入层:连接文档库、知识库、工单系统、CRM 或内部网盘。
  2. 知识治理层:处理文档清洗、切分、标签、版本和权限映射。
  3. 检索增强层:组合关键词检索、向量检索、重排和上下文压缩。
  4. 生成与评估层:控制回答风格、引用来源、置信度和人工反馈。
type KnowledgeChunk = {
  id: string;
  sourceId: string;
  content: string;
  tags: string[];
  permissions: string[];
  updatedAt: string;
};

权限不是附加功能

在企业场景里,权限需要进入检索链路本身,而不是等答案生成后再过滤。否则模型可能已经在上下文中看到了用户无权访问的信息。

更稳妥的做法是把用户身份、组织、角色和数据范围转换为检索约束,让系统只召回当前用户可见的片段。

RAG 的安全边界应该从数据召回开始,而不是从最终回答开始。

落地建议

第一阶段不要追求一个覆盖所有业务线的大知识库。更好的路径是选择一个明确场景,例如售前方案问答、客服知识助手或内部制度查询,先把数据质量、权限和反馈机制跑通。

当一个场景稳定后,再将数据治理规范、评估集和组件能力复用到更多业务线。这样系统会自然演进为企业级知识基础设施,而不是停留在一次性的演示项目。