📚 Wiki

RAG 系统完整指南

5 views

检索增强生成(Retrieval-Augmented Generation)是目前最实用的 LLM 应用架构之一。

用户问题 → 向量化 → 向量检索 → 相关文档 → LLM 生成 → 答案

文档需要经过:切块(Chunking)→ 向量化(Embedding)→ 存储到向量数据库

  • 语义检索:基于向量相似度
  • 关键词检索:BM25 算法
  • 混合检索:两者结合,效果最佳

使用 Cross-Encoder 模型对初步检索结果重新打分,提升精度。

  1. Chunk size 建议 512-1024 tokens,带 overlap
  2. 使用 BGE-M3 等多语言 Embedding 模型
  3. 生产环境使用 Qdrant 或 Weaviate 作为向量库
  4. 加入 Query 改写和 HyDE 技术提升召回率