📚 Wiki
RAG 系统完整指南
5 views
检索增强生成(Retrieval-Augmented Generation)是目前最实用的 LLM 应用架构之一。
用户问题 → 向量化 → 向量检索 → 相关文档 → LLM 生成 → 答案
文档需要经过:切块(Chunking)→ 向量化(Embedding)→ 存储到向量数据库
- 语义检索:基于向量相似度
- 关键词检索:BM25 算法
- 混合检索:两者结合,效果最佳
使用 Cross-Encoder 模型对初步检索结果重新打分,提升精度。
- Chunk size 建议 512-1024 tokens,带 overlap
- 使用 BGE-M3 等多语言 Embedding 模型
- 生产环境使用 Qdrant 或 Weaviate 作为向量库
- 加入 Query 改写和 HyDE 技术提升召回率