编程从零构建企业级本地化RAG系统：Ollama与RAGFlow深度实战

2026-06-29 01:46:19 +0800 CST views 15

从零构建企业级本地化RAG系统：Ollama与RAGFlow深度实战

数据隐私和API成本是企业AI落地的最大障碍。本文提供一套完整的本地化RAG系统构建方案，基于Ollama和RAGFlow，涵盖架构设计、部署实战、代码实现和性能优化。

1. 为什么需要本地化RAG系统

1.1 企业AI应用的三大痛点

痛点一：数据隐私风险

将企业内部文档上传到第三方API（OpenAI/Claude等）存在严重的数据泄露风险。金融、医疗、法律等行业甚至面临合规问题。

痛点二：API成本不可控

月调用量	GPT-4成本	本地部署成本
10万次	$500-800	$50-100
100万次	$5000-8000	$100-200

痛点三：网络延迟与可用性

云端API受网络影响，且存在速率限制，对实时性要求高的场景（客服、代码补全）不可接受。

1.2 RAG技术原理

RAG（Retrieval-Augmented Generation，检索增强生成）通过以下流程解决上述问题：

用户提问
    ↓
[向量检索] → 从知识库检索相关文档
    ↓
[上下文注入] → 将检索结果注入Prompt
    ↓
[LLM生成] → 基于上下文生成准确回答
    ↓
输出结果（含引用来源）

核心优势：

知识可更新（无需重训模型）
来源可追溯（每个回答可引用具体文档）
领域适配（通过检索使通用LLM适应特定领域）
降低幻觉（基于真实文档生成）

1.3 为什么选择Ollama + RAGFlow

对比维度	Ollama + RAGFlow	其他方案
部署复杂度	低（Docker一键）	中-高
文档解析	强（支持复杂格式）	弱-中
开源程度	完全开源	部分开源
生产就绪	高	中

2. Ollama深度解析

2.1 Ollama架构

Ollama的核心设计理念是"Simple Things Should Be Simple"：

┌─────────────────────────────────────┐
│         Ollama Architecture          │
├─────────────────────────────────────┤
│  REST API (Port 11434)             │
│       ↓                             │
│  Model Runner                       │
│    - 模型加载/卸载                   │
│    - 内存管理                        │
│    - 推理调度                        │
│       ↓                             │
│  llama.cpp (推理引擎)               │
│       ↓                             │
│  GPU/CPU Worker                    │
└─────────────────────────────────────┘

核心API端点：

# 模型管理
POST /api/pull          # 拉取模型
DELETE /api/delete      # 删除模型

# 推理服务
POST /api/generate     # 文本生成
POST /api/chat         # 对话模式
POST /api/embeddings   # 获取向量

# 系统管理
GET  /api/tags         # 列出模型
GET  /api/show         # 查看模型信息

2.2 Modelfile：模型配置的Dockerfile范式

# 基于llama3.1:8b
FROM llama3.1:8b

# 设置系统提示词
SYSTEM "你是一个专业技术文档助手。"

# 设置推理参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

2.3 量化技术深度对比

量化是本地部署的关键，通过在精度与性能间取舍，使大模型能在消费级硬件运行：

量化格式	每权重位数	7B模型大小	推理速度	精度损失	推荐场景
Q4_0	4-bit	~4GB	最快	较大	低资源设备
Q4_K_M	4-bit	~4.5GB	快	小	推荐平衡
Q5_K_M	5-bit	~5.5GB	中等	很小	高质量要求
Q8_0	8-bit	~8GB	慢	几乎无	高精度场景

量化原理简析：

def quantize_weights(weights, bits=4):
    """
    将FP16权重量化为4-bit
    
    原理：
    1. 对每组权重计算缩放因子（scale）和零点（zero point）
    2. 将浮点权重映射到整数范围 [0, 2^bits - 1]
    3. 存储缩放因子和量化后的整数权重
    """
    group_size = 64
    num_groups = len(weights) // group_size
    
    quantized = []
    scales = []
    
    for i in range(num_groups):
        group = weights[i*group_size:(i+1)*group_size]
        
        # 计算该组的范围
        w_min, w_max = group.min(), group.max()
        
        # 计算缩放因子
        scale = (w_max - w_min) / (2**bits - 1)
        zero_point = round(w_min / scale)
        
        # 量化
        q_weights = torch.round(group / scale) - zero_point
        q_weights = torch.clamp(q_weights, 0, 2**bits - 1)
        
        quantized.append(q_weights)
        scales.append((scale, zero_point))
    
    return quantized, scales

2.4 Ollama高性能推理原理

关键优化技术：

Flash Attention：优化注意力机制的内存访问模式
Continuous Batching：动态批处理，提高GPU利用率
KV Cache优化：复用键值缓存，避免重复计算

class KVCache:
    """KV Cache管理"""
    def __init__(self, max_length=8192):
        self.cache = {}  # layer_idx -> (K, V)
    
    def get(self, layer_idx, seq_len):
        """获取已计算的KV"""
        if layer_idx in self.cache:
            K, V = self.cache[layer_idx]
            return K[:, :, :seq_len, :], V[:, :, :seq_len, :]
        return None, None
    
    def update(self, layer_idx, new_K, new_V):
        """追加新计算的KV"""
        if layer_idx in self.cache:
            K, V = self.cache[layer_idx]
            self.cache[layer_idx] = (
                torch.cat([K, new_K], dim=2),
                torch.cat([V, new_V], dim=2)
            )
        else:
            self.cache[layer_idx] = (new_K, new_V)

2.5 内存管理：避免OOM

# 内存分配策略

# 1. 模型权重存储
OLLAMA_GPU_LAYERS=43  # 前43层在GPU，其余在CPU

# 2. KV Cache管理
OLLAMA_CACHE_SIZE=2048  # 每个对话的KV Cache大小（token数）

# 3. 请求队列管理
OLLAMA_MAX_LOADED_MODELS=2  # 最多同时加载2个模型
OLLAMA_NUM_PARALLEL=4      # 每个模型最多并行4个请求

内存占用计算公式：

总内存需求 = 模型权重内存 + KV Cache内存 + 激活值内存

模型权重内存 = 参数量 × 每参数位数 / 8
  - 例：7B模型，Q4_K_M量化 → 7×10^9 × 4/8 ≈ 3.5GB

KV Cache内存 = 2 × 层数 × 头数 × 头维度 × 上下文长度 × 批次大小 × 精度
  - 例：Llama3-8B，32层，8头，128维，8192上下文
  - 2 × 32 × 8 × 128 × 8192 × 1 × 2 ≈ 1GB

3. RAGFlow架构与核心能力

3.1 RAGFlow设计哲学

RAGFlow的核心设计理念是**"Quality in, Quality out"**，强调输入数据质量直接决定RAG系统输出质量。

┌─────────────────────────────────────────────┐
│         RAGFlow System Architecture          │
├─────────────────────────────────────────────┤
│  Frontend (React)                          │
│       ↓ REST API                           │
│  API Server (Flask + Gunicorn)             │
│       ↓                                    │
│  [Document Processing] [RAG Engine] [LLM Adapter] [Task Queue]
│       ↓                                    │
│  Storage Layer: MySQL + MinIO + Elasticsearch/Infinity
└─────────────────────────────────────────────┘

3.2 深度文档理解（DeepDoc）

RAGFlow的DeepDoc模块通过以下技术处理复杂格式文档：

3.2.1 文档布局分析

class DocumentLayoutAnalyzer:
    def __init__(self):
        self.model = load_layout_model("layout_detection_v2.onnx")
    
    def analyze(self, page_image):
        """
        识别文档页面布局
        
        返回：
        {
            'title': [bbox1, bbox2],
            'text': [bbox3, bbox4],
            'table': [bbox5],
            'figure': [bbox6],
        }
        """
        img = render_page_to_image(page_image)
        layout_pred = self.model.predict(img)
        layout_regions = self.postprocess(layout_pred)
        return layout_regions

3.2.2 表格结构识别

class TableStructureRecognizer:
    def recognize(self, table_image):
        """识别表格结构并转换为HTML"""
        structure = table_transformer_model.predict(table_image)
        html_table = structure_to_html(structure)
        return html_table

3.2.3 OCR与内容提取

class OCRPipeline:
    def __init__(self):
        self.engines = {
            'cn': ChineseOCRv2(),
            'en': TesseractOCR(),
            'handwritten': PaddleOCR(),
        }
    
    def extract_text(self, image_region, lang='auto'):
        """从图像区域提取文字"""
        if lang == 'auto':
            lang = detect_language(image_region)
        
        ocr_result = self.engines[lang].predict(image_region)
        text = self.postprocess(ocr_result)
        return text

3.3 RAGFlow的RAG流程

3.3.1 智能文档切片

class DocumentChunker:
    """文档切片策略
    
    策略1：按固定token数切片
    策略2：按段落/章节切片
    策略3：按句子 + 重叠窗口
    策略4：RAGFlow模板化切片（根据文档类型自动选择）
    """
    
    def chunk_by_template(self, doc_type, content):
        """根据文档类型选择切片模板
        
        模板：
        - 'general'：通用文档
        - 'paper'：学术论文
        - 'manual'：技术手册
        - 'qa'：问答对
        """
        template = self.templates.get(doc_type, 'general')
        
        if template == 'paper':
            # 论文切片：保持章节完整性
            chunks = []
            sections = extract_sections(content)
            for section in sections:
                if section['type'] == 'text':
                    chunks.extend(self.chunk_text(section['content']))
            return chunks
        
        elif template == 'manual':
            # 技术手册切片：按操作步骤
            steps = extract_operation_steps(content)
            return [{'content': step, 'type': 'step'} for step in steps]

3.3.2 多路召回 + 重排序

class RetrievalPipeline:
    """检索流水线"""
    
    def __init__(self):
        # 向量检索
        self.dense_retriever = VectorIndex(
            model='nomic-embed-text',
            index_type='HNSW'
        )
        
        # 关键词检索
        self.sparse_retriever = BM25Index()
        
        # 重排序模型
        self.reranker = CrossEncoder('bge-reranker-v2-m3')
    
    def retrieve(self, query, top_k=10, rerank_top_n=3):
        """多路召回 + 重排序"""
        # 1. 向量检索
        dense_results = self.dense_retriever.search(query, top_k)
        
        # 2. 关键词检索
        sparse_results = self.sparse_retriever.search(query, top_k)
        
        # 3. 融合排序（RRF）
        merged = self.reciprocal_rank_fusion(
            [dense_results, sparse_results]
        )
        
        # 4. 重排序
        reranked = self.reranker.rerank(query, merged[:20])
        
        return reranked[:rerank_top_n]

4. 系统集成：Ollama + RAGFlow

4.1 整体架构设计

┌─────────────────────────────────────────────────┐
│           Local RAG System Architecture          │
├─────────────────────────────────────────────────┤
│                                                 │
│  User Interface                                  │
│       ↓                                          │
│  API Gateway (FastAPI)                          │
│       ↓                                          │
│  RAGFlow Core (Docker)                          │
│    [Document Processing] [Retrieval] [Prompt]   │
│       ↓                                          │
│  Enhanced Prompt (with Context)                 │
│       ↓ HTTP API                                 │
│  Ollama (Local LLM)                           │
│    llama3.1:8b-q4_K_M                        │
│       ↓                                          │
│  Generated Answer                               │
│       ↓                                          │
│  Post-Processing (引用标注, 格式化)              │
│       ↓                                          │
│  Return to User                                 │
└─────────────────────────────────────────────────┘

4.2 关键集成点

4.2.1 RAGFlow配置使用Ollama

# RAGFlow配置：conf.yaml
llm:
  factory: 'ollama'
  model_settings:
    - model: 'ollama_chat'
      ollama_base_url: 'http://host.docker.internal:11434'
      llm_name: 'llama3.1:8b-q4_K_M'
      parameters:
        temperature: 0.3
        top_p: 0.9
    
    - model: 'ollama_embedding'
      ollama_base_url: 'http://host.docker.internal:11434'
      embedding_model: 'nomic-embed-text'

Docker网络配置：

# docker-compose.yml
version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_models:/root/.ollama/models
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
  
  ragflow:
    image: infiniflow/ragflow:latest
    container_name: ragflow
    ports:
      - "9380:9380"
    environment:
      - LLM__FACTORY=ollama
      - LLM__MODEL_SETTINGS__0__OLLAMA_BASE_URL=http://ollama:11434
      - LLM__MODEL_SETTINGS__0__LLM_NAME=llama3.1:8b-q4_K_M
    depends_on:
      - ollama
    networks:
      - rag_network

networks:
  rag_network:
    driver: bridge

5. 实战部署指南

5.1 环境准备

硬件推荐配置：

组件	最低配置	推荐配置
CPU	4核	8核
内存	16GB	32GB
GPU	可选	NVIDIA 8GB+
存储	50GB	200GB SSD

软件依赖安装：

# 1. 安装Docker
# macOS:
brew install --cask docker

# Linux:
sudo apt-get update
sudo apt-get install -y docker.io docker-compose-plugin

# 2. 安装Ollama
# macOS:
brew install ollama

# Linux:
curl -fsSL https://ollama.com/install.sh | sh

# 3. 下载模型
ollama pull llama3.1:8b-q4_K_M
ollama pull nomic-embed-text

5.2 一键部署脚本

#!/bin/bash
# deploy_local_rag.sh

set -e

echo "=== 本地RAG系统一键部署 ==="

# 1. 创建项目目录
PROJECT_DIR=~/local-rag-system
mkdir -p $PROJECT_DIR
cd $PROJECT_DIR

mkdir -p ollama_models ragflow_data logs

# 2. 创建docker-compose.yml
cat > docker-compose.yml <<'EOF'
version: '3.8'

networks:
  rag_network:
    driver: bridge

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_models:/root/.ollama
    networks:
      - rag_network
    command: >
      sh -c "
        ollama serve &
        sleep 3 &&
        ollama pull llama3.1:8b-q4_K_M &&
        ollama pull nomic-embed-text &&
        wait
      "
    restart: unless-stopped
  
  ragflow:
    image: infiniflow/ragflow:latest
    container_name: ragflow
    ports:
      - "9380:9380"
    volumes:
      - ./ragflow_data:/ragflow/data
    environment:
      - LLM__FACTORY=ollama
      - LLM__MODEL_SETTINGS__0__OLLAMA_BASE_URL=http://ollama:11434
      - LLM__MODEL_SETTINGS__0__LLM_NAME=llama3.1:8b-q4_K_M
    networks:
      - rag_network
    depends_on:
      - ollama
    restart: unless-stopped
EOF

# 3. 启动服务
echo "启动Docker容器..."
docker compose up -d

# 4. 等待服务就绪
echo "等待服务就绪..."
sleep 30

# 5. 验证部署
echo "验证部署..."
curl -s http://localhost:11434/api/tags || echo "Ollama not ready"
curl -s http://localhost:9380/api/v1/health || echo "RAGFlow not ready"

echo "=== 部署完成 ==="
echo "RAGFlow Web界面: http://localhost:9380"
echo "Ollama API: http://localhost:11434"

5.3 RAGFlow初始化

# init_ragflow.py
import requests

RAGFLOW_API = "http://localhost:9380/api/v1"

def init_ragflow():
    """初始化RAGFlow"""
    
    # 1. 注册/登录
    login_resp = requests.post(
        f"{RAGFLOW_API}/user/login",
        json={
            "email": "admin@example.com",
            "password": "admin123"
        }
    )
    
    if login_resp.status_code != 200:
        # 注册
        requests.post(
            f"{RAGFLOW_API}/user/register",
            json={
                "email": "admin@example.com",
                "password": "admin123",
                "nickname": "Admin"
            }
        )
        
        login_resp = requests.post(
            f"{RAGFLOW_API}/user/login",
            json={
                "email": "admin@example.com",
                "password": "admin123"
            }
        )
    
    token = login_resp.json()['data']['token']
    headers = {"Authorization": f"Bearer {token}"}
    
    # 2. 创建知识库
    dataset_resp = requests.post(
        f"{RAGFLOW_API}/datasets",
        headers=headers,
        json={
            "name": "技术文档库",
            "description": "企业技术文档",
            "embedding_model": "nomic-embed-text"
        }
    )
    
    dataset_id = dataset_resp.json()['data']['id']
    print(f"Created dataset: {dataset_id}")
    
    return dataset_id

if __name__ == "__main__":
    dataset_id = init_ragflow()
    print(f"Setup complete! Dataset ID: {dataset_id}")

6. 代码实战与API集成

6.1 完整的RAG查询实现

# rag_system.py
import requests
import json
from typing import List, Dict, Optional

class LocalRAGSystem:
    """本地RAG系统封装类"""
    
    def __init__(
        self,
        ragflow_api: str = "http://localhost:9380/api/v1",
        ollama_api: str = "http://localhost:11434/api",
        dataset_id: str = "default"
    ):
        self.ragflow_api = ragflow_api
        self.ollama_api = ollama_api
        self.dataset_id = dataset_id
        self.token = None
    
    def login(self, email: str, password: str) -> bool:
        """登录RAGFlow"""
        try:
            resp = requests.post(
                f"{self.ragflow_api}/user/login",
                json={"email": email, "password": password}
            )
            resp.raise_for_status()
            self.token = resp.json()['data']['token']
            return True
        except Exception as e:
            print(f"Login failed: {e}")
            return False
    
    def _headers(self):
        """获取认证头"""
        if not self.token:
            raise ValueError("Not logged in")
        return {"Authorization": f"Bearer {self.token}"}
    
    def retrieve(self, query: str, top_k: int = 5) -> List[Dict]:
        """检索相关文档"""
        resp = requests.post(
            f"{self.ragflow_api}/retrieval",
            headers=self._headers(),
            json={
                "question": query,
                "dataset_id": self.dataset_id,
                "top_k": top_k
            }
        )
        resp.raise_for_status()
        return resp.json()['data']
    
    def generate(self, prompt: str, stream: bool = False):
        """调用Ollama生成文本"""
        resp = requests.post(
            f"{self.ollama_api}/generate",
            json={
                "model": "llama3.1:8b-q4_K_M",
                "prompt": prompt,
                "stream": stream,
                "options": {
                    "temperature": 0.3,
                    "top_p": 0.9,
                    "num_ctx": 8192
                }
            },
            stream=stream
        )
        resp.raise_for_status()
        
        if stream:
            def stream_generator():
                for line in resp.iter_lines():
                    if line:
                        chunk = json.loads(line)
                        yield chunk.get('response', '')
            return stream_generator()
        else:
            return resp.json()['response']
    
    def rag_query(self, question: str, top_k: int = 5) -> Dict:
        """完整的RAG查询：检索 + 生成"""
        import time
        start = time.time()
        
        # 1. 检索
        contexts = self.retrieve(question, top_k)
        
        # 2. 构建提示词
        context_str = "\n\n".join([
            f"[Source {i+1}: {ctx['source']}]\n{ctx['content']}"
            for i, ctx in enumerate(contexts)
        ])
        
        prompt = f"""You are a technical documentation assistant. Answer based on the provided sources. Cite sources.

Sources:
{context_str}

Question: {question}

Instructions:
1. Answer based ONLY on the provided sources.
2. If not in sources, say "I cannot find relevant information."
3. Cite sources using [Source X] format.
4. Be concise and accurate.

Answer:"""
        
        # 3. 生成答案
        answer = self.generate(prompt, stream=False)
        
        # 4. 格式化来源
        sources = [
            {
                'source': ctx['source'],
                'content': ctx['content'][:200] + '...',
                'score': ctx['score']
            }
            for ctx in contexts
        ]
        
        return {
            'answer': answer,
            'sources': sources,
            'processing_time': round(time.time() - start, 2)
        }

# 使用示例
if __name__ == "__main__":
    rag = LocalRAGSystem(dataset_id="your_dataset_id")
    rag.login("admin@example.com", "admin123")
    
    result = rag.rag_query("如何配置Ollama的GPU加速？")
    print(f"\nAnswer:\n{result['answer']}")
    print(f"\nSources:")
    for src in result['sources']:
        print(f"  - {src['source']} (score: {src['score']:.3f})")

6.2 流式输出实现

def stream_answer(rag: LocalRAGSystem, question: str):
    """流式输出答案"""
    import sys
    import time
    
    contexts = rag.retrieve(question, top_k=3)
    
    context_str = "\n".join([
        f"[Doc{i}] {ctx['content']}" 
        for i, ctx in enumerate(contexts, 1)
    ])
    prompt = f"Based on these docs:\n{context_str}\n\nAnswer: {question}"
    
    print("Answer: ", end='', flush=True)
    
    for chunk in rag.generate(prompt, stream=True):
        print(chunk, end='', flush=True)
        time.sleep(0.01)
    
    print("\n\nSources:")
    for ctx in contexts:
        print(f"  - {ctx['source']}")

7. 性能优化技巧

7.1 Ollama推理性能优化

7.1.1 GPU加速配置

# 检查GPU是否可用
nvidia-smi

# 配置GPU加速
export OLLAMA_GPU_LAYERS=43  # 根据显存调整

# 验证GPU加速
ollama run llama3.1:8b-q4_K_M "Hello"
# 观察："llm_load_tensors: offloaded X/43 layers to GPU"

7.1.2 并发优化

# 优化并发配置
export OLLAMA_NUM_PARALLEL=4  # 根据CPU核心数调整
export OLLAMA_MAX_LOADED_MODELS=2  # 根据显存调整

# 测试并发性能
ab -n 100 -c 4 -p request.json -T "application/json" \
   http://localhost:11434/api/generate

7.1.3 模型选择策略

任务类型	推荐模型	原因
简单问答	phi3:mini-q4_K_M	速度快
技术文档	llama3.1:8b-q4_K_M	平衡
复杂推理	qwen2:72b-q4_K_M	高精度
代码生成	codellama:34b-q4_K_M	代码专用

7.2 RAGFlow检索优化

7.2.1 切片策略优化

DOCUMENT_TYPE_CONFIGS = {
    'technical_manual': {
        'chunk_size': 1024,
        'chunk_overlap': 200,
        'separator': '\n\n',
    },
    'api_documentation': {
        'chunk_size': 512,
        'chunk_overlap': 50,
        'separator': '## ',
    },
}

def optimize_chunking(doc_type, content):
    """根据文档类型优化切片"""
    config = DOCUMENT_TYPE_CONFIGS.get(doc_type, DOCUMENT_TYPE_CONFIGS['technical_manual'])
    
    chunks = []
    current_chunk = ""
    
    for paragraph in content.split(config['separator']):
        if len(current_chunk) + len(paragraph) <= config['chunk_size']:
            current_chunk += paragraph + config['separator']
        else:
            chunks.append(current_chunk)
            overlap_start = max(0, len(current_chunk) - config['chunk_overlap'])
            current_chunk = current_chunk[overlap_start:] + paragraph + config['separator']
    
    if current_chunk:
        chunks.append(current_chunk)
    
    return chunks

7.3 系统级优化

7.3.1 Redis缓存

# redis_cache.py
import redis
import json

class CachedRAGSystem(LocalRAGSystem):
    """使用Redis缓存的RAG系统"""
    
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.redis = redis.Redis(host='localhost', port=6379, db=0)
    
    def rag_query(self, question: str, top_k: int = 5) -> Dict:
        # 1. 检查缓存
        cache_key = f"rag:{hash(question)}:{top_k}"
        cached = self.redis.get(cache_key)
        
        if cached:
            return json.loads(cached)
        
        # 2. 执行查询
        result = super().rag_query(question, top_k)
        
        # 3. 存入缓存（TTL=1小时）
        self.redis.setex(cache_key, 3600, json.dumps(result))
        
        return result

8. 生产级部署实践

8.1 安全加固

8.1.1 API认证

# auth.py
from fastapi import Depends, HTTPException
from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
import jwt

security = HTTPBearer()

def create_access_token(user_id: str) -> str:
    """创建JWT Token"""
    payload = {
        'user_id': user_id,
        'exp': datetime.utcnow() + timedelta(hours=24)
    }
    return jwt.encode(payload, 'your-secret-key', algorithm='HS256')

async def get_current_user(
    credentials: HTTPAuthorizationCredentials = Depends(security)
):
    """验证Token"""
    try:
        payload = jwt.decode(
            credentials.credentials,
            'your-secret-key',
            algorithms=['HS256']
        )
        return payload['user_id']
    except:
        raise HTTPException(
            status_code=401,
            detail="Invalid token"
        )

8.1.2 输入验证

# validation.py
import re
from pydantic import BaseModel, validator

class SafeQueryRequest(BaseModel):
    question: str
    dataset_id: str = "default"
    
    @validator('question')
    def question_must_be_safe(cls, v):
        # 检查Prompt注入攻击
        dangerous_patterns = [
            r'ignore previous instructions',
            r'forget.*system.*prompt',
            r'DAN mode',
        ]
        
        for pattern in dangerous_patterns:
            if re.search(pattern, v, re.IGNORECASE):
                raise ValueError(f"Potentially unsafe input")
        
        # 限制长度
        if len(v) > 1000:
            raise ValueError("Question too long")
        
        return v

8.2 监控与日志

# metrics.py
from prometheus_client import Counter, Histogram, Gauge, start_http_server
import time

REQUEST_COUNT = Counter(
    'rag_requests_total',
    'Total RAG requests',
    ['method', 'endpoint', 'status']
)

REQUEST_LATENCY = Histogram(
    'rag_request_duration_seconds',
    'Request latency',
    ['endpoint']
)

class MonitoredRAGSystem(LocalRAGSystem):
    """带监控的RAG系统"""
    
    def rag_query(self, question: str, top_k: int = 5) -> Dict:
        start = time.time()
        status = 'success'
        
        try:
            result = super().rag_query(question, top_k)
            return result
        except Exception as e:
            status = 'error'
            raise
        finally:
            REQUEST_COUNT.labels(
                method='POST',
                endpoint='/rag/query',
                status=status
            ).inc()
            
            REQUEST_LATENCY.labels(
                endpoint='/rag/query'
            ).observe(time.time() - start)

# 启动Prometheus指标服务
start_http_server(8001)

8.3 Nginx负载均衡

# /etc/nginx/sites-available/rag-system
upstream rag_api_cluster {
    server 127.0.0.1:8000 weight=5;
    server 127.0.0.1:8001 weight=5;
}

server {
    listen 443 ssl;
    server_name rag.company.com;
    
    ssl_certificate /path/to/cert.pem;
    ssl_certificate_key /path/to/key.pem;
    
    location /api/ {
        proxy_pass http://rag_api_cluster;
        proxy_set_header Host $host;
        
        # 超时配置
        proxy_read_timeout 300s;
        proxy_connect_timeout 75s;
    }
    
    # 限流配置
    limit_req_zone $binary_remote_addr zone=rag_zone:10m rate=10r/s;
    limit_req zone=rag_zone burst=20 nodelay;
}

9. 真实案例研究

9.1 案例一：企业技术文档问答系统

背景：某SaaS公司需要为API文档构建问答系统。

技术方案：

使用RAGFlow处理Markdown格式的API文档
使用Ollama (llama3.1:8b) 作为生成模型
部署FastAPI作为查询接口

效果评估：

指标	优化前	优化后
答案准确率	65%	92%
平均响应时间	2.3s	1.8s
用户满意度	3.5/5	4.6/5

9.2 案例二：法律合同分析助手

背景：某律师事务所需要快速分析合同条款。

特殊挑战：

合同文档格式复杂（表格、列表）
需要高精度文本识别（OCR）
对答案可解释性要求高