LLM开发——基于DeepSeek R1 和 Qwen 构建智能检索增强生成系统
概述
在人工智能社区中,DeepSeek R1 作为一个具有革命性的开源推理大语言模型(LLM)引起了广泛关注。尽管大多数讨论都集中在它的原始能力上,但很少有人探索它在智能工作流中的潜力——即多个模型动态协作的系统。在本指南中,你将构建一个智能检索增强生成(Agentic RAG)系统,该系统将结合以下组件:
- DeepSeek R1(70 亿参数的蒸馏模型):用于复杂推理。
- 阿里巴巴的 Qwen 2.5(70 亿参数):用于快速对话流程。
- 一个轻量级的智能体框架来协调它们。
1. 环境设置
1.1 设置虚拟环境并安装依赖项
首先,创建一个虚拟环境并安装所需的依赖项。运行以下命令:
python3 -m venv .envs/agentic-ai
source .envs/agentic-ai/bin/activate
mkdir agentic-ai
cd agentic-aipip install langchain langchain-huggingface langchain-community pypdf langchain_chroma
pip install chromadb smolagents python-dotenv gradio sentence-transformers
pip install 'smolagents[openai]'
1.2 配置 Ollama
DeepSeek R1 是一个强大的推理模型,其性能与 OpenAI 的 GPT-4 相当。它包括六个基于 Llama 和 Qwen 蒸馏得到的密集模型。Qwen 2.5 是阿里巴巴最新的大规模预训练模型,支持多达 128K 个词元,并且支持多种语言。
下载模型:
ollama pull deepseek-r1:7b
ollama pull qwen2.5:7b-instruct
增加上下文窗口
Ollama 默认的上下文窗口为 2048 个词元,这对于复杂的推理任务来说可能不够。我们需要创建一个自定义模型文件来增加上下文窗口:
$ cat deepseek-r1-7b-8k.Modelfile
FROM deepseek-r1:7b
PARAMETER num_ctx 8192$ cat qwen2.5-7b-instruct-8k.Modelfile
FROM qwen2.5:7b-instruct
PARAMETER num_ctx 8192
然后运行以下命令创建自定义模型:
ollama create deepseek-r1-7b-8k -f ./deepseek-r1-7b-8k.Modelfile
ollama create qwen2.5:7b-instruct-8k -f ./qwen2.5-7b-instruct-8k.Modelfile
2. 创建知识库
2.1 添加文档
将你的 PDF 文件放在 data/
目录下,这些文件将构成你的知识库的基础。使用 LangChain 的 DirectoryLoader
来加载 PDF 文件,并使用 RecursiveCharacterTextSplitter
将它们拆分成较小的块,以便进行高效的索引和检索。
from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import osdef load_and_process_pdfs(data_dir: str):"""从目录中加载 PDF 文件并拆分成块。"""loader = DirectoryLoader(data_dir,glob="**/*.pdf",loader_cls=PyPDFLoader)documents = loader.load()# 将文档拆分成块text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000,chunk_overlap=200,length_function=len,)chunks = text_splitter.split_documents(documents)return chunks
2.2 将块存储在向量存储(Chroma)中
在将 PDF 文件处理并拆分成块之后,将它们存储在 Chroma 向量存储中,以便基于语义相似性进行高效的搜索和检索。初始化并配置 ChromaDB,然后使用 Hugging Face Embeddings 将每个块转换为向量表示。
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
import shutildef create_vector_store(chunks, persist_dir: str):"""创建并持久化一个 Chroma 向量存储。"""# 如果存在现有向量存储,则将其删除if os.path.exists(persist_dir):print(f"正在从 {persist_dir} 删除现有向量存储")shutil.rmtree(persist_dir)# 初始化 HuggingFace 嵌入embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2",model_kwargs={'device': 'cpu'})# 构建并持久化新的 Chroma 向量存储print("正在构建并保存新的向量存储...")vector_db = Chroma.from_documents(documents=chunks,embedding=embedding_model,persist_directory=persist_dir)return vector_db
2.3 完成知识库的创建
运行以下代码以加载和处理 PDF 文件,创建向量存储,并基于语义相似性实现相关上下文的高效检索。
def main():# 定义输入数据和向量数据库的路径input_data_dir = os.path.join(os.path.dirname(__file__), "data")vector_db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")# 加载 PDF 文件并将其拆分成较小的块print("开始处理 PDF 文件...")document_chunks = load_and_process_pdfs(input_data_dir)print(f"从 PDF 文件生成了 {len(document_chunks)} 个文档块")# 构建并存储向量数据库print("正在构建向量存储...")vector_db = create_vector_store(document_chunks, vector_db_dir)print(f"向量存储已成功创建并保存到 {vector_db_dir}")if __name__ == "__main__":main()
运行:
$ python ingest_pdfs.py
开始处理 PDF 文件...
从 PDF 文件生成了 312 个文档块
正在构建向量存储...
向量存储已成功创建并保存到 ./agentic-ai/chroma_db
$ ls chroma_db
chroma.sqlite3 d4c48cab-0467-4ca8-ad42-bafa5eb83040
$
3. 构建智能体系统
3.1 定义推理模型(DeepSeek R1)
推理模型是智能体系统的核心,使它能够做出决策并从知识库中生成有见地的回答。在这一步中,我们使用 DeepSeek R1,这是一个强大的推理模型,专为理解和处理复杂查询而设计。
# reasoning_model.py
from smolagents import OpenAIServerModel, CodeAgent# 定义本地模型名称
reasoning_model_id = "deepseek-r1-7b-8k" # 使用 DeepSeek 进行推理def get_model(model_id):"""返回一个 Ollama 模型。"""return OpenAIServerModel(model_id=model_id,api_base="http://localhost:11434/v1", # Ollama API 端点api_key="ollama")# 使用 DeepSeek 创建推理模型
reasoning_model = get_model(reasoning_model_id)# 创建推理智能体
reasoner = CodeAgent(tools=[], model=reasoning_model, add_base_tools=False, max_steps=2)
3.2 创建 RAG 工具
在这一步中,我们创建检索增强生成(RAG)工具,该工具将信息检索和推理结合起来以回答用户的查询。该工具利用向量数据库(Chroma)使用嵌入来存储和检索相关文档。
# rag_tool.py
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from reasoning_model import reasoner # 从 reasoning_model.py 导入 reasoner
import os# 初始化向量存储和嵌入
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2",model_kwargs={'device': 'cpu'}
)# 向量数据库的目录
db_dir = os.path.join(os.path.dirname(__file__), "chroma_db")# 初始化向量存储
vectordb = Chroma(persist_directory=db_dir, embedding_function=embeddings)def rag_with_reasoner(user_query: str) -> str:"""在向量数据库中搜索相关上下文,并使用推理模型生成回答。参数:user_query: 用户的问题。"""# 检索相关文档docs = vectordb.similarity_search(user_query, k=3)context = "\n\n".join(doc.page_content for doc in docs)# 为推理模型创建提示prompt = f"""基于以下上下文,简洁地回答用户的问题。如果未找到足够的信息,建议一个更适合 RAG 的查询。上下文:
{context}问题: {user_query}答案:"""# 使用推理器(DeepSeek R1)生成回答response = reasoner.run(prompt, reset=False)return response
3.3 配置主智能体(Qwen)
在这一步中,我们配置主智能体(Qwen),它作为系统与用户交互并处理其查询的主要接口。主智能体使用 Qwen 模型来解释用户输入并调用适当的工具来生成回答。
# primary_agent.py
from smolagents import OpenAIServerModel, ToolCallingAgent
from rag_tool import rag_with_reasoner # 从 rag_tool.py 导入工具函数
import osdef get_model(model_id):"""返回一个 Ollama 模型。"""return OpenAIServerModel(model_id=model_id,api_base="http://localhost:11434/v1", # Ollama API 端点api_key="ollama")# 定义主模型 ID
primary_model_id = "qwen2.5:7b-instruct-8k"# 创建主模型
primary_model = get_model(primary_model_id)# 定义主智能体的工具
tools = [{"name": "带推理器的 RAG","func": rag_with_reasoner,"description": "使用带 DeepSeek R1 的 RAG 处理复杂查询。"}
]# 创建主智能体
primary_agent = ToolCallingAgent(model=primary_model,tools=tools,max_steps=3
)
3.4 构建用户界面(Gradio)
在这一步中,我们使用 Gradio 创建一个简单的用户界面,用于与智能体系统进行交互。该界面允许用户输入问题并接收系统生成的回答。
# app.py
import gradio as gr
from primary_agent import primary_agentdef chat(query):"""将用户查询发送给主智能体并返回回答。"""response = primary_agent.run(query)return response# 创建 Gradio 界面
iface = gr.Interface(fn=chat,inputs=gr.Textbox(lines=2, placeholder="在这里输入你的问题..."),outputs="text",title="智能 RAG 系统",description="提出你的问题,获取由 DeepSeek R1 和 Qwen 提供支持的答案。"
)# 启动界面
if __name__ == "__main__":iface.launch(share=False)
运行应用程序
$ python app.py
运行在本地 URL: http://127.0.0.1:7860要创建公共链接,请在 `launch()` 中设置 `share=True`。
4. 测试系统
现在你已经构建了智能 RAG 系统,是时候对其进行测试了。打开浏览器并导航到 Gradio 界面的 URL(http://127.0.0.1:7860
)。你可以开始提出问题并观察系统的响应。
例如,如果你在知识库中有与人工智能相关的文档,你可以提出如下问题:
- “人工智能在医疗保健中的关键应用有哪些?”
- “自然语言处理如何为人工智能做出贡献?”
系统将使用 Qwen 处理一般交互,并将复杂查询委托给 DeepSeek R1 以获取更详细、准确的答案。
5. 结论
在本指南中,你已经学会了如何构建一个结合了 DeepSeek R1 和 Qwen 强大功能的智能 RAG 系统。通过利用 Ollama、ChromaDB、LangChain 和 Gradio 等工具,你可以创建一个强大的系统来处理复杂查询并提供上下文感知的答案。
该系统可以通过以下方式进一步扩展和优化:
- 扩展知识库:向知识库中添加更多文档,以实现更广泛的覆盖。
- 微调模型:对 DeepSeek R1 和 Qwen 模型进行微调,以提高性能。
- 集成更多工具:集成其他工具和智能体,以增强系统的功能。