当前位置: 首页 > news >正文

重新出发的LLM本地部署——DeepSeek加持下的Ollama+OpenWebUI快速部署

DeepSeek 这真的是太惊艳了,发布出来的模型这么能打,在线的版本使用起来也是丝滑连招,感觉效果比起之前一直用智谱 chatglm4 更好用,想着本地化部署一下。
本来以为,会和之前在开发测试 transformers 的模型和代码一样,需要自己去配置写 langchain 和 streamlit 的,但是看下来,实际上最简单并且家用的方法。
可以直接 Windows 装 Ollama ,Docker 化部署 OpenWebUI,就能够本地局域网使用了,于是开始配置部署,并进行下记录。
这份记录可能会随着本地配置的内容,调整一些细节,供各位看官参考。

CUDA

好久没有用自己的台式机显卡去做一些开发了,之前还是在用的CUDA11.0,担心是不是需要升级下,配合新的系统,所以直接下了12.6的CUDA包,安装并清理了历史CUDA环境

Ollama

ollama官网下载,window基本上是傻瓜式的
默认安装完了,在 C:\Users{your_user_name}\AppData\Local\Programs\Ollama下面,磁盘不够可以拷贝到其他盘,然后链接回来

mklink /D "C:\Users\{your_user_name}\AppData\Local\Programs\Ollama" "D:\software\Ollama"

打开一个命令窗口,输入ollama能看到帮助命令使用方式
在这里插入图片描述
我本地有一个2080TI的卡,Deepseek能跑到14b的模型
在这里插入图片描述
命令行输入
在这里插入图片描述
第一次开始时,会先去下载14b模型,稍微会慢一些

C盘空间不够,可以迁移走模型到其他盘,然后还是使用 mklink /D "C:\Users\{your_user_name}\.ollama" "{new_model_dir}"

这种启动下的 Ollama 对应的模型,会被加载到内存或者GPU中,退出后一定时间会自动回收资源,有自身的管理机制,这块可以再探索下;
这种命令行的交互方式肯定不是很爽,家庭用又没有可能无时无刻不命令窗进行,所以往下去部署 OpenWebUI

Docker Desktop

部署 OpenWebUI 有不少方法,有本地编译,python服务,容器化等,我这里用的是 docker 容器化的方法
需要先在 windows 中安装上 docker 环境
在 Docker Desktop 文档中去下载
在这里插入图片描述
下载完了 Docker Desktop Installer.exe 后,一路傻瓜式安装过去就行,最后启动的时候,可能会有各种问题,建议在网上找下资料确认下
我这里走的是把 wsl 升级到 wsl2 的路径,然后默认启动方式启动的

wsl --set-default-version 2
wsl --set-version Ubuntu-24.04 2

启动完成后,可以到命令行中,拉去 OpenWebUI 的镜像了
在这里插入图片描述

OpenWebUI

这个镜像,官网的文档在 github OpenWebUI 上面
明确的指出了,对于 Ollama 安装在本机时,用
在这里插入图片描述

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

这个命令启动就够了
Ollama 和 OpenWebUI 靠的是 add host 关联的,在 OpenWebUI 的管理界面我们能看到相应的 Ollama 关联地址(如果你没有配置,你也可以手动去调整)
在这里插入图片描述
这里我顺手把 OpenAI API 关掉了,在其他所有内容都靠科学上网解决后,这里关掉 CloseAI 的 API,免得它还去调用

这样下来,我们想到于有了个管理用户,用户历史对话,模型权限等等的前后台服务界面,还能够基于自建的知识库去查询,省事了,就是不知道里面调整一些内容麻不麻烦(如联网查询等,TODO)

这之下,我们就能在家里面,基于本地部署的地址,去在同一个局域网(如同一WIFI)中,从各种终端的 Web 进入,本地化使用了

test 统信

这个纯粹试一下玩玩
找了台统信的电脑试了一下(4核32G),类似的本地已经预先安装了docker环境
在这里插入图片描述
就用了上面两个镜像
先启动 ollama

docker run -d -v /home/lenovo/volumes/ollama:/root/.ollama -p 11434:11434 --name ollama alpine/ollama

启动好了之后,进入容器,去执行 ollama run deepseek-r1:1.5b
在这里插入图片描述
这里我先预先下载了模型了
然后启动 open-webui

docker run -d -p 13000:8080 -v /home/lenovo/volumes/openwebui:/app/backend/data --name open-webui  ghcr.io/open-webui/open-webui:main

这里映射到了13000上,查看对应容器的ip
在这里插入图片描述
可以登录 172.17.0.6:13000,初始化 admin 用户了
初始化完之后,上右上角点用户头像,进入管理员面板,配置下ollama 的连接(这里没固定ollama的docker ip,感兴趣可以去尝试下)
在这里插入图片描述
按照实际ip情况改一下ollama的连接
这样就能够看到模型了
直接CPU推理总体的性能不是很好,一个简单的推理耗时了7分钟
在这里插入图片描述

相关文章:

  • 【自学笔记】计算机视觉基础知识点总览-持续更新
  • 基于Python豆瓣电影数据可视化分析系统的设计与实现
  • 核货宝外贸订货系统:批发贸易企业出海的强劲东风
  • 【Rust中级教程】1.9. 所有权(简单回顾):所有权的核心思想、如何实现`Copy` trait、值的删除(丢弃)、值删除的顺序
  • 第1章大型互联网公司的基础架构——1.6 RPC服务
  • python利用jenkins模块操作jenkins
  • 七、Java常用API(2)
  • [特殊字符] C语言中打开和关闭文件的两种方法:标准库 VS 系统调用
  • layui怎么请求数据
  • 红队视角出发的k8s敏感信息收集——日志与监控系统
  • 【机器学习】向量化使得简单线性回归性能提升
  • 计算机网络知识速记 HTTPS的工作流程
  • 《Stable Diffusion绘画完全指南:从入门到精通的Prompt设计艺术》 第六章
  • Windows 安装 GDAL 并配置 Rust-GDAL 开发环境-1
  • Unity Shader示例 6: 卡渲基础 - 描边 + 着色
  • 地基Spring中bean生命周期和设计模式
  • 介绍cherrypick
  • 【第1章:深度学习概览——1.6 深度学习框架简介与选择建议】
  • 面试题总结
  • 安装vite报错Install for [ ‘create-vite@latest‘ ] failed with code 1
  • 外交部:对伊朗拉贾伊港口爆炸事件遇难者表示深切哀悼
  • 油电同智,安全超充!从上海车展看中国汽车产业先发优势
  • 伊朗港口爆炸已致40人死亡
  • 新干式二尖瓣瓣膜国内上市,专家:重视瓣膜病全生命周期管理
  • 央视曝光假进口保健品:警惕!保税仓发货不等于真进口
  • 新剧|《淮水竹亭》明开播:前作扑街,本作能否改命