当前位置: 首页 > news >正文

Ollama平替!LM Studio本地大模型调用实战

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

0 前言

可像 Ollama 通过暴露本地端口,实现本地客户端调用。

1 选择模型

在 LM Studio 的 “开发者” 选项卡中选择模型:

2 端口暴露

设置暴露的端口(默认1234):

启用 CORS 后,可对接网页应用或其他客户端工具。

3 启动服务

点击状态选项卡:

控制台会显示运行日志和访问地址:

4 快速上手

4.1 快速ping

列出已加载并就绪的模型:

curl http://127.0.0.1:1234/v1/models/

这也是验证服务器是否可访问的一种有效方法!

4.2 聊天

这是一个类似调用OpenAI的操作,通过curl工具访问/v1/chat/completion端点:

  • 在Mac或Linux系统,可用任意终端运行
  • Windows系统用Git Bash
curl http://127.0.0.1:1234/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "llama-4-maverick-17b-128e-instruct","messages": [ { "role": "system", "content": "Always answer in rhymes." },{ "role": "user", "content": "Introduce yourself." }], "temperature": 0.7, "max_tokens": -1,"stream": true}'

该调用是“无状态的”,即服务器不会保留对话历史记录。调用方有责任在每次调用时提供完整的对话历史记录。

流式传输 V.S 累积完整响应

注意"stream": true(流式传输:开启)参数:

  • true(开启)时,LM Studio会在预测出标记(token)的同时将其逐一流式返回
  • 如将此参数设置为false(关闭),在调用返回之前,完整的预测结果会被先累积起来。对于较长的内容生成或者运行速度较慢的模型,这可能需要花费一些时间!

相关文章:

  • 【那些年踩过的坑】Docker换源加速详细教程(截至2025年4月)
  • 【10分钟读论文】Power Transmission Line Inspections电力视觉水文
  • vue3学习之防抖和节流
  • 二叉搜索树的实现与应用场景
  • 推荐几个免费提取音视频文案的工具(SRT格式、通义千问、飞书妙记、VideoCaptioner、AsrTools)
  • 线性代数(一些别的应该关注的点)
  • GoFly快速开发框架新增UI素材库-帮助开发者快速开发管理后台UI基于ArcoDesign框架开发
  • 深入理解网络安全中的加密技术
  • 月之暗面开源 Kimi-Audio-7B-Instruct,同时支持语音识别和语音生成
  • 中国大陆DNS服务选择指南:阿里云VS AWS,合规性与最佳实践
  • Maven 依赖冲突调解与版本控制
  • 【MCP Node.js SDK 全栈进阶指南】中级篇(5):MCP客户端高级开发
  • 常用财务分析指标列表
  • 30天通过软考高项-第四天
  • Java爬虫入门:从网页抓取到数据提取(正则表达式篇)
  • Weaviate使用入门:从零搭建向量数据库的完整指南
  • 云原生--核心组件-容器篇-2-认识下Docker(三大核心之镜像,容器,仓库)
  • 【Pandas】pandas DataFrame rdiv
  • 神经网络与计算机视觉
  • 计算机视觉中的二值马尔科夫随机场
  • 野猪穿过江苏电视台楼前广场,被抓捕后送往红山森林动物园
  • 榆林市委常委王华胜已任榆林市政协党组书记
  • 2025年上海空间信息大会举行,重大项目集中签约
  • 观察|上海算力生态蓬勃发展,如何助力千行百业数智化转型升级
  • 百台新车首秀上海车展,跨国车企联手中国技术开启智能化下半场
  • 广西北海市人大常委会副主任李安洪已兼任合浦县委书记