LLM本地部署
点击展开更新日志
2025
07-26
- ollama 部署
- xinference 部署
nexttime
会有些什么呢(❁´◡`❁)
¶源起
最近开始折腾本地部署大模型,期望是本地跑一个小一点的对话模型+本地知识库+联网搜索。还在折腾阶段,都先试试。
¶ollama
最初是安装了 ollama
来部署大模型的,使用非常简单。
¶安装
-
从 官网 下载安装包,如果想要安装到C盘之外,可以打开cmd使用以下安装选项:
1
OllamaSetup.exe /DIR=D:\Ollama
-
新增环境变量,修改模型默认下载位置
新增环境变量:
OLLAMA_MODELS
指定模型下载位置,重启服务。 -
服务启动后没有页面,默认在任务栏,需要的话右键打开。
补充一个问题,重启最好是通过开始菜单程序进行打开,不要使用
Listary
搜索打开,这样打开实际会缺少进程导致服务起不来,原因未知。 -
下载模型
在官方 支持模型页面 可以搜索需要的模型,点击查看安装命令,比如:
1
ollama run deepseek-r1:1.5b
量力而行。
-
其它命令:
1
ollama -h
¶xinference
安装 xinference 的起因是在使用 RAGFLOW 添加嵌入模型发现 ollama 不支持添加,所以选择换用 xinference
部署。
¶安装
环境:
- Python/miniforge(建议)
- GPU(只有CPU也可以)
- 显卡驱动:577.00
- CUDA 版本:12.9
-
先打开 xinference官方文档 ;
-
创建虚拟环境安装依赖包:
1
2
3conda create -n xinference python=3.11
conda activate xincerence
pip install "xinference[all]"关于 Python 版本,建议指定使用3.10/3.11,如果太高(比如3.13)安装某些包会存在问题,如果非要用那就用吧。。
-
检查 GPU 驱动
进入创建好的虚拟环境,待依赖安装完成后检查是否识别到 Nvidia GPU(如果只有CPU可以跳过):
1
2
3
4# 进入 Python 环境
python
import torch
torch.cuda.is_available()应该是返回
False
,可能是两方面原因,没有装 cuda 或 torch 安装的是无 GPU 版本。 -
安装 cuda
从 CUDA下载页面 下载驱动并安装;
-
更换 pytorch
1
2# 卸载已安装的 pytorch
pip uninstall pytorch torch torchvision torchaudio打开 PyTorch安装页面 选择合适的选项获取安装命令。
看了很多的教程都说需要驱动、cuda和pytorch版本相适配,我的话是安装的最新驱动,potorch 最高只有cuda12.8 的选项,就只能选这个,一路下来倒也没遇到啥问题。
1
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
-
重新打开终端进行验证,做完这些应该就没有问题可以正常调用 GPU 了
-
启动
xinference
1
2
3
4# 官方启动命令
# xinference-local --host 0.0.0.0 --port 9997
xinference-local --host 192.168.x.x --port 9997Windows 下是不支持使用
0.0.0.0
的,会报错:RuntimeError: Cluster is not available after multiple attempts
修改为
127.0.0.1
或 局域网IP(如果需要给局域网其他设备调用)即可。 -
打开 Web 页面:
浏览器打开
http://127.0.0.1:9997
就能看到 xinference 的 Web 页面了,随便点一个模型也能看到支持 GPU 调用。如果还是存在问题,那就只能借助万能的谷歌了。