¶源起

最近开始折腾本地部署大模型，期望是本地跑一个小一点的对话模型+本地知识库+联网搜索。还在折腾阶段，都先试试。

¶ollama

最初是安装了 ollama 来部署大模型的，使用非常简单。

¶安装

从官网下载安装包，如果想要安装到C盘之外，可以打开cmd使用以下安装选项：
1
OllamaSetup.exe /DIR=D:\Ollama
新增环境变量，修改模型默认下载位置

新增环境变量： OLLAMA_MODELS 指定模型下载位置，重启服务。
服务启动后没有页面，默认在任务栏，需要的话右键打开。

补充一个问题，重启最好是通过开始菜单程序进行打开，不要使用 Listary 搜索打开，这样打开实际会缺少进程导致服务起不来，原因未知。
下载模型

在官方支持模型页面可以搜索需要的模型，点击查看安装命令，比如：
1
ollama run deepseek-r1:1.5b
量力而行。
其它命令：
1
ollama -h

¶xinference

安装 xinference 的起因是在使用 RAGFLOW 添加嵌入模型发现 ollama 不支持添加，所以选择换用 xinference 部署。

¶安装

环境：

Python/miniforge(建议)
GPU(只有CPU也可以)
显卡驱动：577.00
CUDA 版本：12.9

先打开 xinference官方文档 ;
创建虚拟环境安装依赖包：
1
2
3
conda create -n xinference python=3.11
conda activate xincerence
pip install "xinference[all]"
关于 Python 版本，建议指定使用3.10/3.11，如果太高(比如3.13)安装某些包会存在问题，如果非要用那就用吧。。
检查 GPU 驱动

进入创建好的虚拟环境，待依赖安装完成后检查是否识别到 Nvidia GPU（如果只有CPU可以跳过）：
1
2
3
4
# 进入 Python 环境
python
import torch
torch.cuda.is_available()
应该是返回 False ，可能是两方面原因，没有装 cuda 或 torch 安装的是无 GPU 版本。
安装 cuda

从 CUDA下载页面下载驱动并安装；
更换 pytorch
1
2
# 卸载已安装的 pytorch
pip uninstall pytorch torch torchvision torchaudio
打开 PyTorch安装页面选择合适的选项获取安装命令。

看了很多的教程都说需要驱动、cuda和pytorch版本相适配，我的话是安装的最新驱动，potorch 最高只有cuda12.8 的选项，就只能选这个，一路下来倒也没遇到啥问题。
1
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
重新打开终端进行验证，做完这些应该就没有问题可以正常调用 GPU 了
启动 xinference
1
2
3
4
# 官方启动命令
# xinference-local --host 0.0.0.0 --port 9997

xinference-local --host 192.168.x.x --port 9997
Windows 下是不支持使用 0.0.0.0 的，会报错：RuntimeError: Cluster is not available after multiple attempts

修改为 127.0.0.1 或局域网IP（如果需要给局域网其他设备调用）即可。
打开 Web 页面：

浏览器打开 http://127.0.0.1:9997 就能看到 xinference 的 Web 页面了，随便点一个模型也能看到支持 GPU 调用。如果还是存在问题，那就只能借助万能的谷歌了。