点击展开更新日志

2025

07-26

  1. ollama 部署
  2. xinference 部署

nexttime

会有些什么呢(❁´◡`❁)

源起

最近开始折腾本地部署大模型,期望是本地跑一个小一点的对话模型+本地知识库+联网搜索。还在折腾阶段,都先试试。

ollama

最初是安装了 ollama 来部署大模型的,使用非常简单。

安装

  1. 官网 下载安装包,如果想要安装到C盘之外,可以打开cmd使用以下安装选项:

    1
    OllamaSetup.exe /DIR=D:\Ollama
  2. 新增环境变量,修改模型默认下载位置

    新增环境变量: OLLAMA_MODELS 指定模型下载位置,重启服务。

  3. 服务启动后没有页面,默认在任务栏,需要的话右键打开。

    补充一个问题,重启最好是通过开始菜单程序进行打开,不要使用 Listary 搜索打开,这样打开实际会缺少进程导致服务起不来,原因未知。

  4. 下载模型

    在官方 支持模型页面 可以搜索需要的模型,点击查看安装命令,比如:

    1
    ollama run deepseek-r1:1.5b

    量力而行。

  5. 其它命令:

    1
    ollama -h

xinference

安装 xinference 的起因是在使用 RAGFLOW 添加嵌入模型发现 ollama 不支持添加,所以选择换用 xinference 部署。

安装

环境:

  • Python/miniforge(建议)
  • GPU(只有CPU也可以)
  • 显卡驱动:577.00
  • CUDA 版本:12.9
  1. 先打开 xinference官方文档 ;

  2. 创建虚拟环境安装依赖包:

    1
    2
    3
    conda create -n xinference python=3.11
    conda activate xincerence
    pip install "xinference[all]"

    关于 Python 版本,建议指定使用3.10/3.11,如果太高(比如3.13)安装某些包会存在问题,如果非要用那就用吧。。

  3. 检查 GPU 驱动

    进入创建好的虚拟环境,待依赖安装完成后检查是否识别到 Nvidia GPU(如果只有CPU可以跳过):

    1
    2
    3
    4
    # 进入 Python 环境
    python
    import torch
    torch.cuda.is_available()

    应该是返回 False ,可能是两方面原因,没有装 cuda 或 torch 安装的是无 GPU 版本。

  4. 安装 cuda

    CUDA下载页面 下载驱动并安装;

  5. 更换 pytorch

    1
    2
    # 卸载已安装的 pytorch
    pip uninstall pytorch torch torchvision torchaudio

    打开 PyTorch安装页面 选择合适的选项获取安装命令。

    看了很多的教程都说需要驱动、cuda和pytorch版本相适配,我的话是安装的最新驱动,potorch 最高只有cuda12.8 的选项,就只能选这个,一路下来倒也没遇到啥问题。

    1
    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
  6. 重新打开终端进行验证,做完这些应该就没有问题可以正常调用 GPU 了

  7. 启动 xinference

    1
    2
    3
    4
    # 官方启动命令
    # xinference-local --host 0.0.0.0 --port 9997

    xinference-local --host 192.168.x.x --port 9997

    Windows 下是不支持使用 0.0.0.0 的,会报错:RuntimeError: Cluster is not available after multiple attempts

    修改为 127.0.0.1 或 局域网IP(如果需要给局域网其他设备调用)即可。

  8. 打开 Web 页面:

    浏览器打开 http://127.0.0.1:9997 就能看到 xinference 的 Web 页面了,随便点一个模型也能看到支持 GPU 调用。如果还是存在问题,那就只能借助万能的谷歌了。