💜Qwen3.5 - 本地运行指南

在你的本地设备上运行新的 Qwen3.5 LLM，包括中型：Qwen3.5-35B-A3B、27B、122B-A10B，小型：Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B！

Qwen3.5 是阿里巴巴全新的模型家族，包括 Qwen3.5-35B-A3B、 27B, 122B-A10B 以及 397B-A17B，还有新的小型系列：Qwen3.5-0.8B、2B、4B 和 9B。这些多模态混合推理 LLM 在各自规模上表现最强。它们支持 256K 上下文 覆盖 201 种语言，具备思考 + 非思考能力，并在智能体编程、视觉、聊天和长上下文任务上表现出色。35B 和 27B 模型可在 22GB 的 Mac / RAM 设备上运行。查看所有这里的 GGUF.

3 月 17 日更新： 你现在可以在 Unsloth Studio.

3 月 5 日更新： 重新下载 Qwen3.5-35B, 27B, 122B 以及 397B.

所有 GGUF 现已使用 改进的量化 算法更新。
全部使用我们的 新 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。
工具调用已改进 ，这得益于我们对聊天模板所做的修复。 修复是通用的 并适用于任何 Qwen3.5 格式和任何上传器。
查看新的 GGUF 基准 以了解 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们将从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层：Q2_K_XL、Q3_K_XL 和 Q4_K_XL。

所有上传都使用 Unsloth Dynamic 2.0 以获得 SOTA 级量化性能——因此 4-bit 会将重要层上转换为 8 或 16-bit。感谢 Qwen 为 Unsloth 提供首日访问权限。你也可以用 Unsloth 微调 Qwen3.5 。

要启用或禁用思考，请查看 Qwen3.5.Qwen3.5 小型模型默认已禁用。

在 Unsloth Studio 中运行 35B-A3B 27B 122B-A10B 397B-A17B 微调 Qwen3.5 小型

⚙️ 使用指南

表：推理硬件要求 （单位 = 总内存：RAM + VRAM，或统一内存）

Qwen3.5

3-bit

4-bit

6-bit

8-bit

BF16

0.8B + 2B

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

27B

14 GB

17 GB

24 GB

30 GB

54 GB

35B-A3B

17 GB

22 GB

30 GB

38 GB

70 GB

122B-A10B

60 GB

70 GB

106 GB

132 GB

245 GB

397B-A17B

180 GB

214 GB

340 GB

512 GB

810 GB

为了获得最佳性能，请确保你的可用总内存（VRAM + 系统 RAM）大于你正在下载的量化模型文件大小。如果不够，llama.cpp 仍然可以通过 SSD/HDD 卸载运行，但推理会更慢。

在 27B 以及 35B-A3B之间，如果你想要稍微更准确的结果且无法装入设备，请使用 27B。如果你想要更快的推理，就选 35B-A3B。

Qwen3.5 推理教程：

由于 Qwen3.5 有许多不同规模，我们将使用 Dynamic 4-bit MXFP4_MOE GGUF 变体来处理所有推理工作负载。点击下方以跳转到指定模型说明：

Qwen3.5-35B-A3B 27B 122B-A10B 397B-A17B 小型（0.8B • 2B • 4B • 9B）LM Studio

Unsloth Dynamic GGUF 上传：

Qwen3.5-35B-A3B

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

presence_penalty = 0.0 到 2.0 默认情况下这是关闭的，但为了减少重复，你可以使用它，不过使用更高的值可能会导致 性能略有下降。

由于独立的 mmproj 视觉文件，目前没有任何 Qwen3.5 GGUF 能在 Ollama 中运行。请使用与 llama.cpp 兼容的后端。

🦥 Unsloth Studio 指南

在本教程中，我们将使用 Unsloth Studio，这是我们用于运行和训练 LLM 的新 Web UI。借助 Unsloth Studio，你可以在本地运行模型，适用于 Mac、Windows和 Linux，并且：

搜索、下载、运行 GGUF 和 safetensor 模型
对比模型并排
自我修复 工具调用 + 网页搜索
代码执行 （Python、Bash）
自动推理参数调优（temp、top-p 等）
训练 LLM 速度快 2 倍，VRAM 少 70%

安装 Unsloth

MacOS、Linux、WSL：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell：

irm https://unsloth.ai/install.ps1 | iex

设置 Unsloth Studio（仅需一次）

设置会自动安装 Node.js（通过 nvm）、构建前端、安装所有 Python 依赖，并构建支持 CUDA 的 llama.cpp。

首次安装可能需要 5-10 分钟。这是正常的，因为 llama.cpp 需要编译二进制文件。请不要取消它。

WSL 用户： 系统会提示你输入 sudo 密码以安装构建依赖（cmake, git, libcurl4-openssl-dev).

启动 Unsloth

MacOS、Linux、WSL 和 Windows：

unsloth studio -H 0.0.0.0 -p 8888

然后打开 http://localhost:8888 在你的浏览器中。

搜索并下载 Qwen3.5

首次启动时，你需要创建一个密码以保护你的账户，并在以后重新登录。随后你会看到一个简短的引导向导，用于选择模型、数据集和基本设置。你可以随时跳过它。

然后前往 Studio Chat 标签页，在搜索栏中搜索 Qwen3.5，并下载你想要的模型和量化版本。

运行 Qwen3.5

在使用 Unsloth Studio 时，推理参数应会自动设置，不过你仍然可以手动更改它。你也可以编辑上下文长度、聊天模板和其他设置。

更多信息可查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

在本指南中，我们将使用 Dynamic 4-bit，它在 24GB RAM / Mac 设备上表现很好，适合快速推理。由于模型在完整 F16 精度下只有大约 72GB，因此我们无需太担心性能。GGUF： Qwen3.5-35B-A3B-GGUF

对于这些教程，我们将使用 llama.cpp 进行快速本地推理，尤其是如果你有 CPU。

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，你可以执行下面的操作：（:Q4_K_M）是量化类型。你也可以通过 Hugging Face 下载（第 3 点）。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景，按以下任一特定命令操作：

思考模式：

精确编程任务（例如 WebDev）：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

非思考模式：

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.7 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

通过（在安装 pip install huggingface_hub hf_transfer 后）下载模型。你可以选择 Q4_K_M 或其他量化版本，例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住，请查看： Hugging Face Hub，XET 调试

hf download unsloth/Qwen3.5-35B-A3B-GGUF \\
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后在对话模式下运行模型：

./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.00 \\
    --top-k 20

Qwen3.5 小型（0.8B • 2B • 4B • 9B）

对于 Qwen3.5 0.8B、2B、4B 和 9B， 推理默认已禁用 默认情况下。要启用它，请使用： --chat-template-kwargs '{"enable_thinking":true}'

在 Windows 上使用： --chat-template-kwargs "{\"enable_thinking\":true}"

对于 Qwen3.5 小型系列，由于它们非常小，你只需要在脚本中将模型名称更改为所需变体即可。对于本指南，我们将使用 9B 参数变体。若要以接近完整精度运行它们，你只需要一个 12GB RAM / VRAM / 统一内存设备。GGUF：

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 直接加载模型，你可以执行下面的操作：（:Q4_K_XL）是量化类型。你也可以通过 Hugging Face 下载（第 3 点）。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景，按以下任一特定命令操作：

若要使用除 9B 之外的其他变体，你可以将 '9B' 改为：0.8B、2B 或 4B 等。

思考模式（默认禁用）

Qwen3.5 小型模型默认禁用思考。使用 llama-server 来启用它。

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --alias "unsloth/Qwen3.5-9B-GGUF" \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --alias "unsloth/Qwen3.5-9B-GGUF" \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'

若要使用除 9B 之外的其他变体，你可以将 '9B' 改为：0.8B、2B 或 4B 等。

非思考模式默认已经开启

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.7 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --min-p 0.00

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

hf download unsloth/Qwen3.5-9B-GGUF \\
    --local-dir unsloth/Qwen3.5-9B-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后在对话模式下运行模型：

./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.5-9B-GGUF/mmproj-F16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.00 \\
    --top-k 20

Qwen3.5-27B

在本指南中，我们将使用 Dynamic 4-bit，它在 18GB RAM / Mac 设备上表现很好，适合快速推理。GGUF： Qwen3.5-27B-GGUF

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

请根据你的使用场景，按以下任一特定命令操作：

思考模式：

精确编程任务（例如 WebDev）：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

非思考模式：

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.7 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

通过（在安装 pip install huggingface_hub hf_transfer ）。你可以选择 MXFP4_MOE 或其他量化版本，例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住，请查看： Hugging Face Hub，XET 调试

hf download unsloth/Qwen3.5-27B-GGUF \\
    --local-dir unsloth/Qwen3.5-27B-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后在对话模式下运行模型：

./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.5-27B-GGUF/Qwen3.5-27B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.5-27B-GGUF/mmproj-F16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.00 \\
    --top-k 20

Qwen3.5-122B-A10B

在本指南中，我们将使用 Dynamic 4-bit，它在 70GB RAM / Mac 设备上表现很好，适合快速推理。GGUF： Qwen3.5-122B-A10B-GGUF

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

请根据你的使用场景，按以下任一特定命令操作：

思考模式：

精确编程任务（例如 WebDev）：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

非思考模式：

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.7 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

通过（在安装 pip install huggingface_hub hf_transfer ）。你可以选择 MXFP4_MOE （动态 4bit）或其他量化版本，例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住，请查看： Hugging Face Hub，XET 调试

hf download unsloth/Qwen3.5-122B-A10B-GGUF \\
    --local-dir unsloth/Qwen3.5-122B-A10B-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后在对话模式下运行模型：

./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.5-122B-A10B-GGUF/UD-Q4_K_XL/Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf \\
    --mmproj unsloth/Qwen3.5-122B-A10B-GGUF/mmproj-F16.gguf \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 处于同一性能档位。完整的 397B 检查点在磁盘上约为 807GB，但通过 Unsloth 的 397B GGUF 你可以运行：

3-bit：可在 192GB RAM 系统上运行（例如一台 192GB 的 Mac）
4-bit（MXFP4）：可在 256GB RAM。Unsloth 4-bit 动态 UD-Q4_K_XL 是 磁盘上约 214GB - 可直接加载到 256GB M3 Ultra
可在 单个 24GB GPU + 256GB 系统 RAM 通过 MoE 卸载运行，达到 25+ token/秒
8-bit 需要 约 512GB RAM/VRAM

查看 397B 量化基准以了解 Unsloth GGUF 的表现。

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，你可以执行下面的操作：（:Q4_K_M）是量化类型。你也可以通过 Hugging Face 下载（第 3 点）。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。记住该模型的最大上下文长度只有 256K。

针对思考模式请参照此：

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

针对 非思考 模式请参照此：

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-server \\
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \\
    --ctx-size 16384 \\
    --temp 0.7 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --chat-template-kwargs '{"enable_thinking":false}'

hf download unsloth/Qwen3.5-397B-A17B-GGUF \\
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q4_K_XL" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

你可以编辑 --threads 32 用于 CPU 线程数， --ctx-size 16384 用于上下文长度， --n-gpu-layers 2 用于 GPU 卸载的层数。如果你的 GPU 显存不足，请尝试调整它。如果你只进行 CPU 推理，也请移除它。

./llama.cpp/llama-cli \\
    --model unsloth/Qwen3.5-397B-A17B-GGUF/UD-Q4_K_XL/Qwen3.5-397B-A17B-UD-Q4_K_XL-00001-of-00006.gguf \\
    --mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \\
    --ctx-size 16384 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --top-k 20 \\
    --min-p 0.00

👾 LM Studio 指南

在本指南中，我们将使用 LM Studio，这是一个用于运行 LLM 的统一 UI 界面。默认情况下，'💡Thinking' 和 'Non-thinking' 切换可能不会出现，因此我们需要额外步骤来让它工作。

下载 LM Studio 到你的设备上。然后打开 Model Search，搜索 'unsloth/qwen3.5'，并下载你想要的 GGUF（量化版）。

思考切换说明： 下载后，打开你的终端 / PowerShell 并尝试： lms --help。然后如果 LM Studio 正常显示且有很多命令，运行：

lms get unsloth/qwen3.5-4b

这将获取一个 yaml 文件，使你的 GGUF 显示 '💡Thinking' 和 'Non-thinking' 切换。你可以将 4b 改成你想要的量化版本。

否则，你可以前往我们的 LM Studio 页面并下载特定的 yaml 文件。

重启 LM Studio，然后加载你下载的模型（带有你下载的特定思考切换）。你现在应该能看到思考切换已启用。别忘了设置正确参数.

🦙 Llama-server 服务 & OpenAI 的 completion 库

为了在生产环境中部署 Qwen3.5-397B-A17B，我们使用 llama-server 在一个新终端中，例如通过 tmux，按以下方式部署模型：

./llama.cpp/llama-server \\
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \\
    --alias "unsloth/Qwen3.5-35B-A3B" \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --ctx-size 16384 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --port 8001

然后在一个新终端中，在执行 pip install openai之后，执行：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

🤔 如何启用或禁用推理与思考

对于下面的命令，你可以互换使用 'true' 和 'false'。

Unsloth Studio 会自动为思考模型提供一个 'Think' 切换。

要在 LM Studio 中获得 Think 切换，请阅读我们的指南.

要禁用思考 / 推理，在 llama-server 中使用：

    --chat-template-kwargs '{"enable_thinking":false}'

如果你使用的是 Windows 或者在 Powershell 中，使用： --chat-template-kwargs "{\"enable_thinking\":false}"

要启用思考 / 推理，在 llama-server 中使用：

    --chat-template-kwargs '{"enable_thinking":true}'

如果你使用的是 Windows 或者在 Powershell 中，使用： --chat-template-kwargs "{\"enable_thinking\":true}"

对于 Qwen3.5 0.8B、2B、4B 和 9B，推理默认已禁用。要启用它，请使用： --chat-template-kwargs '{"enable_thinking":true}'

在 Windows 或 Powershell 中： --chat-template-kwargs "{\"enable_thinking\":true}"

例如，以 Qwen3.5-9B 启用思考（默认是禁用）：

./llama.cpp/llama-server \\
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \\
    --alias "unsloth/Qwen3.5-9B-GGUF" \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --ctx-size 16384 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'

然后在 Python 中：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-9B-GGUF",
    messages = [{"role": "user", "content": "2+2 等于多少？"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)

👨‍💻 OpenAI Codex & Claude Code

要通过本地编码代理式工作负载运行模型，你可以按照我们的指南。只需将模型名称改为你想要的 'Qwen3.5' 变体，并确保遵循正确的 Qwen3.5 参数和使用说明。使用 llama-server 我们刚刚设置好的那个。

Claude Code

OpenAI Codex

例如，按照 Claude Code 的说明后，你会看到：

然后我们可以问比如 创建一个国际象棋的 Python 游戏 :

🔨使用 Qwen3.5 进行工具调用

查看 Tool Calling Guide 了解如何进行工具调用的更多细节。在一个新的终端中（如果使用 tmux，请使用 CTRL+B+D），我们创建一些工具，比如两个数字相加、执行 Python 代码、执行 Linux 函数等等：

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "很久很久以前，在一个很远很远的星系里...",
        "有两个朋友，他们喜欢树懒和代码...",
        "世界即将终结，因为每只树懒都进化出了超人般的智慧...",
        "其中一个朋友并不知道，另一个朋友不小心写了一个让树懒进化的程序...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "无法执行 'rm, sudo, dd, chmod' 命令，因为它们很危险"
        print(msg); return msg
    print(f"正在执行终端命令 `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"命令失败：{e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "添加两个数字。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字。",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "将两个数字相乘。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字。",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "减去两个数字。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字。",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "写一个随机故事。",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "在终端中执行操作。",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "你希望启动的命令，例如 `ls`、`rm` 等。",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "调用一个 Python 解释器，执行将要运行的 Python 代码。",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "要运行的 Python 代码",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

然后我们使用下面的函数（复制、粘贴并执行），它们会自动解析函数调用，并针对任何模型调用 OpenAI 端点：

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Using model = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Current messages = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

在通过 llama-server 之后，像在 Qwen3.5 或者查看 Tool Calling Guide 以了解更多细节，然后我们就可以进行一些工具调用。

📊 基准测试

Unsloth GGUF 基准测试

我们更新了 Qwen3.5-35B Unsloth 动态量化 处于 SOTA 在几乎所有位宽上。我们做了超过 150 次 KL 散度基准测试，总计 9TB 的 GGUF 文件。我们上传了所有研究产物。我们还修复了一个 工具调用 聊天模板错误（影响所有量化上传器）

所有 GGUF 现已使用 改进的量化 算法更新。
全部使用我们的 新 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。
Qwen3.5-35B-A3B GGUF 已更新以使用新的修复（112B、27B 仍在转换中，更新后请重新下载）
99.9% 的 KL 散度显示在 UD-Q4_K_XL、IQ3_XXS 等的帕累托前沿上处于 SOTA。
弃用 MXFP4 用于所有 GGUF 量化：Q2_K_XL、Q3_K_XL 和 Q4_K_XL，纯 MXFP4_MOE 除外。

在此阅读我们详细的 QWEN3.5 分析 + 基准测试：

Qwen3.5 GGUF 基准测试

Qwen3.5-397B-A17B 基准测试

Benjamin Marie（第三方）进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF，在一个 750 条提示的混合套件 （LiveCodeBench v6、MMLU Pro、GPQA、Math500），同时报告 整体准确率 以及 相对错误增加 （量化模型相比原始模型更频繁出错的程度）。

关键结果（准确率；相对原始模型的变化；相对错误增加）：

原始权重： 81.3%
UD-Q4_K_XL： 80.5% （−0.8 个百分点；+4.3% 相对错误增加）
UD-Q3_K_XL： 80.7% （−0.6 个百分点；+3.5% 相对错误增加）

UD-Q4_K_XL 以及 UD-Q3_K_XL 与原始模型保持极其接近， 在这一套测试中准确率下降远低于 1 个百分点， Ben 暗示，这意味着你可以 显著降低内存占用 (大约少 500 GB），而在所测试的任务上几乎没有或完全没有实际损失。

如何选择： 在这里 Q3 评分略高于 Q4，这完全可能只是该规模下正常的运行间差异，所以请将 Q3 和 Q4 视为质量实际上相近 在这个基准测试中：

如果你想要 Q3 请选择 最小占用 / 最佳内存节省
如果你想要 Q4 如果你想要一个 稍微更保守的 选项，且结果相似

所有列出的量化都采用我们的动态方法。甚至 UD-IQ2_M 也使用相同的动态方法，但转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 UD-IQ2_M 更快，尽管它更大，所以这就是为什么 UD-IQ2_M 可能比 UD-Q2-K-XL.

官方 Qwen 基准测试

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试

上一页Faster MoE Training 下一页Qwen3.5 GGUF 基准测试

最后更新于1天前

这有帮助吗？

💜Qwen3.5 - 本地运行指南

⚙️ 使用指南

推荐设置

思考模式：

指令（非思考）模式设置：

Qwen3.5 推理教程：

🦥 Unsloth Studio 指南

安装 Unsloth

设置 Unsloth Studio（仅需一次）

启动 Unsloth

搜索并下载 Qwen3.5

运行 Qwen3.5

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

Qwen3.5 小型（0.8B • 2B • 4B • 9B）

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 LM Studio 指南

🦙 Llama-server 服务 & OpenAI 的 completion 库

🤔 如何启用或禁用推理与思考

👨‍💻 OpenAI Codex & Claude Code

🔨使用 Qwen3.5 进行工具调用

📊 基准测试

Unsloth GGUF 基准测试

Qwen3.5-397B-A17B 基准测试

官方 Qwen 基准测试

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试

hashtag⚙️ 使用指南

hashtag推荐设置

hashtag思考模式：

hashtag指令（非思考）模式设置：

hashtagQwen3.5 推理教程：

hashtag🦥 Unsloth Studio 指南

hashtag安装 Unsloth

hashtag设置 Unsloth Studio（仅需一次）

hashtag启动 Unsloth

hashtag搜索并下载 Qwen3.5

hashtag运行 Qwen3.5

hashtag🦙 Llama.cpp 指南

hashtagQwen3.5-35B-A3B

hashtagQwen3.5 小型（0.8B • 2B • 4B • 9B）

hashtagQwen3.5-27B

hashtagQwen3.5-122B-A10B

hashtagQwen3.5-397B-A17B

hashtag👾 LM Studio 指南

hashtag🦙 Llama-server 服务 & OpenAI 的 completion 库

hashtag🤔 如何启用或禁用推理与思考

hashtag👨‍💻 OpenAI Codex & Claude Code

hashtag🔨使用 Qwen3.5 进行工具调用

hashtag📊 基准测试

hashtagUnsloth GGUF 基准测试

hashtagQwen3.5-397B-A17B 基准测试

hashtag官方 Qwen 基准测试

hashtagQwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

hashtagQwen3.5-4B 和 9B 基准测试

hashtagQwen3.5-397B-A17B 基准测试

⚙️ 使用指南

推荐设置

思考模式：

指令（非思考）模式设置：

Qwen3.5 推理教程：

🦥 Unsloth Studio 指南

安装 Unsloth

设置 Unsloth Studio（仅需一次）

启动 Unsloth

搜索并下载 Qwen3.5

运行 Qwen3.5

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

Qwen3.5 小型（0.8B • 2B • 4B • 9B）

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 LM Studio 指南

🦙 Llama-server 服务 & OpenAI 的 completion 库

🤔 如何启用或禁用推理与思考

👨‍💻 OpenAI Codex & Claude Code

🔨使用 Qwen3.5 进行工具调用

📊 基准测试

Unsloth GGUF 基准测试

Qwen3.5-397B-A17B 基准测试

官方 Qwen 基准测试

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试