💜Qwen3.5 - 本地运行指南

在你的本地设备上运行新的 Qwen3.5 LLM,包括中型:Qwen3.5-35B-A3B、27B、122B-A10B,小型:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!

Qwen3.5 是阿里巴巴全新的模型家族,包括 Qwen3.5-35B-A3B、 27B, 122B-A10B 以及 397B-A17B,还有新的 小型 系列:Qwen3.5-0.8B、2B、4B 和 9B。这些多模态混合推理 LLM 在各自规模上表现最强。它们支持 256K 上下文 覆盖 201 种语言,具备 思考 + 思考能力,并在智能体编程、视觉、聊天和长上下文任务上表现出色。35B 和 27B 模型可在 22GB 的 Mac / RAM 设备上运行。查看所有 这里的 GGUFarrow-up-right.

circle-check

所有上传都使用 Unsloth Dynamic 2.0arrow-up-right 以获得 SOTA 级量化性能——因此 4-bit 会将重要层上转换为 8 或 16-bit。感谢 Qwen 为 Unsloth 提供首日访问权限。你也可以用 Unsloth 微调 Qwen3.5

circle-info

要启用或禁用思考,请查看 Qwen3.5.Qwen3.5 小型模型默认已禁用。

在 Unsloth Studio 中运行35B-A3B27B122B-A10B397B-A17B微调Qwen3.5 小型

⚙️ 使用指南

表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

Qwen3.5
3-bit
4-bit
6-bit
8-bit
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

27B 以及 35B-A3B之间,如果你想要稍微更准确的结果且无法装入设备,请使用 27B。如果你想要更快的推理,就选 35B-A3B。

推荐设置

  • 最大上下文窗口: 262,144 (可通过 YaRN 扩展到 1M)

  • presence_penalty = 0.0 到 2.0 默认情况下这是关闭的,但为了减少重复,你可以使用它,不过使用更高的值可能会导致 性能略有下降

  • 足够的输出长度: 32,768 用于大多数查询的 token

circle-info

如果你看到乱码,可能是上下文长度设置得太低。或者试试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有帮助。

由于 Qwen3.5 是混合推理,思考和非思考模式有不同设置:

思考模式:

通用任务
精确编程任务(例如 WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

通用任务的思考模式:

精确编程任务的思考模式:

指令(非思考)模式设置:

通用任务
推理任务

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

circle-exclamation

通用任务的指令(非思考)模式:

推理任务的指令(非思考)模式:

Qwen3.5 推理教程:

由于 Qwen3.5 有许多不同规模,我们将使用 Dynamic 4-bit MXFP4_MOE GGUF 变体来处理所有推理工作负载。点击下方以跳转到指定模型说明:

Qwen3.5-35B-A3B27B122B-A10B397B-A17B小型(0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF 上传:

circle-exclamation

🦥 Unsloth Studio 指南

在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新 Web UI。借助 Unsloth Studio,你可以在本地运行模型,适用于 Mac、Windows和 Linux,并且:

1

安装 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

2

设置 Unsloth Studio(仅需一次)

设置会自动安装 Node.js(通过 nvm)、构建前端、安装所有 Python 依赖,并构建支持 CUDA 的 llama.cpp。

circle-exclamation
circle-info

WSL 用户: 系统会提示你输入 sudo 密码以安装构建依赖(cmake, git, libcurl4-openssl-dev).

3

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后打开 http://localhost:8888 在你的浏览器中。

4

搜索并下载 Qwen3.5

首次启动时,你需要创建一个密码以保护你的账户,并在以后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过它。

然后前往 Studio Chat 标签页,在搜索栏中搜索 Qwen3.5,并下载你想要的模型和量化版本。

5

运行 Qwen3.5

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改它。你也可以编辑上下文长度、聊天模板和其他设置。

更多信息可查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

在本指南中,我们将使用 Dynamic 4-bit,它在 24GB RAM / Mac 设备上表现很好,适合快速推理。由于模型在完整 F16 精度下只有大约 72GB,因此我们无需太担心性能。GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

对于这些教程,我们将使用 llama.cpparrow-up-right 进行快速本地推理,尤其是如果你有 CPU。

1

获取最新的 llama.cpp GitHub 这里arrow-up-right。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。

2

如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按以下任一特定命令操作:

思考模式:

精确编程任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer 后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5 小型(0.8B • 2B • 4B • 9B)

circle-exclamation

对于 Qwen3.5 小型系列,由于它们非常小,你只需要在脚本中将模型名称更改为所需变体即可。对于本指南,我们将使用 9B 参数变体。若要以接近完整精度运行它们,你只需要一个 12GB RAM / VRAM / 统一内存设备。GGUF:

1

获取最新的 llama.cpp GitHub 这里arrow-up-right。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想直接使用 llama.cpp 直接加载模型,你可以执行下面的操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按以下任一特定命令操作:

circle-check

思考模式(默认禁用)

triangle-exclamation

通用任务:

circle-check

非思考模式默认已经开启

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer 后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5-27B

在本指南中,我们将使用 Dynamic 4-bit,它在 18GB RAM / Mac 设备上表现很好,适合快速推理。GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

获取最新的 llama.cpp GitHub 这里arrow-up-right。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按以下任一特定命令操作:

思考模式:

精确编程任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5-122B-A10B

在本指南中,我们将使用 Dynamic 4-bit,它在 70GB RAM / Mac 设备上表现很好,适合快速推理。GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

获取最新的 llama.cpp GitHub 这里arrow-up-right。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按以下任一特定命令操作:

思考模式:

精确编程任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 处于同一性能档位。完整的 397B 检查点在磁盘上约为 807GB,但通过 Unsloth 的 397B GGUFarrow-up-right 你可以运行:

  • 3-bit:可在 192GB RAM 系统上运行(例如一台 192GB 的 Mac)

  • 4-bit(MXFP4):可在 256GB RAM。Unsloth 4-bit 动态 UD-Q4_K_XL磁盘上约 214GB - 可直接加载到 256GB M3 Ultra

  • 可在 单个 24GB GPU + 256GB 系统 RAM 通过 MoE 卸载运行,达到 25+ token/秒

  • 8-bit 需要 约 512GB RAM/VRAM

circle-info

查看 397B 量化基准 以了解 Unsloth GGUF 的表现。

1

获取最新的 llama.cpp GitHub 这里arrow-up-right。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。记住该模型的最大上下文长度只有 256K。

针对 思考 模式请参照此:

针对 非思考 模式请参照此:

3

通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试

4

你可以编辑 --threads 32 用于 CPU 线程数, --ctx-size 16384 用于上下文长度, --n-gpu-layers 2 用于 GPU 卸载的层数。如果你的 GPU 显存不足,请尝试调整它。如果你只进行 CPU 推理,也请移除它。

👾 LM Studio 指南

在本指南中,我们将使用 LM Studioarrow-up-right,这是一个用于运行 LLM 的统一 UI 界面。默认情况下,'💡Thinking' 和 'Non-thinking' 切换可能不会出现,因此我们需要额外步骤来让它工作。

1

下载 LM Studioarrow-up-right 到你的设备上。然后打开 Model Search,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化版)。

2

思考切换说明: 下载后,打开你的终端 / PowerShell 并尝试: lms --help。然后如果 LM Studio 正常显示且有很多命令,运行:

这将获取一个 yaml 文件,使你的 GGUF 显示 '💡Thinking' 和 'Non-thinking' 切换。你可以将 4b 改成你想要的量化版本。

否则,你可以前往 我们的 LM Studio 页面arrow-up-right 并下载特定的 yaml 文件。

3

重启 LM Studio,然后加载你下载的模型(带有你下载的特定思考切换)。你现在应该能看到思考切换已启用。别忘了设置 正确参数.

🦙 Llama-server 服务 & OpenAI 的 completion 库

为了在生产环境中部署 Qwen3.5-397B-A17B,我们使用 llama-server 在一个新终端中,例如通过 tmux,按以下方式部署模型:

然后在一个新终端中,在执行 pip install openai之后,执行:

🤔 如何启用或禁用推理与思考

对于下面的命令,你可以互换使用 'true' 和 'false'。

Unsloth Studio 会自动为思考模型提供一个 'Think' 切换。

要在 LM Studio 中获得 Think 切换, 请阅读我们的指南.

Unsloth Studio 默认带有 Think 切换
circle-info

禁用 思考 / 推理,在 llama-server 中使用:

如果你使用的是 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

启用 思考 / 推理,在 llama-server 中使用:

如果你使用的是 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

例如,以 Qwen3.5-9B 启用思考(默认是禁用):

然后在 Python 中:

👨‍💻 OpenAI Codex & Claude Code

要通过本地编码代理式工作负载运行模型,你可以 按照我们的指南。只需将模型名称改为你想要的 'Qwen3.5' 变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用 llama-server 我们刚刚设置好的那个。

例如,按照 Claude Code 的说明后,你会看到:

然后我们可以问比如 创建一个国际象棋的 Python 游戏 :

🔨使用 Qwen3.5 进行工具调用

查看 Tool Calling Guide 了解如何进行工具调用的更多细节。在一个新的终端中(如果使用 tmux,请使用 CTRL+B+D),我们创建一些工具,比如两个数字相加、执行 Python 代码、执行 Linux 函数等等:

然后我们使用下面的函数(复制、粘贴并执行),它们会自动解析函数调用,并针对任何模型调用 OpenAI 端点:

在通过 llama-server 之后,像在 Qwen3.5 或者查看 Tool Calling Guide 以了解更多细节,然后我们就可以进行一些工具调用。

📊 基准测试

Unsloth GGUF 基准测试

我们更新了 Qwen3.5-35B Unsloth 动态量化 处于 SOTA 在几乎所有位宽上。我们做了超过 150 次 KL 散度基准测试,总计 9TB 的 GGUF 文件。我们上传了所有研究产物。我们还修复了一个 工具调用 聊天模板 错误 (影响所有量化上传器)

  • 所有 GGUF 现已使用 改进的量化 算法更新。

  • 全部使用我们的 新 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。

  • Qwen3.5-35B-A3B GGUF 已更新以使用新的修复(112B、27B 仍在转换中,更新后请重新下载)

  • 99.9% 的 KL 散度显示在 UD-Q4_K_XL、IQ3_XXS 等的帕累托前沿上处于 SOTA。

  • 弃用 MXFP4 用于所有 GGUF 量化:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,纯 MXFP4_MOE 除外。

35B-A3B - KLD 基准测试(越低越好)
122B-A10B - KLD 基准测试(越低越好)

在此阅读我们详细的 QWEN3.5 分析 + 基准测试:

chart-fftQwen3.5 GGUF 基准测试chevron-right

Qwen3.5-397B-A17B 基准测试

Benjamin Marie(第三方)进行了基准测试arrow-up-right Qwen3.5-397B-A17B 使用 Unsloth GGUF,在一个 750 条提示的混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),同时报告 整体准确率 以及 相对错误增加 (量化模型相比原始模型更频繁出错的程度)。

关键结果(准确率;相对原始模型的变化;相对错误增加):

  • 原始权重: 81.3%

  • UD-Q4_K_XL: 80.5% (−0.8 个百分点;+4.3% 相对错误增加)

  • UD-Q3_K_XL: 80.7% (−0.6 个百分点;+3.5% 相对错误增加)

UD-Q4_K_XL 以及 UD-Q3_K_XL 与原始模型保持极其接近, 在这一套测试中准确率下降远低于 1 个百分点, Ben 暗示,这意味着你可以 显著降低内存占用 (大约少 500 GB),而在所测试的任务上几乎没有或完全没有实际损失。

如何选择: 在这里 Q3 评分略高于 Q4,这完全可能只是该规模下正常的运行间差异,所以请将 Q3 和 Q4 视为质量实际上相近 在这个基准测试中:

  • 如果你想要 Q3 请选择 最小占用 / 最佳内存节省

  • 如果你想要 Q4 如果你想要一个 稍微更保守的 选项,且 结果 相似

所有列出的量化都采用我们的动态方法。甚至 UD-IQ2_M 也使用相同的动态方法,但转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 UD-IQ2_M 更快,尽管它更大,所以这就是为什么 UD-IQ2_M 可能比 UD-Q2-K-XL.

官方 Qwen 基准测试

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试

最后更新于

这有帮助吗?