💜Qwen3.5 - 本地运行指南
在你的本地设备上运行新的 Qwen3.5 LLM,包括中型:Qwen3.5-35B-A3B、27B、122B-A10B,小型:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!
Qwen3.5 是阿里巴巴全新的模型家族,包括 Qwen3.5-35B-A3B、 27B, 122B-A10B 以及 397B-A17B,还有新的 小型 系列:Qwen3.5-0.8B、2B、4B 和 9B。这些多模态混合推理 LLM 在各自规模上表现最强。它们支持 256K 上下文 覆盖 201 种语言,具备 思考 + 非思考能力,并在智能体编程、视觉、聊天和长上下文任务上表现出色。35B 和 27B 模型可在 22GB 的 Mac / RAM 设备上运行。查看所有 这里的 GGUF.
3 月 17 日更新: 你现在可以在 Unsloth Studio.
3 月 5 日更新: 重新下载 Qwen3.5-35B, 27B, 122B 以及 397B.
所有 GGUF 现已使用 改进的量化 算法更新。
全部使用我们的 新 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。
工具调用已改进 ,这得益于我们对聊天模板所做的修复。 修复是通用的 并适用于 任何 Qwen3.5 格式和 任何 上传器。
查看新的 GGUF 基准 以了解 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们将从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。
所有上传都使用 Unsloth Dynamic 2.0 以获得 SOTA 级量化性能——因此 4-bit 会将重要层上转换为 8 或 16-bit。感谢 Qwen 为 Unsloth 提供首日访问权限。你也可以用 Unsloth 微调 Qwen3.5 。
要启用或禁用思考,请查看 Qwen3.5.Qwen3.5 小型模型默认已禁用。
在 Unsloth Studio 中运行35B-A3B27B122B-A10B397B-A17B微调Qwen3.5 小型
⚙️ 使用指南
表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
为了获得最佳性能,请确保你的可用总内存(VRAM + 系统 RAM)大于你正在下载的量化模型文件大小。如果不够,llama.cpp 仍然可以通过 SSD/HDD 卸载运行,但推理会更慢。
在 27B 以及 35B-A3B之间,如果你想要稍微更准确的结果且无法装入设备,请使用 27B。如果你想要更快的推理,就选 35B-A3B。
推荐设置
最大上下文窗口:
262,144(可通过 YaRN 扩展到 1M)presence_penalty = 0.0 到 2.0默认情况下这是关闭的,但为了减少重复,你可以使用它,不过使用更高的值可能会导致 性能略有下降足够的输出长度:
32,768用于大多数查询的 token
如果你看到乱码,可能是上下文长度设置得太低。或者试试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有帮助。
由于 Qwen3.5 是混合推理,思考和非思考模式有不同设置:
思考模式:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
通用任务的思考模式:
精确编程任务的思考模式:
指令(非思考)模式设置:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
要 禁用思考 / 推理,请使用 --chat-template-kwargs '{"enable_thinking":false}'
如果你使用的是 Windows Powershell,请使用: --chat-template-kwargs "{\"enable_thinking\":false}"
“true”和“false”可以互换使用。
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认已禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
通用任务的指令(非思考)模式:
推理任务的指令(非思考)模式:
Qwen3.5 推理教程:
由于 Qwen3.5 有许多不同规模,我们将使用 Dynamic 4-bit MXFP4_MOE GGUF 变体来处理所有推理工作负载。点击下方以跳转到指定模型说明:
Qwen3.5-35B-A3B27B122B-A10B397B-A17B小型(0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF 上传:
presence_penalty = 0.0 到 2.0 默认情况下这是关闭的,但为了减少重复,你可以使用它,不过使用更高的值可能会导致 性能略有下降。
由于独立的 mmproj 视觉文件,目前没有任何 Qwen3.5 GGUF 能在 Ollama 中运行。请使用与 llama.cpp 兼容的后端。
🦥 Unsloth Studio 指南
在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新 Web UI。借助 Unsloth Studio,你可以在本地运行模型,适用于 Mac、Windows和 Linux,并且:

搜索并下载 Qwen3.5
首次启动时,你需要创建一个密码以保护你的账户,并在以后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过它。
然后前往 Studio Chat 标签页,在搜索栏中搜索 Qwen3.5,并下载你想要的模型和量化版本。

运行 Qwen3.5
在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改它。你也可以编辑上下文长度、聊天模板和其他设置。
更多信息可查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南
Qwen3.5-35B-A3B
在本指南中,我们将使用 Dynamic 4-bit,它在 24GB RAM / Mac 设备上表现很好,适合快速推理。由于模型在完整 F16 精度下只有大约 72GB,因此我们无需太担心性能。GGUF: Qwen3.5-35B-A3B-GGUF
对于这些教程,我们将使用 llama.cpp 进行快速本地推理,尤其是如果你有 CPU。
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认已开启。
如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按以下任一特定命令操作:
思考模式:
精确编程任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer 后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5 小型(0.8B • 2B • 4B • 9B)
对于 Qwen3.5 0.8B、2B、4B 和 9B, 推理默认已禁用 默认情况下。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 上使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 小型系列,由于它们非常小,你只需要在脚本中将模型名称更改为所需变体即可。对于本指南,我们将使用 9B 参数变体。若要以接近完整精度运行它们,你只需要一个 12GB RAM / VRAM / 统一内存设备。GGUF:
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想直接使用 llama.cpp 直接加载模型,你可以执行下面的操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按以下任一特定命令操作:
若要使用除 9B 之外的其他变体,你可以将 '9B' 改为:0.8B、2B 或 4B 等。
思考模式(默认禁用)
Qwen3.5 小型模型默认禁用思考。使用 llama-server 来启用它。
通用任务:
若要使用除 9B 之外的其他变体,你可以将 '9B' 改为:0.8B、2B 或 4B 等。
非思考模式默认已经开启
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer 后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5-27B
在本指南中,我们将使用 Dynamic 4-bit,它在 18GB RAM / Mac 设备上表现很好,适合快速推理。GGUF: Qwen3.5-27B-GGUF
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按以下任一特定命令操作:
思考模式:
精确编程任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5-122B-A10B
在本指南中,我们将使用 Dynamic 4-bit,它在 70GB RAM / Mac 设备上表现很好,适合快速推理。GGUF: Qwen3.5-122B-A10B-GGUF
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按以下任一特定命令操作:
思考模式:
精确编程任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 处于同一性能档位。完整的 397B 检查点在磁盘上约为 807GB,但通过 Unsloth 的 397B GGUF 你可以运行:
3-bit:可在 192GB RAM 系统上运行(例如一台 192GB 的 Mac)
4-bit(MXFP4):可在 256GB RAM。Unsloth 4-bit 动态 UD-Q4_K_XL 是 磁盘上约 214GB - 可直接加载到 256GB M3 Ultra
可在 单个 24GB GPU + 256GB 系统 RAM 通过 MoE 卸载运行,达到 25+ token/秒
8-bit 需要 约 512GB RAM/VRAM
查看 397B 量化基准 以了解 Unsloth GGUF 的表现。
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想直接使用 llama.cpp 来加载模型,你可以执行下面的操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 以强制 llama.cpp 保存到指定位置。记住该模型的最大上下文长度只有 256K。
针对 思考 模式请参照此:
针对 非思考 模式请参照此:
通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请查看: Hugging Face Hub,XET 调试
你可以编辑 --threads 32 用于 CPU 线程数, --ctx-size 16384 用于上下文长度, --n-gpu-layers 2 用于 GPU 卸载的层数。如果你的 GPU 显存不足,请尝试调整它。如果你只进行 CPU 推理,也请移除它。
👾 LM Studio 指南
在本指南中,我们将使用 LM Studio,这是一个用于运行 LLM 的统一 UI 界面。默认情况下,'💡Thinking' 和 'Non-thinking' 切换可能不会出现,因此我们需要额外步骤来让它工作。
下载 LM Studio 到你的设备上。然后打开 Model Search,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化版)。

思考切换说明: 下载后,打开你的终端 / PowerShell 并尝试: lms --help。然后如果 LM Studio 正常显示且有很多命令,运行:
这将获取一个 yaml 文件,使你的 GGUF 显示 '💡Thinking' 和 'Non-thinking' 切换。你可以将 4b 改成你想要的量化版本。

否则,你可以前往 我们的 LM Studio 页面 并下载特定的 yaml 文件。
重启 LM Studio,然后加载你下载的模型(带有你下载的特定思考切换)。你现在应该能看到思考切换已启用。别忘了设置 正确参数.

🦙 Llama-server 服务 & OpenAI 的 completion 库
为了在生产环境中部署 Qwen3.5-397B-A17B,我们使用 llama-server 在一个新终端中,例如通过 tmux,按以下方式部署模型:
然后在一个新终端中,在执行 pip install openai之后,执行:
🤔 如何启用或禁用推理与思考
对于下面的命令,你可以互换使用 'true' 和 'false'。
Unsloth Studio 会自动为思考模型提供一个 'Think' 切换。
要在 LM Studio 中获得 Think 切换, 请阅读我们的指南.

要 禁用 思考 / 推理,在 llama-server 中使用:
如果你使用的是 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":false}"
要 启用 思考 / 推理,在 llama-server 中使用:
如果你使用的是 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认已禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 或 Powershell 中: --chat-template-kwargs "{\"enable_thinking\":true}"
例如,以 Qwen3.5-9B 启用思考(默认是禁用):
然后在 Python 中:

👨💻 OpenAI Codex & Claude Code
要通过本地编码代理式工作负载运行模型,你可以 按照我们的指南。只需将模型名称改为你想要的 'Qwen3.5' 变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用 llama-server 我们刚刚设置好的那个。
例如,按照 Claude Code 的说明后,你会看到:

然后我们可以问比如 创建一个国际象棋的 Python 游戏 :



🔨使用 Qwen3.5 进行工具调用
查看 Tool Calling Guide 了解如何进行工具调用的更多细节。在一个新的终端中(如果使用 tmux,请使用 CTRL+B+D),我们创建一些工具,比如两个数字相加、执行 Python 代码、执行 Linux 函数等等:
然后我们使用下面的函数(复制、粘贴并执行),它们会自动解析函数调用,并针对任何模型调用 OpenAI 端点:
在通过 llama-server 之后,像在 Qwen3.5 或者查看 Tool Calling Guide 以了解更多细节,然后我们就可以进行一些工具调用。
📊 基准测试
Unsloth GGUF 基准测试
我们更新了 Qwen3.5-35B Unsloth 动态量化 处于 SOTA 在几乎所有位宽上。我们做了超过 150 次 KL 散度基准测试,总计 9TB 的 GGUF 文件。我们上传了所有研究产物。我们还修复了一个 工具调用 聊天模板 错误 (影响所有量化上传器)
所有 GGUF 现已使用 改进的量化 算法更新。
全部使用我们的 新 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。
Qwen3.5-35B-A3B GGUF 已更新以使用新的修复(112B、27B 仍在转换中,更新后请重新下载)
99.9% 的 KL 散度显示在 UD-Q4_K_XL、IQ3_XXS 等的帕累托前沿上处于 SOTA。
弃用 MXFP4 用于所有 GGUF 量化:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,纯 MXFP4_MOE 除外。


在此阅读我们详细的 QWEN3.5 分析 + 基准测试:
Qwen3.5 GGUF 基准测试Qwen3.5-397B-A17B 基准测试

Benjamin Marie(第三方)进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF,在一个 750 条提示的混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),同时报告 整体准确率 以及 相对错误增加 (量化模型相比原始模型更频繁出错的程度)。
关键结果(准确率;相对原始模型的变化;相对错误增加):
原始权重: 81.3%
UD-Q4_K_XL: 80.5% (−0.8 个百分点;+4.3% 相对错误增加)
UD-Q3_K_XL: 80.7% (−0.6 个百分点;+3.5% 相对错误增加)
UD-Q4_K_XL 以及 UD-Q3_K_XL 与原始模型保持极其接近, 在这一套测试中准确率下降远低于 1 个百分点, Ben 暗示,这意味着你可以 显著降低内存占用 (大约少 500 GB),而在所测试的任务上几乎没有或完全没有实际损失。
如何选择: 在这里 Q3 评分略高于 Q4,这完全可能只是该规模下正常的运行间差异,所以请将 Q3 和 Q4 视为质量实际上相近 在这个基准测试中:
如果你想要 Q3 请选择 最小占用 / 最佳内存节省
如果你想要 Q4 如果你想要一个 稍微更保守的 选项,且 结果 相似
所有列出的量化都采用我们的动态方法。甚至 UD-IQ2_M 也使用相同的动态方法,但转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 UD-IQ2_M 更快,尽管它更大,所以这就是为什么 UD-IQ2_M 可能比 UD-Q2-K-XL.
官方 Qwen 基准测试
Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试

最后更新于
这有帮助吗?


