🌠Qwen3-Coder-Next:如何本地运行

在你的设备上本地运行 Qwen3-Coder-Next 的指南!

Qwen 发布了 Qwen3-Coder-Next,这是一款 80B MoE 模型(3B 活跃参数),具有 256K 上下文 用于快速的智能体式编码和本地使用。其性能可与活跃参数多出 10–20 倍的模型相媲美。

它可运行在 46GB RAM/VRAM/统一内存(8 位时为 85GB),采用非推理模式以实现超快代码响应。该模型在长程推理、复杂工具使用以及从执行失败中恢复方面表现出色。

circle-check

你还将学习如何在 Codex 和 Claude Code 上运行该模型。对于 微调,Qwen3-Next-Coder 适合在 Unsloth 中单块 B200 GPU 上进行 bf16 LoRA。

Qwen3-Coder-Next Unsloth Dynamic GGUFs 运行: unsloth/Qwen3-Coder-Next-GGUFarrow-up-right

运行 GGUF 教程Codex 和 Claude CodeFP8 vLLM 教程

⚙️ 使用指南

没有 46GB RAM 或统一内存?别担心,你可以运行我们更小的量化版本,比如 3-bit。最佳做法是让模型大小 = 你的计算资源总和( 磁盘空间 + RAM + VRAM ≥ 量化大小)。 如果你的量化版本能够完全装入设备,预计可达到 20+ tokens/s。如果装不下,它仍然可以通过卸载方式运行,但速度会更慢。

为了获得最佳性能,Qwen 推荐以下设置:

  • Temperature = 1.0

  • Top_P = 0.95

  • Top_K = 40

  • Min_P = 0.01 (llama.cpp 的默认值是 0.05)

  • 重复惩罚 = 禁用或 1.0

原生支持最高 262,144 上下文,但你可以将其设置为 32,768 个 tokens 以减少内存使用。

🖥️ 运行 Qwen3-Coder-Next

根据你的使用场景,你需要使用不同的设置。由于本指南使用 4-bit,因此你需要大约 46GB RAM/统一内存。我们建议至少使用 3-bit 精度以获得最佳性能。

circle-check
circle-info

注意:该模型仅支持非思考模式,不会在输出中生成 <think></think> 代码块。因此,指定 enable_thinking=False 已不再需要。

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub 这里arrow-up-right。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

2

你可以直接从 Hugging Face 拉取。如果你的 RAM/VRAM 允许,可以将上下文增加到 256K。使用 --fit on 也会自动确定上下文长度。

你可以使用推荐参数: temperature=1.0, top_p=0.95, top_k=40

3

通过以下方式下载模型(安装完 pip install huggingface_hub)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请参见 Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

此外,请按需调整 上下文窗口 按需,最多到 262,144

circle-info

注意:该模型仅支持非思考模式,不会在输出中生成 <think></think> 代码块。因此,指定 enable_thinking=False 已不再需要。

🦙Llama-server 服务与部署

要将 Qwen3-Coder-Next 部署到生产环境,我们使用 llama-server 在一个新终端中,例如通过 tmux。然后,使用以下命令部署模型:

然后在一个新终端中,在执行 pip install openai,我们可以运行该模型:

输出如下:

我们提取了 HTML 并运行了它,生成的示例 Flappy Bird 游戏运行得很好!

👾 OpenAI Codex 和 Claude Code

要通过本地编码代理式工作负载运行模型,你可以 按照我们的指南。只需将模型名称 'GLM-4.7-Flash' 改为 'Qwen3-Coder-Next',并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用 llama-server 我们刚刚设置好的那个。

例如,按照 Claude Code 的说明后,你会看到:

然后我们可以问比如 创建一个国际象棋的 Python 游戏 :

如果你看到 API 错误:400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 这意味着你需要增加上下文长度,或者查看 Qwen3-Coder-Next

🎱 vLLM 中的 FP8 Qwen3-Coder-Next

你现在可以使用我们新的 FP8 Dynamic 量化版本arrow-up-right 用于高性能且快速的推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 改为与你的 CUDA 版本相对应的地址,可通过以下命令查看: nvidia-smi - 仅 cu129cu130 当前受支持。

circle-check

然后启动服务 Unsloth 的动态 FP8 版本arrow-up-right 的模型。你还可以通过添加以下参数启用 FP8,以将 KV cache 内存使用量减少 50%: --kv-cache-dtype fp8 我们在 4 张 GPU 上运行了它,但如果你只有 1 张 GPU,请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 ,或者移除该参数。使用 tmux 在新的终端中启动下面的命令,然后按 CTRL+B+D - 使用 tmux attach-session -t0 返回。

你应该会看到类似下面的内容。查看 Qwen3-Coder-Next 了解如何使用 OpenAI API 和工具调用真正使用 Qwen3-Coder-Next——这对 vLLM 和 llama-server 都有效。

🔧使用 Qwen3-Coder-Next 进行工具调用

在一个新终端中,我们创建一些工具,例如加 2 个数、执行 Python 代码、执行 Linux 函数等等:

然后我们使用下面的函数(复制、粘贴并执行),它们会自动解析函数调用,并针对任何模型调用 OpenAI 端点:

下面我们将展示多种针对不同用例的工具调用运行方法:

执行生成的 Python 代码

执行任意终端函数

我们确认文件已创建,而且确实创建了!

查看 Tool Calling Guide 查看更多工具调用示例。

📐基准测试

GGUF 量化基准测试

以下是由第三方评估者进行的量化基准测试。

Aider Polyglot 基准测试
Benjamine Marie 基准测试(来源arrow-up-right)

这些基准由第三方贡献者在 Aider Polyglot 服务器上运行,将 Unsloth GGUF 量化版本在 Aider Polyglot 基准测试中进行比较(分数 vs. VRAM)。值得注意的是,3-bit UD-IQ3_XXS 量化结果接近 BF16 性能,这使得 3-bit 成为一个合理的最低选择 适用于大多数用例。

NVFP4 略优于 BF16 基准参考,这可能由于运行次数有限导致采样噪声;不过,对于以下内容,整体趋势: 1-bit → 2-bit → 3-bit → 6-bit 稳步提升,表明该基准捕捉到了 Unsloth GGUF 之间有意义的质量差异。 非 Unsloth FP8 似乎比两者都表现更差 UD-IQ3_XXSUD-Q6_K_XL,这可能反映了量化流程中的差异,或者同样是由于采样不足。

Benjamin Marie(第三方)进行了基准测试arrow-up-right Qwen3-Coder-Next 在一个 750 条提示的混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),同时报告 整体准确率相对错误增加 (量化模型相比原始模型更频繁出错的程度)。

这些图表清楚地表明,Unsloth 的 Q4_K_M 量化版本比标准 Q4_K_M 表现更好。Q3_K_M 在 Live Code Bench v6 上表现理所当然地更差,但在 HumanEval 上却出人意料地比标准 Q4_K_M 好得多。 它似乎以最高效率运行,建议至少使用 Q4_K_M。

Qwen3-Coder-Next 基准测试

Qwen3-Coder-Next 是其规模下表现最好的模型,其性能可与活跃参数数量多 10–20 倍的模型相媲美。

基准
Qwen3-Coder-Next (80B)
DeepSeek-V3.2 (671B)
GLM-4.7 (358B)
MiniMax M2.1 (229B)

SWE-Bench Verified(配合 SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench Multilingual(配合 SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench Pro(配合 SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0(配合 Terminus-2 json)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

最后更新于

这有帮助吗?