🌠Qwen3-Coder-Next：如何本地运行

在你的设备上本地运行 Qwen3-Coder-Next 的指南！

Qwen 发布了 Qwen3-Coder-Next，这是一款 80B MoE 模型（3B 活跃参数），具有 256K 上下文 用于快速的智能体式编码和本地使用。其性能可与活跃参数多出 10–20 倍的模型相媲美。

它可运行在 46GB RAM/VRAM/统一内存（8 位时为 85GB），采用非推理模式以实现超快代码响应。该模型在长程推理、复杂工具使用以及从执行失败中恢复方面表现出色。

2 月 19 日更新：在 llama.cpp 修复了解析之后，工具调用现在应该会更好。

新！查看量化基准测试用于我们的 Dynamic GGUF！

2 月 4 日： llama.cpp 修复了一个错误，纠正了以下计算： 向量化 key_gdiff。 这修复了之前的循环和输出问题。我们已更新 GGUFs——请 重新下载 和更新 llama.cpp 以获得更好的输出。

你还将学习如何在 Codex 和 Claude Code 上运行该模型。对于微调，Qwen3-Next-Coder 适合在 Unsloth 中单块 B200 GPU 上进行 bf16 LoRA。

Qwen3-Coder-Next Unsloth Dynamic GGUFs 运行： unsloth/Qwen3-Coder-Next-GGUF

运行 GGUF 教程 Codex 和 Claude Code FP8 vLLM 教程

⚙️ 使用指南

没有 46GB RAM 或统一内存？别担心，你可以运行我们更小的量化版本，比如 3-bit。最佳做法是让模型大小 = 你的计算资源总和（ 磁盘空间 + RAM + VRAM ≥ 量化大小）。 如果你的量化版本能够完全装入设备，预计可达到 20+ tokens/s。如果装不下，它仍然可以通过卸载方式运行，但速度会更慢。

为了获得最佳性能，Qwen 推荐以下设置：

Temperature = 1.0
Top_P = 0.95
Top_K = 40
Min_P = 0.01 （llama.cpp 的默认值是 0.05）
重复惩罚 = 禁用或 1.0

原生支持最高 262,144 上下文，但你可以将其设置为 32,768 个 tokens 以减少内存使用。

🖥️ 运行 Qwen3-Coder-Next

根据你的使用场景，你需要使用不同的设置。由于本指南使用 4-bit，因此你需要大约 46GB RAM/统一内存。我们建议至少使用 3-bit 精度以获得最佳性能。

2 月 4 日更新： llama.cpp 修复了一个错误，纠正了以下计算： 向量化 key_gdiff。 这修复了之前的循环和输出问题。我们已更新 GGUFs——请 重新下载 和更新 llama.cpp 以获得更好的输出。

注意：该模型仅支持非思考模式，不会在输出中生成 <think></think> 代码块。因此，指定 enable_thinking=False 已不再需要。

Llama.cpp 教程（GGUF）：

在 llama.cpp 中运行的说明（注意我们将使用 4 位以适配大多数设备）：

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

你可以直接从 Hugging Face 拉取。如果你的 RAM/VRAM 允许，可以将上下文增加到 256K。使用 --fit on 也会自动确定上下文长度。

你可以使用推荐参数： temperature=1.0, top_p=0.95, top_k=40

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-Coder-Next-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 --top-p 0.95 --min-p 0.01 --top-k 40

通过以下方式下载模型（安装完 pip install huggingface_hub）。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住，请参见 Hugging Face Hub，XET 调试

pip install -U huggingface_hub
hf download unsloth/Qwen3-Coder-Next-GGUF \
    --local-dir unsloth/Qwen3-Coder-Next-GGUF \
    --include "*UD-Q4_K_XL*"

然后在对话模式下运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-Coder-Next-GGUF/Qwen3-Coder-Next-UD-Q4_K_XL.gguf \
    --seed 3407 \\
    --temp 1.0 \
    --top-p 0.95 \\
    --min-p 0.01 \
    --top-k 40

此外，请按需调整 上下文窗口 按需，最多到 262,144

注意：该模型仅支持非思考模式，不会在输出中生成 <think></think> 代码块。因此，指定 enable_thinking=False 已不再需要。

🦙Llama-server 服务与部署

要将 Qwen3-Coder-Next 部署到生产环境，我们使用 llama-server 在一个新终端中，例如通过 tmux。然后，使用以下命令部署模型：

./llama.cpp/llama-server \\
    --model unsloth/Qwen3-Coder-Next-GGUF/Qwen3-Coder-Next-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3-Coder-Next" \
    --seed 3407 \\
    --temp 1.0 \
    --top-p 0.95 \\
    --min-p 0.01 \
    --top-k 40 \
    --port 8001 \\

然后在一个新终端中，在执行 pip install openai，我们可以运行该模型：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3-Coder-Next",
    messages = [{"role": "user", "content": "用 HTML 创建一个 Flappy Bird 游戏"},],
)
print(completion.choices[0].message.content)

输出如下：

这里是一个完整可运行的 Flappy Bird 游戏，包含在单个文件中。

我使用了 **HTML5 Canvas** 来绘图，使用 **JavaScript** 来实现物理效果（重力、碰撞检测和计分）。不需要外部图片或下载；游戏会用代码绘制小鸟和管道。

### 如何运行：
1.  复制下面的代码块。
2.  在你的电脑上创建一个名为 `game.html` 的新文件。
3.  将代码粘贴到该文件中并保存。
4.  双击 `game.html` 以在网页浏览器中打开。

```html
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>简单 Flappy Bird</title>
    <style>
        body {
            margin: 0;
            padding: 0;
            display: flex;
            flex-direction: column;
            justify-content: center;
            align-items: center;
            height: 100vh;
            background-color: #333;
            font-family: 'Courier New', Courier, monospace;
            color: white;
        }

        h1 {
            margin-bottom: 10px;
        }

        #game-container {
            position: relative;
            box-shadow: 0 0 20px rgba(0,0,0,0.5);
        }

        canvas {
            display: block;
            background-color: #70c5ce; /* 天蓝色 */
            border: 4px solid #000;
        }

        #ui-layer {
            position: absolute;
            top: 0;
            left: 0;
            width: 100%;
            height: 100%;
            pointer-events: none; /* 让点击穿透到 canvas */
            display: flex;
            flex-direction: column;
            justify-content: center;
            align-items: center;
            text-align: center;
        }

        .message {
            background: rgba(255, 255, 255, 0.8);
            padding: 20px;
            border-radius: 10px;
            color: #333;
        }

        #score-board {
            position: absolute;
            top: 20px;
            width: 100%;
            text-align: center;
            font-size: 40px;
            font-weight: bold;
            color: white;
            text-shadow: 2px 2px 0 #000;
            z-index: 10;
        }
    </style>
</head>
<body>

    <h1>Flappy Bird 克隆版</h1>
    
    <div id="game-container">
        <div id="score-board">0</div>
        <canvas id="birdCanvas" width="320" height="480"></canvas>
        
        <div id="ui-layer">
            <div id="start-screen" class="message">
                <h2>准备起飞了吗？</h2>
                <p>按 <strong>空格键</strong> 或 <strong>点击</strong> 来跳跃</p>
                <p>按空格键开始</p>
            </div>
            <div id="game-over-screen" class="message" style="display: none;">
                <h2>游戏结束</h2>
                <p>得分：<span id="final-score">0</span></p>
                <p>最高分：<span id="best-score">0</span></p>
                <p>按 <strong>空格键</strong> 重新开始</p>
            </div>
        </div>
    </div>

    <script>
        // --- 配置 ---
        const canvas = document.getElementById('birdCanvas');
        const ctx = canvas.getContext('2d');
        const scoreElement = document.getElementById('score-board');
        const startScreen = document.getElementById('start-screen');
        const gameOverScreen = document.getElementById('game-over-screen');
        const finalScoreSpan = document.getElementById('final-score');
        const bestScoreSpan = document.getElementById('best-score');

        // 游戏变量
        let frames = 0;
        let score = 0;
        let highScore = localStorage.getItem('flappyHighScore') || 0;
        let gameState = 'START'; // 开始、进行中、游戏结束
        const gravity = 0.25;
        const speed = 2; // 管道向左移动的速度

        // --- 小鸟对象 ---
        const bird = {
            x: 50,
            y: 150,
            width: 30,
            height: 30,
            velocity: 0,
            jumpStrength: 4.5,
            radius: 15,
            draw: function() {
                ctx.fillStyle = "#FFD700"; // 金色
                ctx.beginPath();
                ctx.arc(this.x + this.radius, this.y + this.radius, this.radius, 0, Math.PI * 2);
                ctx.fill();
                ctx.lineWidth = 2;
                ctx.stroke();

                // 眼睛
                ctx.fillStyle = "white";
                ctx.beginPath();
                ctx.arc(this.x + this.radius + 5, this.y + this.radius - 5, 5, 0, Math.PI * 2);
                ctx.fill();
                ctx.fillStyle = "black";
                ctx.beginPath();
                ctx.arc(this.x + this.radius + 7, this.y + this.radius - 5, 2, 0, Math.PI * 2);
                ctx.fill();
                
                // 嘴
                ctx.fillStyle = "orange";
                ctx.beginPath();
                ctx.moveTo(this.x + this.radius + 10, this.y + this.radius);
                ctx.lineTo(this.x + this.radius + 20, this.y + this.radius + 5);
                ctx.lineTo(this.x + this.radius + 10, this.y + this.radius + 10);
                ctx.fill();
                ctx.stroke();
            },
            update: function() {
                this.velocity += gravity;
                this.y += this.velocity;

                // 地面碰撞
                if (this.y + this.height >= canvas.height) {
                    this.y = canvas.height - this.height;
                    gameOver();
                }
                
                // 天花板碰撞（可选：防止飞出管道上方）
                if (this.y < 0) {
                    this.y = 0;
                    this.velocity = 0;
                }
            },
            jump: function() {
                this.velocity = -this.jumpStrength;
            },
            reset: function() {
                this.y = 150;
                this.velocity = 0;
            }
        };

        // --- 管道数组 ---
        const pipes = {
            position: [],
            width: 50,
            gap: 120, // 上下管道之间的间隙
            dx: 2, // 移动速度

            draw: function() {
                for (let i = 0; i < this.position.length; i++) {
                    let p = this.position[i];
                    let topY = p.y;
                    let bottomY = p.y + this.gap;

                    ctx.fillStyle = "#228B22"; // 森林绿

                    // 上管道
                    ctx.fillRect(p.x, 0, this.width, topY);
                    ctx.strokeRect(p.x, 0, this.width, topY);

                    // 下管道
                    ctx.fillRect(p.x, bottomY, this.width, canvas.height - bottomY);
                    ctx.strokeRect(p.x, bottomY, this.width, canvas.height - bottomY);
                }
            },

            update: function() {
                // 每 120 帧添加一个新管道（约 2 秒）
                if (frames % 120 === 0) {
                    // 上管道的随机高度
                    // 最小高度 50，最大高度 canvas - gap - 50
                    let maxY = canvas.height - this.gap - 50;
                    let randomY = Math.floor(Math.random() * (maxY - 50 + 1) + 50);
                    
                    this.position.push({
                        x: canvas.width,
                        y: randomY
                    });
                }

                for (let i = 0; i < this.position.length; i++) {
                    let p = this.position[i];
                    p.x -= this.dx;

                    // 碰撞检测
                    // 逻辑：检查小鸟的 X 是否在管道 X 范围内
                    if (bird.x + bird.width > p.x && bird.x < p.x + this.width) {
                        // 逻辑：检查小鸟的 Y 是否撞到上管道或下管道
                        if (bird.y < p.y || bird.y + bird.height > p.y + this.gap) {
                            gameOver();
                        }
                    }

                    // 计分更新（当小鸟通过管道时）
                    if (p.x + this.width < bird.x && !p.passed) {
                        score++;
                        scoreElement.innerText = score;
                        p.passed = true;
                    }

                    // 移除已经移出屏幕的管道
                    if (p.x + this.width <= 0) {
                        this.position.shift();
                        // 因为数组长度改变，所以将 i 减 1
                        i--; 
                    }
                }
            },
            
            reset: function() {
                this.position = [];
            }
        };

        // --- 背景（云/草地）---
        const background = {
            draw: function() {
                // 绘制草地
                ctx.fillStyle = "#7cfc00"; // 草坪绿
                ctx.fillRect(0, canvas.height - 20, canvas.width, 20);
                ctx.beginPath();
                ctx.moveTo(0, canvas.height - 20);
                ctx.lineTo(canvas.width, canvas.height - 20);
                ctx.stroke();
            }
        };

        // --- 游戏控制函数 ---

        function loop() {
            // 清空画布
            ctx.clearRect(0, 0, canvas.width, canvas.height);

            // 绘制背景
            background.draw();

            if (gameState === 'START') {
                bird.draw();
                // 绘制地面线
                ctx.fillStyle = "#ded895";
                ctx.fillRect(0, canvas.height - 10, canvas.width, 10);
            } 
            else if (gameState === 'PLAYING') {
                bird.update();
                bird.draw();
                pipes.update();
                pipes.draw();
                frames++;
            } 
            else if (gameState === 'GAMEOVER') {
                pipes.draw();
                bird.draw();
                // 不更新帧数或位置，只是冻结
            }

            requestAnimationFrame(loop);
        }

        function startGame() {
            gameState = 'PLAYING';
            startScreen.style.display = 'none';
            gameOverScreen.style.display = 'none';
            score = 0;
            frames = 0;
            scoreElement.innerText = score;
            bird.reset();
            pipes.reset();
        }

        function gameOver() {
            gameState = 'GAMEOVER';
            
            // 更新最高分
            if (score > highScore) {
                highScore = score;
                localStorage.setItem('flappyHighScore', highScore);
            }

            finalScoreSpan.innerText = score;
            bestScoreSpan.innerText = highScore;
            gameOverScreen.style.display = 'block';
        }

        // --- 输入处理 ---

        function handleInput(e) {
            // 阻止空格键默认滚动行为
            if (e.type === 'keydown' && e.code === 'Space') {
                e.preventDefault();
            }

            if (e.code === 'Space' || e.type === 'mousedown' || e.type === 'touchstart') {
                switch (gameState) {
                    case 'START':
                        startGame();
                        bird.jump();
                        break;
                    case 'PLAYING':
                        bird.jump();
                        break;
                    case 'GAMEOVER':
                        startGame();
                        bird.jump();
                        break;
                }
            }
        }

        window.addEventListener('keydown', handleInput);
        canvas.addEventListener('mousedown', handleInput);
        canvas.addEventListener('touchstart', handleInput);

        // 初始化
        loop();

    </script>
</body>
</html>
```

### 此版本的特性：
1.  **物理效果：** 真实的重力和跳跃机制。
2.  **碰撞检测：** 如果碰到管道、地面或天花板，游戏结束。
3.  **计分系统：** 每通过一个管道获得 1 分。
4.  **最高分：** 使用浏览器的本地存储，即使刷新页面也能记住你的最高分。
5.  **响应式控制：** 可使用 **空格键**、**鼠标点击** 或 **触摸**（适用于移动设备）。
6.  **图形：** 小鸟通过代码绘制（包括眼睛和嘴），管道带有边框，因此不会出现损坏的图片链接。

我们提取了 HTML 并运行了它，生成的示例 Flappy Bird 游戏运行得很好！

👾 OpenAI Codex 和 Claude Code

要通过本地编码代理式工作负载运行模型，你可以按照我们的指南。只需将模型名称 'GLM-4.7-Flash' 改为 'Qwen3-Coder-Next'，并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用 llama-server 我们刚刚设置好的那个。

Claude Code

OpenAI Codex

例如，按照 Claude Code 的说明后，你会看到：

然后我们可以问比如 创建一个国际象棋的 Python 游戏 :

如果你看到 API 错误：400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 这意味着你需要增加上下文长度，或者查看 Qwen3-Coder-Next

🎱 vLLM 中的 FP8 Qwen3-Coder-Next

你现在可以使用我们新的 FP8 Dynamic 量化版本用于高性能且快速的推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 改为与你的 CUDA 版本相对应的地址，可通过以下命令查看： nvidia-smi - 仅 cu129 和 cu130 当前受支持。

如果使用 vLLM / SGLang，试试我们的 FP8-Dynamic 量化版本，它可以将吞吐量提升 25% 或更多！查看 Qwen3-Coder-Next

# 如果你还没有安装 uv，请安装它以便更快地安装环境
curl -LsSf https://astral.sh/uv/install.sh | sh

# 创建一个新的 Python 环境 - 如果你想修改整个系统则不需要
uv venv unsloth_fp8 --python 3.12 --seed
source unsloth_fp8/bin/activate

uv pip install --upgrade --force-reinstall vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly/cu130
uv pip install --upgrade --force-reinstall git+https://github.com/huggingface/transformers.git
uv pip install --force-reinstall numba

然后启动服务 Unsloth 的动态 FP8 版本的模型。你还可以通过添加以下参数启用 FP8，以将 KV cache 内存使用量减少 50%： --kv-cache-dtype fp8 我们在 4 张 GPU 上运行了它，但如果你只有 1 张 GPU，请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 ，或者移除该参数。使用 tmux 在新的终端中启动下面的命令，然后按 CTRL+B+D - 使用 tmux attach-session -t0 返回。

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:False
CUDA_VISIBLE_DEVICES='0,1,2,3' vllm serve unsloth/Qwen3-Coder-Next-FP8-Dynamic \
    --served-model-name unsloth/Qwen3-Coder-Next \
    --tensor-parallel-size 4 \
    --tool-call-parser qwen3_coder \
    --enable-auto-tool-choice \
    --dtype bfloat16 \
    --seed 3407 \\
    --max-model-len 200000 \
    --gpu-memory-utilization 0.93 \
    --port 8001

你应该会看到类似下面的内容。查看 Qwen3-Coder-Next 了解如何使用 OpenAI API 和工具调用真正使用 Qwen3-Coder-Next——这对 vLLM 和 llama-server 都有效。

🔧使用 Qwen3-Coder-Next 进行工具调用

在一个新终端中，我们创建一些工具，例如加 2 个数、执行 Python 代码、执行 Linux 函数等等：

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "很久很久以前，在一个很远很远的星系里...",
        "有两个朋友，他们喜欢树懒和代码...",
        "世界即将终结，因为每只树懒都进化出了超人般的智慧...",
        "其中一个朋友并不知道，另一个朋友不小心写了一个让树懒进化的程序...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "无法执行 'rm, sudo, dd, chmod' 命令，因为它们很危险"
        print(msg); return msg
    print(f"正在执行终端命令 `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"命令失败：{e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "添加两个数字。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字。",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "将两个数字相乘。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字。",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "减去两个数字。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字。",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "写一个随机故事。",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "在终端中执行操作。",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "你希望启动的命令，例如 `ls`、`rm` 等。",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "调用一个 Python 解释器，执行将要运行的 Python 代码。",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "要运行的 Python 代码",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

然后我们使用下面的函数（复制、粘贴并执行），它们会自动解析函数调用，并针对任何模型调用 OpenAI 端点：

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 1.0,
    top_p = 0.95,
    top_k = 40,
    min_p = 0.01,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Using model = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Current messages = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

下面我们将展示多种针对不同用例的工具调用运行方法：

执行生成的 Python 代码

messages = [{
    "role": "user",
    "content": [{"type": "text", "text": "用 Python 创建一个斐波那契函数并求 fib(20)。"}],
}]
unsloth_inference(messages, temperature = 1.0, top_p = 0.95, top_k = 40, min_p = 0.00)

执行任意终端函数

messages = [{
    "role": "user",
    "content": [{"type": "text", "text": "把 'I'm a happy Sloth' 写入文件，然后再打印给我看。"}],
}]
messages = unsloth_inference(messages, temperature = 1.0, top_p = 1.0, top_k = 40, min_p = 0.00)

我们确认文件已创建，而且确实创建了！

查看 Tool Calling Guide 查看更多工具调用示例。

📐基准测试

GGUF 量化基准测试

以下是由第三方评估者进行的量化基准测试。

这些基准由第三方贡献者在 Aider Polyglot 服务器上运行，将 Unsloth GGUF 量化版本在 Aider Polyglot 基准测试中进行比较（分数 vs. VRAM）。值得注意的是，3-bit UD-IQ3_XXS 量化结果接近 BF16 性能，这使得 3-bit 成为一个合理的最低选择 适用于大多数用例。

NVFP4 略优于 BF16 基准参考，这可能由于运行次数有限导致采样噪声；不过，对于以下内容，整体趋势： 1-bit → 2-bit → 3-bit → 6-bit 稳步提升，表明该基准捕捉到了 Unsloth GGUF 之间有意义的质量差异。 非 Unsloth FP8 似乎比两者都表现更差 UD-IQ3_XXS 和 UD-Q6_K_XL，这可能反映了量化流程中的差异，或者同样是由于采样不足。

Benjamin Marie（第三方）进行了基准测试 Qwen3-Coder-Next 在一个 750 条提示的混合套件 （LiveCodeBench v6、MMLU Pro、GPQA、Math500），同时报告 整体准确率 和 相对错误增加 （量化模型相比原始模型更频繁出错的程度）。

这些图表清楚地表明，Unsloth 的 Q4_K_M 量化版本比标准 Q4_K_M 表现更好。Q3_K_M 在 Live Code Bench v6 上表现理所当然地更差，但在 HumanEval 上却出人意料地比标准 Q4_K_M 好得多。它似乎以最高效率运行，建议至少使用 Q4_K_M。

Qwen3-Coder-Next 基准测试

Qwen3-Coder-Next 是其规模下表现最好的模型，其性能可与活跃参数数量多 10–20 倍的模型相媲美。

基准

Qwen3-Coder-Next (80B)

DeepSeek-V3.2 (671B)

GLM-4.7 (358B)

MiniMax M2.1 (229B)

SWE-Bench Verified（配合 SWE-Agent）

70.6

70.2

74.2

74.8

SWE-Bench Multilingual（配合 SWE-Agent）

62.8

62.3

63.7

66.2

SWE-Bench Pro（配合 SWE-Agent）

44.3

40.9

40.6

34.6

Terminal-Bench 2.0（配合 Terminus-2 json）

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

上一页NVIDIA Nemotron 3 Super 下一页MiniMax-M2.5

最后更新于1天前

这有帮助吗？

hashtag⚙️ 使用指南

hashtag🖥️ 运行 Qwen3-Coder-Next

hashtagLlama.cpp 教程（GGUF）：

hashtag🦙Llama-server 服务与部署

hashtag👾 OpenAI Codex 和 Claude Code

hashtag🎱 vLLM 中的 FP8 Qwen3-Coder-Next

hashtag🔧使用 Qwen3-Coder-Next 进行工具调用

hashtag执行生成的 Python 代码

hashtag执行任意终端函数

hashtag📐基准测试

hashtagGGUF 量化基准测试

hashtagQwen3-Coder-Next 基准测试

⚙️ 使用指南

🖥️ 运行 Qwen3-Coder-Next

Llama.cpp 教程（GGUF）：

🦙Llama-server 服务与部署

👾 OpenAI Codex 和 Claude Code

🎱 vLLM 中的 FP8 Qwen3-Coder-Next

🔧使用 Qwen3-Coder-Next 进行工具调用

执行生成的 Python 代码

执行任意终端函数

📐基准测试

GGUF 量化基准测试

Qwen3-Coder-Next 基准测试