🧩NVIDIA Nemotron 3 Nano - 运行指南

在你的设备上本地运行并微调 NVIDIA Nemotron 3 Nano！

NVIDIA 发布 Nemotron-3-Nano-4B，一款 4B 开放式混合 MoE 模型，遵循 Nemotron-3-Super-120B-A12B 和 Nemotron-3-Nano-30B-A3B。Nemotron 家族专为快速、准确的编程、数学和智能体工作负载而设计。它们具有 100 万 token 上下文 窗口，并在推理、聊天和吞吐量基准测试中具有竞争力。

Nemotron-3-Nano-4B 可运行在 5GB 的 RAM、VRAM 或统一内存上。Nemotron-3-Nano-30A3B 可运行在 24GB RAM 上。现在可通过 Unsloth在本地对 Nemotron 3 进行微调。感谢 NVIDIA 为 Unsloth 提供首日支持。

Nemotron-3-Nano-4B Nemotron-3-Nano-30B-A3B 微调 Nemotron 3

Nemotron-3-Nano-4B-GGUF

Nemotron-3-Nano-30B-A3B-GGUF

⚙️ 使用指南

NVIDIA 建议以下推理设置：

通用聊天/指令（默认）：

temperature = 1.0
top_p = 1.0

工具调用用例：

temperature = 0.6
top_p = 0.95

对于大多数本地使用，请设置：

max_new_tokens = 32,768 为 262,144 适用于最长 100 万 token 的标准提示
可根据你的 RAM/VRAM 允许情况，提高以进行深度推理或长文本生成。

聊天模板格式可通过以下方式找到：

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

由于该模型使用 NoPE 训练，你只需要更改 max_position_embeddings。该模型不使用显式位置嵌入，因此不需要 YaRN。

Nemotron 3 聊天模板格式：

Nemotron 3 使用 <think> 对应 token ID 12，以及 </think> 对应 token ID 13 进行推理。使用 --special 查看 llama.cpp 的 token。你可能还需要 --verbose-prompt 以查看 <think> ，因为它是预先附加的。

<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n

🖥️ 运行 Nemotron-3-Nano-4B

根据你的使用场景，你需要使用不同的设置。一些 GGUF 体积看起来相近，是因为模型架构（如 gpt-oss）的维度不能被 128 整除，因此部分参数无法量化到更低比特。

该模型的 4 位版本需要约 3GB RAM。8 位需要 5GB。

🦥 Unsloth Studio 指南

在本教程中，我们将使用 Unsloth Studio，这是我们用于运行和训练 LLM 的新网页界面。使用 Unsloth Studio，你可以在以下平台本地运行模型： Mac、Windows以及 Linux，并且：

搜索、下载、运行 GGUF 和 safetensor 模型
并排比较模型
自我修复 工具调用 + 网页搜索
代码执行 （Python、Bash）
自动推理参数调优（温度、top-p 等）
训练 LLM 速度快 2 倍，VRAM 占用减少 70%

安装 Unsloth

MacOS、Linux、WSL：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell：

irm https://unsloth.ai/install.ps1 | iex

设置 Unsloth Studio（一次性）

设置过程会自动安装 Node.js（通过 nvm）、构建前端、安装所有 Python 依赖，并构建带 CUDA 支持的 llama.cpp。

首次安装可能需要 5-10 分钟。这是正常的，因为 llama.cpp 需要编译二进制文件。请不要取消。

WSL 用户： 系统会提示你输入 sudo 密码以安装构建依赖项（cmake, git, libcurl4-openssl-dev).

启动 Unsloth

MacOS、Linux、WSL、Windows：

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开 http://localhost:8888 。

搜索并下载 Nemotron-3-Nano-4B

首次启动时，你需要创建一个密码来保护你的账户，并稍后再次登录。随后你会看到一个简短的引导向导，用于选择模型、数据集和基本设置。你可以随时跳过。

然后转到 Studio Chat 标签页，在搜索栏中搜索 Nemotron-3-Nano-4B，并下载你想要的模型和量化版本。

运行 Nemotron-3-Nano-4B

在使用 Unsloth Studio 时，推理参数应会自动设置，不过你仍然可以手动更改。你还可以编辑上下文长度、聊天模板和其他设置。

更多信息请查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程：

在 llama.cpp 中运行的说明（我们将使用 8 位以获得接近全精度的效果）：

获取最新的 llama.cpp 在 GitHub 上这里。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

你可以直接从 Hugging Face 拉取。你可以根据 RAM/VRAM 允许情况，将上下文增加到 100 万。

按此执行 通用指令 用例：

./llama.cpp/llama-cli \\
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \\
    --ctx-size 16384 \\
    --temp 1.0 --top-p 1.0

按此执行 工具调用 用例：

./llama.cpp/llama-cli \\
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \\
    --ctx-size 32768 \\
    --temp 0.6 --top-p 0.95

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer 之后）。你可以选择 Q8_0 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    allow_patterns = ["*Q8_0*"],
)

然后以对话模式运行模型：

./llama.cpp/llama-cli \\
    --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \\
    --ctx-size 16384 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95

此外，请按需调整 上下文窗口 。确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 100 万可能触发 CUDA OOM 并崩溃，因此默认值是 262,144。

🖥️ 运行 Nemotron-3-Nano-30B-A3B

该模型的 4 位版本需要约 24GB RAM。8 位需要 36GB。

🦥 Unsloth Studio 指南

搜索、下载、运行 GGUF 和 safetensor 模型
并排比较模型
自我修复 工具调用 + 网页搜索
代码执行 （Python、Bash）
自动推理参数调优（温度、top-p 等）
训练 LLM 速度快 2 倍，VRAM 占用减少 70%

安装 Unsloth

MacOS、Linux、WSL：

curl -fsSL https://unsloth.ai/main/install.sh | sh

Windows PowerShell：

irm https://unsloth.ai/install.ps1 | iex

设置 Unsloth Studio（一次性）

设置过程会自动安装 Node.js（通过 nvm）、构建前端、安装所有 Python 依赖，并构建带 CUDA 支持的 llama.cpp。

首次安装可能需要 5-10 分钟。这是正常的，因为 llama.cpp 需要编译二进制文件。请不要取消。

WSL 用户： 系统会提示你输入 sudo 密码以安装构建依赖项（cmake, git, libcurl4-openssl-dev).

启动 Unsloth

MacOS、Linux、WSL：

source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888

Windows PowerShell：

& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

然后在浏览器中打开 http://localhost:8888 。

搜索并下载 Nemotron-3-Nano-30B-A3B

然后转到 Studio Chat 标签页，在搜索栏中搜索 Nemotron-3-Nano-4B，并下载你想要的模型和量化版本。

运行 Nemotron-3-Nano-30B-A3B

在使用 Unsloth Studio 时，推理参数应会自动设置，不过你仍然可以手动更改。你还可以编辑上下文长度、聊天模板和其他设置。

更多信息请查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程：

在 llama.cpp 中运行的说明（注意我们将使用 4 位以适配大多数设备）：

获取最新的 llama.cpp 在 GitHub 上这里。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 如果你没有 GPU，或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

你可以直接从 Hugging Face 拉取。你可以根据 RAM/VRAM 允许情况，将上下文增加到 100 万。

按此执行 通用指令 用例：

./llama.cpp/llama-cli \\
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 32768 \\
    --temp 1.0 --top-p 1.0

按此执行 工具调用 用例：

./llama.cpp/llama-cli \\
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 32768 \\
    --temp 0.6 --top-p 0.95

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer 之后）。你可以选择 UD-Q4_K_XL 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

然后以对话模式运行模型：

./llama.cpp/llama-cli \\
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \\
    --ctx-size 16384 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95

此外，请按需调整 上下文窗口 。确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 100 万可能触发 CUDA OOM 并崩溃，因此默认值是 262,144。

🦥 微调 Nemotron 3 和 RL

Unsloth 现在支持所有 Nemotron 模型的微调，包括 Nemotron 3 Super 和 Nano。

4B 模型可以放在免费的 Colab GPU 上运行，但 30B 模型放不下。我们仍然为你准备了一个 80GB A100 Colab 笔记本，可用于微调。Nemotron 3 Nano 的 16 位 LoRA 微调将使用大约 60GB VRAM:

Nemotron-3-Nano-30B-A3B SFT LoRA 笔记本

Google Colabcolab.research.google.com

在微调 MoE 时——可能不太适合微调路由层，所以我们默认禁用了它。如果你想保留其推理能力（可选），可以使用直接回答和思维链示例的混合。数据集中至少使用 75% 推理和 25% 非推理以使模型保留其推理能力。

✨强化学习 + NeMo Gym

我们与开源的 NVIDIA NeMo Gym 团队合作，以推动 RL 环境的普及。我们的合作实现了在单轮 rollout 下对多个关注领域进行 RL 训练，包括数学、编程、工具使用等，使用来自 NeMo Gym 的训练环境和数据集：

NeMo Gym 数独强化学习笔记本

Google Colabcolab.research.google.com

NeMo Gym 多环境强化学习笔记本

Google Colabcolab.research.google.com

另请查看我们最新的合作指南，该指南已发布在 NVIDIA 官方开发者博客上：

如何使用 Unsloth 在 NVIDIA GPU 上微调 LLM

How to Fine-Tune an LLM on NVIDIA GPUs With UnslothNVIDIA Blog

🦙Llama-server 服务与部署

要将 Nemotron 3 部署到生产环境，我们使用 llama-server 在一个新终端中，例如通过 tmux，使用以下命令部署模型：

./llama.cpp/llama-server \\
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \\
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \\
    --prio 3 \\
    --min_p 0.01 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --ctx-size 16384 \\
    --port 8001

运行上述命令后，你将得到：

然后在新终端中，在执行 pip install openai之后，执行：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

将打印

用户提出一个简单问题："What is 2+2?" 答案是 4。请给出答案。

2 + 2 = 4.

基准测试

Nemotron-3-Nano-4B 是同等规模中性能最好的模型，包括吞吐量。

Nemotron-3-Nano-30B-A3B 是所有基准测试中性能最好的模型，包括吞吐量。

上一页Fine-tune Qwen3.5 下一页NVIDIA Nemotron 3 Super

最后更新于1天前

这有帮助吗？

hashtag⚙️ 使用指南

hashtagNemotron 3 聊天模板格式：

hashtag🖥️ 运行 Nemotron-3-Nano-4B

hashtag🦥 Unsloth Studio 指南

hashtag安装 Unsloth

hashtag设置 Unsloth Studio（一次性）

hashtag启动 Unsloth

hashtag搜索并下载 Nemotron-3-Nano-4B

hashtag运行 Nemotron-3-Nano-4B

hashtagLlama.cpp 教程：

hashtag🖥️ 运行 Nemotron-3-Nano-30B-A3B

hashtag🦥 Unsloth Studio 指南

hashtag安装 Unsloth

hashtag设置 Unsloth Studio（一次性）

hashtag启动 Unsloth

hashtag搜索并下载 Nemotron-3-Nano-30B-A3B

hashtag运行 Nemotron-3-Nano-30B-A3B

hashtagLlama.cpp 教程：

hashtag🦥 微调 Nemotron 3 和 RL

hashtag✨强化学习 + NeMo Gym

hashtag如何使用 Unsloth 在 NVIDIA GPU 上微调 LLMarrow-up-right

hashtag🦙Llama-server 服务与部署

hashtag基准测试

⚙️ 使用指南

Nemotron 3 聊天模板格式：

🖥️ 运行 Nemotron-3-Nano-4B

🦥 Unsloth Studio 指南

安装 Unsloth

设置 Unsloth Studio（一次性）

启动 Unsloth

搜索并下载 Nemotron-3-Nano-4B

运行 Nemotron-3-Nano-4B

Llama.cpp 教程：

🖥️ 运行 Nemotron-3-Nano-30B-A3B

🦥 Unsloth Studio 指南

安装 Unsloth

设置 Unsloth Studio（一次性）

启动 Unsloth

搜索并下载 Nemotron-3-Nano-30B-A3B

运行 Nemotron-3-Nano-30B-A3B

Llama.cpp 教程：

🦥 微调 Nemotron 3 和 RL

✨强化学习 + NeMo Gym

如何使用 Unsloth 在 NVIDIA GPU 上微调 LLM

🦙Llama-server 服务与部署

基准测试