🧩NVIDIA Nemotron 3 Nano - 运行指南

在你的设备上本地运行并微调 NVIDIA Nemotron 3 Nano!

NVIDIA 发布 Nemotron-3-Nano-4B,一款 4B 开放式混合 MoE 模型,遵循 Nemotron-3-Super-120B-A12B 和 Nemotron-3-Nano-30B-A3B。Nemotron 家族专为快速、准确的编程、数学和智能体工作负载而设计。它们具有 100 万 token 上下文 窗口,并在推理、聊天和吞吐量基准测试中具有竞争力。

Nemotron-3-Nano-4B 可运行在 5GB 的 RAM、VRAM 或统一内存上。Nemotron-3-Nano-30A3B 可运行在 24GB RAM 上。现在可通过 Unslotharrow-up-right在本地对 Nemotron 3 进行微调。感谢 NVIDIA 为 Unsloth 提供首日支持。

Nemotron-3-Nano-4BNemotron-3-Nano-30B-A3B微调 Nemotron 3

⚙️ 使用指南

NVIDIA 建议以下推理设置:

通用聊天/指令(默认):

  • temperature = 1.0

  • top_p = 1.0

工具调用用例:

  • temperature = 0.6

  • top_p = 0.95

对于大多数本地使用,请设置:

  • max_new_tokens = 32,768262,144 适用于最长 100 万 token 的标准提示

  • 可根据你的 RAM/VRAM 允许情况,提高以进行深度推理或长文本生成。

聊天模板格式可通过以下方式找到:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 聊天模板格式:

circle-info

Nemotron 3 使用 <think> 对应 token ID 12,以及 </think> 对应 token ID 13 进行推理。使用 --special 查看 llama.cpp 的 token。你可能还需要 --verbose-prompt 以查看 <think> ,因为它是预先附加的。

🖥️ 运行 Nemotron-3-Nano-4B

根据你的使用场景,你需要使用不同的设置。一些 GGUF 体积看起来相近,是因为模型架构(如 gpt-oss)的维度不能被 128 整除,因此部分参数无法量化到更低比特。

该模型的 4 位版本需要约 3GB RAM。8 位需要 5GB。

🦥 Unsloth Studio 指南

在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新网页界面。使用 Unsloth Studio,你可以在以下平台本地运行模型: Mac、Windows以及 Linux,并且:

1

安装 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

2

设置 Unsloth Studio(一次性)

设置过程会自动安装 Node.js(通过 nvm)、构建前端、安装所有 Python 依赖,并构建带 CUDA 支持的 llama.cpp。

circle-exclamation
circle-info

WSL 用户: 系统会提示你输入 sudo 密码以安装构建依赖项(cmake, git, libcurl4-openssl-dev).

3

启动 Unsloth

MacOS、Linux、WSL、Windows:

然后在浏览器中打开 http://localhost:8888

4

搜索并下载 Nemotron-3-Nano-4B

首次启动时,你需要创建一个密码来保护你的账户,并稍后再次登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过。

然后转到 Studio Chat 标签页,在搜索栏中搜索 Nemotron-3-Nano-4B,并下载你想要的模型和量化版本。

5

运行 Nemotron-3-Nano-4B

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你还可以编辑上下文长度、聊天模板和其他设置。

更多信息请查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程:

在 llama.cpp 中运行的说明(我们将使用 8 位以获得接近全精度的效果):

1

获取最新的 llama.cppGitHub 上这里arrow-up-right。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON-DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

你可以直接从 Hugging Face 拉取。你可以根据 RAM/VRAM 允许情况,将上下文增加到 100 万。

按此执行 通用指令 用例:

按此执行 工具调用 用例:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 Q8_0 或其他量化版本。

4

然后以对话模式运行模型:

此外,请按需调整 上下文窗口 。确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 100 万可能触发 CUDA OOM 并崩溃,因此默认值是 262,144。

🖥️ 运行 Nemotron-3-Nano-30B-A3B

根据你的使用场景,你需要使用不同的设置。一些 GGUF 体积看起来相近,是因为模型架构(如 gpt-oss)的维度不能被 128 整除,因此部分参数无法量化到更低比特。

该模型的 4 位版本需要约 24GB RAM。8 位需要 36GB。

🦥 Unsloth Studio 指南

在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新网页界面。使用 Unsloth Studio,你可以在以下平台本地运行模型: Mac、Windows以及 Linux,并且:

1

安装 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

2

设置 Unsloth Studio(一次性)

设置过程会自动安装 Node.js(通过 nvm)、构建前端、安装所有 Python 依赖,并构建带 CUDA 支持的 llama.cpp。

circle-exclamation
circle-info

WSL 用户: 系统会提示你输入 sudo 密码以安装构建依赖项(cmake, git, libcurl4-openssl-dev).

3

启动 Unsloth

MacOS、Linux、WSL:

Windows PowerShell:

然后在浏览器中打开 http://localhost:8888

4

搜索并下载 Nemotron-3-Nano-30B-A3B

首次启动时,你需要创建一个密码来保护你的账户,并稍后再次登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过。

然后转到 Studio Chat 标签页,在搜索栏中搜索 Nemotron-3-Nano-4B,并下载你想要的模型和量化版本。

5

运行 Nemotron-3-Nano-30B-A3B

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你还可以编辑上下文长度、聊天模板和其他设置。

更多信息请查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程:

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub 上这里arrow-up-right。你也可以按照下面的构建说明进行操作。将 -DGGML_CUDA=ON-DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

2

你可以直接从 Hugging Face 拉取。你可以根据 RAM/VRAM 允许情况,将上下文增加到 100 万。

按此执行 通用指令 用例:

按此执行 工具调用 用例:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 UD-Q4_K_XL 或其他量化版本。

4

然后以对话模式运行模型:

此外,请按需调整 上下文窗口 。确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 100 万可能触发 CUDA OOM 并崩溃,因此默认值是 262,144。

circle-info

Nemotron 3 使用 <think> 对应 token ID 12,以及 </think> 对应 token ID 13 进行推理。使用 --special 查看 llama.cpp 的 token。你可能还需要 --verbose-prompt 以查看 <think> ,因为它是预先附加的。

🦥 微调 Nemotron 3 和 RL

Unsloth 现在支持所有 Nemotron 模型的微调,包括 Nemotron 3 Super 和 Nano。

4B 模型可以放在免费的 Colab GPU 上运行,但 30B 模型放不下。我们仍然为你准备了一个 80GB A100 Colab 笔记本,可用于微调。Nemotron 3 Nano 的 16 位 LoRA 微调将使用大约 60GB VRAM:

在微调 MoE 时——可能不太适合微调路由层,所以我们默认禁用了它。如果你想保留其推理能力(可选),可以使用直接回答和思维链示例的混合。数据集中至少使用 75% 推理25% 非推理 以使模型保留其推理能力。

强化学习 + NeMo Gym

我们与开源的 NVIDIA NeMo Gymarrow-up-right 团队合作,以推动 RL 环境的普及。我们的合作实现了在单轮 rollout 下对多个关注领域进行 RL 训练,包括数学、编程、工具使用等,使用来自 NeMo Gym 的训练环境和数据集:

circle-check

🦙Llama-server 服务与部署

要将 Nemotron 3 部署到生产环境,我们使用 llama-server 在一个新终端中,例如通过 tmux,使用以下命令部署模型:

运行上述命令后,你将得到:

然后在新终端中,在执行 pip install openai之后,执行:

将打印

基准测试

Nemotron-3-Nano-4B 是同等规模中性能最好的模型,包括吞吐量。

Nemotron-3-Nano-30B-A3B 是所有基准测试中性能最好的模型,包括吞吐量。

最后更新于

这有帮助吗?