IBM Granite 4.0

了解如何在 llama.cpp、Ollama 上使用 Unsloth GGUF 运行 IBM Granite-4.0，以及如何微调！

IBM 发布了包含 3 个规格的 Granite-4.0 模型，包括 Nano （350M 和 1B）， Micro （3B）， Tiny （7B/1B 活跃）和 Small （32B/9B 活跃）。在 15T 代币上训练，IBM 新的混合 (H) Mamba 架构使 Granite-4.0 模型运行更快且内存使用更低。

了解如何运行 Unsloth Granite-4.0 动态 GGUF 或对模型进行微调/RL。你可以微调 Granite-4.0 使用我们为支持代理用例提供的免费 Colab 笔记本。

运行教程微调教程

Unsloth Granite-4.0 上传：

动态 GGUF

动态 4 位 + FP8

16 位指令版

动态 4 位指令版：

FP8 动态：

你也可以查看我们的 Granite-4.0 集合以获取所有上传内容，包括动态 Float8 量化等。

Granite-4.0 模型说明：

Nano 和 H-Nano： 350M 和 1B 模型提供强大的指令跟随能力，支持先进的设备端和边缘 AI 以及研究/微调应用。
H-Small (MoE)： 面向企业的日常工作马，支持在入门级 GPU（如 L40S）上多会话长上下文（总 32B，活跃 9B）。
H-Tiny (MoE)： 快速、成本高效，适用于高吞吐量、低复杂度任务；为本地和边缘使用优化（总 7B，活跃 1B）。
H-Micro (Dense)： 轻量高效，适用于高吞吐量、低复杂度工作负载；理想的本地和边缘部署选择（总 3B）。
Micro (Dense)： 当 Mamba2 未完全受支持时的替代稠密选项（总 3B）。

运行 Granite-4.0 教程

⚙️ 推荐的推理设置

IBM 建议以下设置：

temperature=0.0, top_p=1.0, top_k=0

温度为 0.0
Top_K = 0
Top_P = 1.0
推荐的最小上下文：16,384
最大上下文长度窗口：131,072（128K 上下文）

聊天模板：

<|start_of_role|>system<|end_of_role|>你是一个乐于助人的助手。请确保回答专业、准确且安全。<|end_of_text|>
<|start_of_role|>user<|end_of_role|>请列出位于美国的一个 IBM 研究实验室。你只应输出其名称和地点。<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>Almaden 研究中心，圣何塞，加利福尼亚<|end_of_text|>

🦙 Ollama：运行 Granite-4.0 教程

安装 ollama 如果你还没有安装！

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

运行模型！注意如果失败你可以在另一个终端调用 ollama serve！我们在 params 的 Hugging Face 上传中包含了所有修复和建议参数（如 temperature 等）。你可以更改模型名称 'granite-4.0-h-small-GGUF' 为任何 Granite 模型，例如 'granite-4.0-h-micro:Q8_K_XL'。

ollama run hf.co/unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

📖 llama.cpp：运行 Granite-4.0 教程

获取最新的 llama.cpp 在此处的 GitHub。你也可以按下面的构建说明进行。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果你没有 GPU 或只想进行 CPU 推理。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，你可以如下操作：（:Q4_K_XL）是量化类型。你也可以通过 Hugging Face（第 3 点）下载。这与 ollama run

./llama.cpp/llama-cli \
    -hf unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

或通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer 之后）。你可以选择 Q4_K_M，或其他量化版本（如 BF16 全精度）。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/granite-4.0-h-small-GGUF",
    local_dir = "unsloth/granite-4.0-h-small-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"], # 用于 Q4_K_M
)

运行 Unsloth 的 Flappy Bird 测试
编辑 --threads 32 为 CPU 线程数量， --ctx-size 16384 为上下文长度（Granite-4.0 支持 128K 上下文长度！）， --n-gpu-layers 99 用于指定有多少层进行 GPU 卸载。如果你的 GPU 出现内存不足，请尝试调整。若仅使用 CPU 推理，请移除它。
用于对话模式：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/granite-4.0-h-small-GGUF/granite-4.0-h-small-UD-Q4_K_XL.gguf \
    --jinja \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.0 \
    --top-k 0 \
    --top-p 1.0

🐋 Docker：运行 Granite-4.0 教程

如果你已经有 Docker 桌面，所需做的就是运行下面的命令，完成后就可以了：

docker model pull hf.co/unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

🦥 在 Unsloth 中微调 Granite-4.0

Unsloth 现在支持所有 Granite 4.0 模型，包括 nano、micro、tiny 和 small，用于微调。训练速度提高 2 倍，显存使用减少 50%，并支持 6 倍更长的上下文长度。Granite-4.0 的 micro 和 tiny 可在 15GB VRAM 的 T4 GPU 中舒适运行。

Granite-4.0 免费微调笔记本
Granite-4.0-350M 微调笔记本

此笔记本训练模型成为理解客户互动的支持代理，包含分析和建议。该设置允许你训练一个能为支持代理提供实时帮助的机器人。

我们还展示了如何使用存储在 Google 表格中的数据来训练模型。

Unsloth 的 Granite-4.0 配置：

!pip install --upgrade unsloth
from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/granite-4.0-h-micro",
    max_seq_length = 2048,   # 上下文长度 - 可以更长，但会使用更多内存
    load_in_4bit = True,     # 4 位使用更少内存
    load_in_8bit = False,    # 稍微更准确，但使用 2 倍内存
    full_finetuning = False, # 我们现在有完整微调功能！
    # token = "hf_...",      # 如果使用受限模型则使用令牌
)

如果你使用的是旧版本 Unsloth 和/或在本地进行微调，请安装最新版本的 Unsloth：

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

上一页Magistral 下一页Llama 4

最后更新于19天前

这有帮助吗？

hashtag运行 Granite-4.0 教程

hashtag⚙️ 推荐的推理设置

hashtag🦙 Ollama：运行 Granite-4.0 教程

hashtag📖 llama.cpp：运行 Granite-4.0 教程

hashtag🐋 Docker：运行 Granite-4.0 教程

hashtag🦥 在 Unsloth 中微调 Granite-4.0