🦥Unsloth 文档

Unsloth 是一个用于运行和训练模型的开源框架。

Unsloth 让你能在自己的本地硬件上运行和训练 AI 模型。

我们的文档将指导你在本地运行和训练自己的模型。

开始使用我们的 GitHub

Unsloth Studio 介绍

一个新的开源、无需编码的网页 UI，用于训练和运行 LLM。

使用 Unsloth Studio 运行模型

在你的本地 Mac、Windows 和 Linux 上运行 GGUF 模型。

Qwen3.5

全新的 Qwen3.5 Small 和 Medium LLM 已经到来！

NVIDIA Nemotron 3

运行 NVIDIA 推出的全新 4B 和 120B 模型。

更快的 MoE 来了！

以更少的显存将 MoE LLM 训练速度提升 12 倍。

Claude Code 与 Codex

学习通过 Claude 和 OpenAI 运行本地 LLM。

Qwen3-Coder-Next

运行并微调全新的 80B 编程模型。

GLM-4.7-Flash

运行并微调用于智能体编程的 30B 模型。

🧬Fine-tuning Guide 📒Unsloth 笔记本

🔮All Our Models 🚀Complete LLM Directory

🦥 为什么选择 Unsloth？

我们直接与以下团队合作： gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1-3 和 Phi-4，在这些项目中我们 修复了关键漏洞 ，从而大幅提升了模型准确率。例如 Andrej Karpathy 曾经称赞过我们的工作.
Unsloth 简化了本地训练、推理、数据和部署
Unsloth 支持 500+ 个模型的推理和训练：视觉, TTS, 嵌入, RL

⭐ 功能

Unsloth 让你可以运行和训练文本模型，音频, 嵌入, 视觉以及更多模型。Unsloth 为推理和训练提供了许多关键功能：

推理

搜索 + 下载 + 运行任何模型，例如 GGUF、LoRA 适配器、safetensors。
自愈式工具调用 / 网络搜索，并调用与 OpenAI 兼容的 API。
自动推理参数调优并编辑聊天模板。
导出或保存你的模型为 GGUF、16 位 safetensor 等格式。
并排比较输出来自两个不同模型的输出。

训练

训练并 RL 用约 70% 更少的显存，让 500+ 个模型的速度提升约 2 倍（且不损失准确率）
支持全量微调、预训练、4 位、16 位和 FP8 训练。
自动创建数据集可从 PDF、CSV、DOCX 文件生成。在可视化节点工作流中编辑数据。
可观测性：实时监控训练，跟踪损失、GPU 使用率，自定义图表
最高效的 强化学习 库，GRPO 的显存使用减少 80%， FP8 等。
多 GPU 可以工作，但一个好得多的版本即将到来！

快速开始

Unsloth 支持 MacOS、Linux、 Windows, NVIDIA、Intel 和 CPU 配置。查看： Unsloth 要求。使用相同命令更新：

MacOS、Linux、WSL：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell：

irm https://unsloth.ai/install.ps1 | iex

Docker

使用我们的官方 Docker 镜像: unsloth/unsloth ，目前适用于 Windows、WSL 和 Linux。MacOS 支持即将推出。

启动 Unsloth

unsloth studio -H 0.0.0.0 -p 8888

新模型

Kimi K2.5

MiniMax-M2.5

GLM-5

什么是微调和 RL？为什么要用？

微调一个 LLM 可以定制其行为、增强领域知识，并针对特定任务优化性能。通过在数据集上微调一个预训练模型（例如 Llama-3.1-8B），你可以：

更新知识：引入新的领域特定信息。
定制行为：调整模型的语气、个性或回复风格。
针对任务进行优化：提升特定用例的准确性和相关性。

强化学习（RL） 是指一个“智能体”通过与环境交互并接收反馈的方式学习做决策，这些反馈以奖励或惩罚.

的形式出现。 动作：
模型生成的内容（例如一句话）。 奖励：
一个信号，用于指示模型的动作有多好或多差（例如，回复是否遵循了指令？是否有帮助？）。 环境：

模型正在处理的场景或任务（例如，回答用户的问题）。:

微调或 RL 的示例用例
使 LLM 能够预测新闻标题是否会对公司产生正面或负面影响。
可以使用历史客户交互，生成更准确且更个性化的回复。

可对法律文本上的 LLM 进行微调，用于合同分析、案例法研究和合规。 你可以将微调后的模型视为一个专门的智能体，旨在更有效、更高效地完成特定任务。微调可以复制 RAG 的所有能力，

🤔常见问题 + 微调适合我吗？🖥️推理与部署

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs

下一页Beginner? Start here!

最后更新于1分钟前

这有帮助吗？

hashtagUnsloth Studio 介绍

hashtag使用 Unsloth Studio 运行模型

hashtag🦥 为什么选择 Unsloth？

hashtag⭐ 功能

hashtag推理

hashtag训练

hashtag快速开始

hashtagMacOS、Linux、WSL：

hashtagWindows PowerShell：

hashtagDocker

hashtag启动 Unsloth

hashtag新模型

hashtag什么是微调和 RL？为什么要用？