🦥Unsloth 文档

Unsloth 是一个用于运行和训练模型的开源框架。

Unsloth 让你能在自己的本地硬件上运行和训练 AI 模型。

我们的文档将指导你在本地运行和训练自己的模型。

开始使用 我们的 GitHub

🦥 为什么选择 Unsloth?

⭐ 功能

Unsloth 让你可以运行和训练文本模型, 音频arrow-up-right, 嵌入arrow-up-right, 视觉arrow-up-right 以及更多模型。Unsloth 为推理和训练提供了许多关键功能:

推理

训练

  • 训练并 RL 用约 70% 更少的显存,让 500+ 个模型的速度提升约 2 倍(且不损失准确率)

  • 支持全量微调、预训练、4 位、16 位和 FP8 训练。

  • 自动创建数据集 可从 PDF、CSV、DOCX 文件生成。在可视化节点工作流中编辑数据。

  • 可观测性:实时监控训练,跟踪损失、GPU 使用率,自定义图表

  • 最高效的 强化学习 库,GRPO 的显存使用减少 80%, FP8 等。

  • 多 GPU 可以工作,但一个好得多的版本即将到来!

快速开始

Unsloth 支持 MacOS、Linux、 Windows, NVIDIA、Intel 和 CPU 配置。查看: Unsloth 要求。使用相同命令更新:

MacOS、Linux、WSL:

Windows PowerShell:

Docker

使用我们的官方 Docker 镜像: unsloth/unslotharrow-up-right ,目前适用于 Windows、WSL 和 Linux。MacOS 支持即将推出。

启动 Unsloth

新模型

什么是微调和 RL?为什么要用?

微调 一个 LLM 可以定制其行为、增强领域知识,并针对特定任务优化性能。通过在数据集上微调一个预训练模型(例如 Llama-3.1-8B),你可以:

  • 更新知识:引入新的领域特定信息。

  • 定制行为:调整模型的语气、个性或回复风格。

  • 针对任务进行优化:提升特定用例的准确性和相关性。

强化学习(RL) 是指一个“智能体”通过与环境交互并接收 反馈 的方式学习做决策,这些反馈以 奖励惩罚.

  • 的形式出现。 动作:

  • 模型生成的内容(例如一句话)。 奖励:

  • 一个信号,用于指示模型的动作有多好或多差(例如,回复是否遵循了指令?是否有帮助?)。 环境:

模型正在处理的场景或任务(例如,回答用户的问题)。:

  • 微调或 RL 的示例用例

  • 使 LLM 能够预测新闻标题是否会对公司产生正面或负面影响。

  • 可以使用历史客户交互,生成更准确且更个性化的回复。

可对法律文本上的 LLM 进行微调,用于合同分析、案例法研究和合规。 你可以将微调后的模型视为一个专门的智能体,旨在更有效、更高效地完成特定任务。微调可以复制 RAG 的所有能力,

最后更新于

这有帮助吗?