如何使用 Unsloth Studio 运行模型
使用 Unsloth Studio 在本地运行 AI 模型、LLM 和 GGUF。
Unsloth Studio 让你可以在电脑上 100% 离线运行 AI 模型。可运行 GGUF 和 safetensors 等模型格式,来源可以是 Hugging Face 或本地文件。
适用于所有 MacOS、CPU、Windows、Linux、WSL 环境!无需 GPU
搜索 + 下载 + 运行 任意模型,如 GGUF、LoRA 适配器、safetensors 等。
比较 两个不同模型的输出并排显示
自动推理参数 调优(temp、top-p 等)并编辑聊天模板
上传图片、音频、PDF、代码、DOCX 及更多文件类型,与之聊天。

使用 Unsloth Studio Chat
搜索并运行模型
你可以通过 Hugging Face 搜索并下载任意模型,或使用本地文件。
Studio 支持广泛的模型类型,包括 GGUF、视觉-语言以及文本转语音模型。可运行最新模型,例如 Qwen3.5 或 NVIDIA Nemotron 3.
上传图片、音频、PDF、代码、DOCX 及更多文件类型,与之聊天。

Unsloth Studio Chat 会自动在 多 GPU 配置 上进行推理。



模型竞技场
Studio Chat 允许你使用相同的提示词并排比较任意两个模型。例如比较基础模型和 LoRa 适配器。推理会先加载第一个模型,再加载第二个模型(并行推理正在开发中)。

训练后,你可以使用相同的提示词将基础模型和微调后的模型并排比较,查看变化以及结果是否有所改善。
这种工作流能让你轻松看出微调如何改变了模型的响应,以及它是否为你的使用场景带来了改进。

将文件作为上下文添加
Studio Chat 在对话中直接支持多模态输入。你可以附加文档、图片或音频作为提示词的额外上下文。

这使得测试模型如何处理真实世界输入(如 PDF、截图或参考资料)变得非常容易。文件会在本地处理,并作为模型的上下文包含进去。
Unsloth Studio Chat 会自动在 多 GPU 配置 上进行推理。
使用旧的 / 现有的 GGUF 模型
3 月 27 日更新: Unsloth Studio 现在 会自动检测较旧 / 预先存在的模型 这些模型下载自 Hugging Face、LM Studio 等。
手动说明: Unsloth Studio 会检测下载到你的 Hugging Face Hub 缓存中的模型 (C:\Users{your_username}.cache\huggingface\hub)。如果你有通过 LM Studio 下载的 GGUF 模型,请注意它们存储在 C:\Users{your_username}.cache\lm-studio\models 或 C:\Users{your_username}\lm-studio\models 中,且默认情况下 llama.cpp 无法看到它们——你需要将这些 .gguf 文件移动或复制到你的 Hugging Face Hub 缓存目录(或其他 llama.cpp 可访问的路径),Unsloth Studio 才能加载它们。
在 Studio 中微调模型或适配器后,你可以将其导出为 GGUF,并使用 llama.cpp 直接在 Studio Chat 中进行本地推理。Unsloth Studio 由 llama.cpp 和 Hugging Face 提供支持。
删除模型文件
你可以通过模型搜索中的垃圾桶图标删除旧模型文件,或者从默认的 Hugging Face 缓存目录中移除相应的已缓存模型文件夹。默认情况下,Hugging Face 使用 ~/.cache/huggingface/hub/ 在 macOS/Linux/WSL 上,以及 C:\Users\<username>\.cache\huggingface\hub\ 在 Windows 上。
MacOS、Linux、WSL:
~/.cache/huggingface/hub/Windows:
%USERPROFILE%\.cache\huggingface\hub\
如果 HF_HUB_CACHE 或 HF_HOME 已设置,请改用该位置。在 Linux 和 WSL 上, XDG_CACHE_HOME 也可以更改默认缓存根目录。
最后更新于
这有帮助吗?


