了解如何保存你微调后的模型,以便在你喜欢的推理引擎中运行。
你还可以通过使用以下方式运行你微调后的模型 Unsloth 的 2 倍更快推理.
Unsloth Studio Chat
llama.cpp - 保存为 GGUF
vLLM
Ollama
LM Studio
SGLang
故障排除
llama-server 和 OpenAI 端点
工具调用
在手机上运行 LLM
最后更新于1天前
这有帮助吗?