💧Liquid LFM2.5:如何运行与微调

在你的设备上本地运行并微调 LFM2.5 Instruct 和 Vision!

Liquid AI 发布了 LFM2.5,包括他们的 指令(instruct)视觉(vision) 模型。LFM2.5-1.2B-Instruct 是一个 1.17B 参数的混合推理模型,训练于 28T 令牌 和强化学习,在 1B 规模的指令遵循、工具使用和自主任务方面提供同类最佳的性能。参见 Hugging Face Jobs 关于使用 Codex 训练 LFM 的说明!

LFM2.5 在低于 1GB 内存 下运行 在 AMD CPU 上实现 239 tok/s 解码。你也可以 微调 它在本地 使用 Unsloth。

文本 LFM2.5-Instruct视觉 LFM2.5-VL

模型规格:

  • 参数: 1.17B

  • 架构: 16 层(10 个双门控 LIV 卷积块 + 6 个 GQA 块)

  • 训练预算: 28T 令牌

  • 上下文长度: 32,768 令牌

  • 词汇表大小: 65,536

  • 语言: 英语、阿拉伯语、中文、法语、德语、日语、韩语、西班牙语

⚙️ 使用指南

Liquid AI 建议以下推理设置:

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • 最大上下文长度: 32,768

聊天模板格式

LFM2.5 使用类 ChatML 的格式:

LFM2.5 聊天模板:

工具使用

LFM2.5 支持带有特殊标记的函数调用 <|tool_call_start|><|tool_call_end|>。在系统提示中以 JSON 对象提供工具:

🖥️ 运行 LFM2.5-1.2B-Instruct

📖 llama.cpp 教程(GGUF)

1. 构建 llama.cpp

获取最新的 llama.cpp 来自 GitHubarrow-up-right。如果你没有 GPU,请更改 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

2. 直接从 Hugging Face 运行

3. 或先下载模型

4. 以对话模式运行

🦥 使用 Unsloth 微调 LFM2.5

Unsloth 支持微调 LFM2.5 模型。1.2B 模型可以轻松适配免费 Colab 的 T4 GPU。训练速度提高 2 倍且显存需求降低 50%。

免费 Colab 笔记本:

LFM2.5 推荐用于自主任务、数据提取、RAG 和工具使用。不建议用于知识密集型任务或编程。

Unsloth 的 LFM2.5 配置

训练设置

保存与导出

🎉 llama-server 服务与部署

要以兼容 OpenAI 的 API 将 LFM2.5 部署到生产环境:

使用 OpenAI 客户端测试:

📊 基准测试

LFM2.5-1.2B-Instruct 在 1B 规模上提供同类最佳的性能,并在低内存下实现快速的 CPU 推理:

💧 Liquid LFM2.5-1.2B-VL 指南

LFM2.5-VL-1.6B 是一个基于 LFM2.5-1.2B-Base 的视觉大模型arrow-up-right 并针对更强的真实世界表现进行了调优。你现在可以 微调 在本地使用 Unsloth 对其进行微调。

运行教程微调教程

模型规格:

  • 语言模型骨干: LFM2.5-1.2B-Base

  • 视觉编码器: SigLIP2 NaFlex 形状优化 400M

  • 上下文长度: 32,768 令牌

  • 词汇表大小: 65,536

  • 语言: 英语、阿拉伯语、中文、法语、德语、日语、韩语和西班牙语

  • 原生分辨率处理: 处理高达 512×512 像素的图像而不进行放大,并在不扭曲的情况下保留非标准宽高比

  • 切片策略: 将大图像拆分为不重叠的 512×512 补丁,并包含缩略图编码以获得全局上下文

  • 推理时的灵活性: 用户可调的最大图像 token 数和切片数量以在速度/质量之间权衡,无需重新训练

⚙️ 使用指南

Liquid AI 建议以下推理设置:

  • 文本: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • 视觉: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

聊天模板格式

LFM2.5-VL 使用类 ChatML 的格式:

LFM2.5-VL 聊天模板:

🖥️ 运行 LFM2.5-VL-1.6B

📖 llama.cpp 教程(GGUF)

1. 构建 llama.cpp

从最新的 llama.cpp 获取 GitHubarrow-up-right。如果你没有 GPU,请更改 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2. 直接从 Hugging Face 运行

🦥 使用 Unsloth 对 LFM2.5-VL 进行微调

Unsloth 支持对 LFM2.5 模型进行微调。1.6B 模型可在免费的 Colab T4 GPU 上轻松运行。训练速度提高 2 倍,同时 VRAM 使用减少 50%。

免费 Colab 笔记本:

Unsloth 的 LFM2.5 配置

训练设置

保存与导出

📊 基准测试

LFM2.5-VL-1.6B 提供同类最佳性能:

模型
MMStar
MM-IFEval
BLINK
InfoVQA(验证集)
OCRBench(v2)
RealWorldQA
MMMU(验证集)
MMMB(平均)
多语言 MMBench(平均)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 资源

最后更新于

这有帮助吗?