本地模型部署技术研究
部署工具选择¶
- Ollama:开源工具,支持快速部署和管理上述模型,适合家用电脑。命令行工具,支持一键下载和运行 Llama 3、CodeLlama 等模型,提供 API 接口方便集成开发。
- LM Studio:桌面应用程序,支持 GPU 加速,适合实验和评估不同模型。支持多种开源模型,注重隐私保护,无需上传数据到云端,适用于个人用户快速体验大模型或需要离线使用的场景。
- Open WebUI:提供可视化界面,支持多模型管理和对话交互。
- AingDesk:开源且免费的软件,支持 DeepSeek、Llama 等多种模型的快速部署,兼容 Windows、Linux 和 macOS 系统,内置聊天窗口方便用户与模型交互,并支持在线分享功能。
- Flowy AI PC 助手:支持本地部署 AI 大模型,自带图形界面,无需通过命令行结合其他 Web UI。一键安装后即可通过图像 UI 部署离线模型使用,且内置多种会议助手、翻译助手等特定场景助手。
- GPT4ALL:开源生态系统,支持消费级 CPU 运行,提供桌面客户端和 Python 接口,基于 LLaMA 微调的轻量模型,性能接近 GPT-3,适合个人和小企业私有化部署。
- LocalAI:兼容 OpenAI API 规范的开源替代方案,支持文本生成、图像处理等多模态任务,可直接替换 OpenAI 接口代码,降低迁移成本。
语言模型的选择¶
以下是一些适合个人电脑运行的小模型及相关工具:
小模型推荐¶
- LLaMA 系列
- LLaMA 3:8B 参数版本,最低仅需 4GB 显存即可运行。
- LLaMA 2:7B 参数版本,仅需 8GB 内存即可运行。
- Gemma 系列
- Gemma 2B:谷歌发布的轻量级模型,仅需 20 亿参数,适合性能有限的电脑运行,效果接近 GPT-3.5-Turbo。
- Gemma 9B:90 亿参数版本,效果更好,但需要至少 12GB 内存支持。
- Mistral 系列
- Mistral 7B:性能优异,支持多种任务,仅需 4.1GB 存储空间。
- ChatGLM 系列
- ChatGLM-6B:清华大学开源的中英双语对话模型,62 亿参数,适合私有化部署,支持多卡训练和微调优化。
- 其他轻量级模型
- Phi-2:微软发布的 27 亿参数模型,仅需 1.7GB 存储空间。
- Dolphin Phi:27 亿参数模型,1.6GB 存储空间。
- Orca Mini:30 亿参数模型,1.9GB 存储空间。
- distilbert/distilgpt2:Hugging Face 模型库中的 distilgpt2,约 82M 参数,模型权重文件大约 330MB,是 GPT-2 的一个精简版本,保留了 GPT-2 的核心能力,但计算需求和内存占用显著降低。
- 多模态模型
- LLaVA:支持图像和文本的多模态模型,7B 参数版本仅需 4.5GB 存储空间。
- 代码生成模型
- Code Llama:专为代码生成优化的模型,7B 参数版本仅需 3.8GB 存储空间。
- Deepseek-Coder-1.3B:DeepSeek 发布的开源代码大模型,1.3B 参数,可帮助用户快速编写程序、修改 UI、测试程序错误以及进行数据分析等。
- Bloom 系列
- Bloom-1.1B:参数规模为 1.1B,适合在个人电脑上运行。
- Bloom-1.7B:参数规模为 1.7B,适合在个人电脑上运行。
根据搜索结果,Ollama 支持的适合个人电脑部署的小型语言模型有以下几种:
小型语言模型¶
模型名称 | 参数规模 | 特点简介 |
---|---|---|
Phi-3 Mini | 3.8B | 微软推出的轻量级模型,适合在资源受限的设备上运行,如个人电脑。 |
Smollm2 | 135M、360M、1.7B | 紧凑的语言模型系列,适合轻量级部署。 |
TinyLlama | 1.1B | 轻量级模型,适合在个人电脑上快速部署和使用。 |
Dolphin Phi | 2.7B | 基于 Phi 的模型,适合通用语言任务。 |
CodeGemma | 2B | 轻量级代码生成模型,适合代码补全和生成任务。 |
Moondream2 | 1.8B | 轻量级视觉模型,适合边缘设备,支持实时图像理解。 |
这些模型具有较小的参数规模,适合在个人电脑上运行,能够满足不同的语言处理和生成需求。
嵌入模型的选择¶
轻量级嵌入模型是简化的机器学习模型,旨在以比大型模型更高效的方式创建数据的稠密向量表示或嵌入。以下是一些常见的轻量级嵌入模型:
文本嵌入模型¶
- ling-Embed-Mistral:基于 Mistral 架构优化的轻量级 Embedding 模型,专注语言嵌入,具有轻量化、低资源环境下高效推理、支持多语言等特点,适用于移动端应用、实时语义检索、低资源设备部署等场景。
- gte-Qwen2-1.5B-instruct:阿里通义千问的轻量级版本,支持指令微调,具有低资源消耗、快速推理、中文场景优先等特点,适用于中文短文本处理、实时对话系统、边缘计算场景等。
- bge-small-zh-v1.5:由智源研究院开发的中文文本嵌入模型,基于小规模架构设计,支持中文文本处理,采用 v1.5 版本优化,相似度分布更合理,检索性能优秀,即使不使用指令也能获得不错的效果。
- GIST-small-Embedding-v0:基于 sentence-transformers 库开发的自然语言处理模型,具有多功能性、性能优异、轻量级等特点,在多个 MTEB 任务中表现出色,适用于文本分类、信息检索、语义相似度计算、文本聚类等场景。
- paraphrase-TinyBERT-L6-v2:基于 sentence-transformers 的句子嵌入模型,采用轻量级架构,将句子和段落映射到 768 维密集向量空间,主要应用于语义搜索和文本聚类。
通用嵌入模型¶
- Word2Vec:将词映射到连续的向量空间,捕捉词之间的语义和句法关系,开销相对较低。
- FastText:通过考虑子词信息扩展了词嵌入的概念,产生更有意义的表示,特别是对于形态丰富的语言。
- uTensor:一个基于 Tensorflow 构建的极其轻量级的机器学习推理框架,针对 Arm 处理器进行了优化,核心运行时的大小仅为 2KB,适用于 2KB 内存单片机等资源受限的环境。
轻量级嵌入模型在资源受限的环境中具有明显优势,如移动应用程序、嵌入式系统等,能够快速生成有效的表示,提升应用的性能。