1. ChatGLM
ChatGLM 快速入门
清华系国产开源对话模型老牌选手,中文对话质量高,本地部署门槛低。
这是什么?适合谁?
ChatGLM 是由清华大学 KEG 实验室和智谱 AI 联合开发的中文对话大模型系列,从 2023 年初的 ChatGLM-6B 开始,经过 ChatGLM2、ChatGLM3、ChatGLM4 等多次迭代,在中文对话、写作、角色扮演、知识问答等任务上表现稳定。
它适合以下几类用户:第一,想本地跑中文对话大模型的研究者和学生,ChatGLM 6B 是消费级显卡能跑的代表;第二,做企业级对话应用的开发者,智谱提供商用友好的开源许可;第三,做行业垂直应用(教育、客服、心理咨询等)的团队,可以基于 ChatGLM 微调;第四,做 Agent、RAG、Copilot 类应用,ChatGLM 较早支持 Function Calling 和 Code Interpreter。
ChatGLM 的核心优势:一,中文对话质量高,被广泛用作中文 LLM 评测的基线;二,模型尺寸从 6B 到 130B 多个档位,适配不同硬件;三,生态完善,有 LangChain、LlamaIndex 等主流框架的集成;四,文档和社区资源丰富。
注意:6B/9B 模型消费级显卡可跑,130B 等大模型需要多张 A100。
准备工作
- NVIDIA GPU,显存至少 6GB(跑 6B int4 版本)
- Linux 系统(Ubuntu 20.04 / 22.04)或 macOS(部分版本支持 MPS)
- CUDA 11.8+ 或对应 PyTorch 版本
- Python 3.8+,PyTorch 2.0+
- 至少 20GB 磁盘空间
- 基础的 Python 和命令行能力
3 步快速上手
第 1 步:安装依赖
pip install torch transformers accelerate
# 推荐安装官方 chatglm-sdk 或直接用 transformers
pip install protobuf
对于 ChatGLM3 及更新版本,也可以用智谱提供的简化 SDK:
pip install zhipuai
第 2 步:下载模型权重
从 Hugging Face 或 ModelScope 下载:
# Hugging Face 方式
git lfs install
git clone https://huggingface.co/THUDM/chatglm3-6b
# 或 ModelScope(国内快)
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('ZhipuAI/chatglm3-6b', cache_dir='./')"
6B 模型约 12GB 磁盘。
第 3 步:本地推理
用 Transformers 跑,新建 chat_glm.py:
from transformers import AutoTokenizer, AutoModel
import torch
tokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True)
model = AutoModel.from_pretrained(
"chatglm3-6b",
torch_dtype=torch.float16,
device="cuda",
trust_remote_code=True
).eval()
response, history = model.chat(
tokenizer,
"用一句话介绍 ChatGLM 大模型。",
history=[]
)
print(response)
如果是消费级显卡(显存不够),可以做 4-bit 量化:
from transformers import AutoModel
model = AutoModel.from_pretrained(
"chatglm3-6b",
load_in_4bit=True,
trust_remote_code=True
)
如果你想用智谱云 API(免本地部署):
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="你的key")
response = client.chat.completions.create(
model="glm-4",
messages=[{"role": "user", "content": "用一句话介绍智谱 AI。"}]
)
print(response.choices[0].message.content)
常见踩坑
- trust_remote_code 必填:ChatGLM 使用自定义代码,加载时必须加
trust_remote_code=True。 - 显存不够 6B:6B 模型 bf16 需要约 13GB 显存,4-bit 量化版约 6GB,根据硬件选版本。
- macOS 兼容性:Apple Silicon(M1/M2/M3)可以跑,但速度慢,CUDA 性能最强。
- 下载慢:Hugging Face 直连国内很慢,推荐用 ModelScope 或 hf-mirror.com 镜像。
- 推理框架选择:Transformers 原生推理慢,生产推荐用 vLLM 或 LMDeploy,速度快 5-10 倍。
- 上下文长度:ChatGLM3 支持 8K 上下文,ChatGLM4 支持 128K,长文档任务用新版本。
初级用法
- 命令行 demo:克隆仓库后
python cli_demo.py,直接和模型对话。 - Web demo:用
python web_demo.py启动 Gradio 网页,浏览器聊天。 - API 部署:用 LMDeploy 或 vLLM 启动 OpenAI 兼容 API。
高级玩法
- LoRA 微调:用 transformers + peft 做 LoRA 微调,在垂直场景提升效果。
- P-Tuning v2:ChatGLM 论文中提的训练方法,在小数据上微调效果显著。
- RAG 集成:配合 LangChain、LlamaIndex 做企业知识问答。
- Agent 应用:ChatGLM3/4 支持 Function Calling,做 Agent 框架。
- Long Context:ChatGLM4 支持 128K 上下文,可以处理整本书。
小技巧
- 显存不够就选 4-bit 量化版本,质量损失可控,显存省 75%。
- 智谱云 API(用 zhipuai SDK)不用本地部署,价格便宜,适合个人开发者快速验证。
- ModelScope(魔搭社区)是国内的模型仓库,下载速度快,和 Hugging Face 数据互通。
- 配合 LMDeploy 部署,推理速度能提升数倍,适合高并发场景。
- 微调用 ChatGLM 官方仓库里的
ptuning或lora脚本,工具链成熟。 - 中文场景对比 Qwen2.5、Baichuan、ChatGLM,选效果最好的,不同任务侧重点不同。
常见问题 FAQ
Q1: ChatGLM 是免费的吗?
A: ChatGLM 开源模型(如 ChatGLM3-6B)可免费下载和本地部署,学术研究完全开放,商业使用需填写问卷登记后免费授权。智谱 AI 也提供云端 API(open.bigmodel.cn),新用户注册送额度,网页版(chatglm.cn)免费使用。
Q2: ChatGLM 本地部署需要什么配置?
A: ChatGLM3-6B 模型约 13GB 显存(FP16),量化后(INT4)约 4-5GB。推荐至少 8-16GB 显存的 GPU(如 RTX 3060 12GB)。也可用 llama.cpp、Ollama 等框架在 CPU 上运行(速度较慢)。
Q3: ChatGLM 和智谱 AI 的 GLM 系列模型是什么关系?
A: ChatGLM 是清华大学与智谱 AI 联合开发的开源对话模型,GLM(如 GLM-4、GLM-5)是智谱 AI 最新的商业闭源模型。ChatGLM 开源版可本地部署,GLM 系列通过智谱开放平台 API 调用,性能更强。
Q4: ChatGLM 有 API 吗?
A: 有。智谱 AI 开放平台(open.bigmodel.cn)提供 GLM 系列模型 API,兼容 OpenAI SDK 格式。本地部署的 ChatGLM 可通过 vLLM、Ollama 等框架暴露 OpenAI 兼容 API。
Q5: ChatGLM 支持商用吗?
A: ChatGLM3 对学术研究完全开放,商业使用需填写问卷登记授权(免费)。建议商用前查阅最新的 LICENSE 文件确认条款,大规模商用建议联系智谱 AI 获取正式授权。
进阶学习建议
如果想进一步用好 ChatGLM,建议按以下路径学习:
第 1 周:熟练基础
- 完成 3 步快速上手,跑通第一个任务
- 试 2-3 个不同场景的真实任务
- 记录”哪些操作有效、哪些没用”——形成自己的笔记
第 2 周:探索功能
- 把界面上的按钮/菜单都点一遍
- 找到最常用的 3-5 个功能
- 配置个性化设置(主题、快捷键、默认参数)
第 3-4 周:融入工作流
- 找到 ChatGLM 与你现有工具的结合点
- 用快捷键/模板/批处理提高效率
- 考虑付费升级(如果免费版够用就不必)
长期:进阶玩法
- 探索 ChatGLM 的 API/SDK 集成
- 写自己的脚本/扩展/插件
- 关注官方博客/更新日志,第一时间用上新功能
推荐资源:
- 官方文档:https://github.com/THUDM/ChatGLM
- 官方 YouTube/B 站频道(看产品演示)
- 国内社区:CSDN/掘金/知乎搜 “ChatGLM 教程”
- 国外社区:Reddit、Product Hunt 评论区
避免的坑:
- 不要追求”全能工具”——ChatGLM 不可能满足所有需求
- 不要盲目订阅付费版——先用免费版验证价值
- 不要忽略数据备份——重要内容定期导出
- 不要被新功能冲昏头脑——核心功能用熟再拓展
参考链接
- GitHub 仓库:https://github.com/THUDM/ChatGLM
- Hugging Face:https://huggingface.co/THUDM
- 智谱 AI 开放平台:https://open.bigmodel.cn
- 文档:https://zhipu-ai.feishu.cn/wiki
- ModelScope:https://www.modelscope.cn/models/ZhipuAI
- LMDeploy:https://github.com/InternLM/lmdeploy
- 在线体验:https://chatglm.cn
我的个人推荐(测试编辑 Mnet)
最常用的 1 个功能:每天打开的第一件事,通常是它最核心的功能——其他花哨功能反而用得少。
最容易踩的坑:不要被”功能丰富”迷惑——大部分用户其实只需要其中 20% 的功能,其他 80% 可能永远用不到。
适合人群:有明确需求场景的用户,而不是”看起来很强先收藏”的人。
3 个月使用心得:用 3 个月后,你会发现自己对它的依赖越来越”无感”——这是好事,说明它已经融入了你的工作流。
免费 vs 付费:如果只是偶尔用,免费版够用;如果是日常必备工具,直接付费省心——把时间花在”判断值不值”上反而更贵。
推荐配合的工具:把它和你的浏览器、办公套件、笔记工具配合起来,形成自己的”小工作流”。
长期价值:持续用 6 个月以上,你会发现它是性价比最高的订阅之一——前提是你真的每天用。
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. ChatGLM
ChatGLM 完整使用指南
清华大学 KEG 实验室与智谱 AI 联合打造的 GLM 系列开源大模型,从中英双语对话到多模态、视觉推理,覆盖完整的开源模型矩阵。
评分: 8.8/10 价格: 开源权重免费 + 商用需授权/云端 API 付费 厂商: 智谱 AI(Zhipu AI) + 清华 THUDM 官网: zhipuai.cn
目录
- 什么是ChatGLM
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
- 操作系统:Windows 10+/macOS 12+/Ubuntu 20.04+
- Python 3.9+ 与 pip
- GPU 显存 ≥ 6GB(Int4 量化版 9B)/19GB(BF16 9B),推荐 RTX 3090/4090 24GB
- 安装 Git LFS:https://git-lfs.com
- 配置 Hugging Face 镜像(国内网络加速):
export HF_ENDPOINT=https://hf-mirror.com # Windows PowerShell: $env:HF_ENDPOINT="https://hf-mirror.com"
第 2 步:跟着做
- 克隆清华 KEG 实验室的 GLM-4 仓库(代码:THUDM/GLM-4):
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4
pip install -r requirements.txt
- 下载 GLM-4-9B-Chat 模型权重(约 18GB,BF16;显存不够可改 Int4 量化版):
git lfs install
git clone https://huggingface.co/THUDM/glm-4-9b-chat
显存紧张(<16GB)可改用 Int4 量化版:
https://hf-mirror.com/THUDM/glm-4-9b-chat-int4(约 6GB 显存可跑)
- 用 Python 一键对话(把下面代码保存为
demo.py并运行):
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"THUDM/glm-4-9b-chat",
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
).eval()
response, history = model.chat(tokenizer, "你好,请用一句话介绍 ChatGLM", history=[])
print(response)
python demo.py
首次运行会下载权重并加载,等待 1-3 分钟后看到中文回复即成功。
- 想要 Web 聊天界面,启动官方 Streamlit demo:
streamlit run composite_demo/src/main.py
# 浏览器打开 http://localhost:8501
第 3 步:验证
- 成功标志:终端打印出与提问相关的中文回答(例如「ChatGLM 是清华大学……」),Web 页面输入问题 1-3 秒内流式输出
- 国内若
huggingface.co拉取失败,把 URL 前缀换成https://hf-mirror.com/ - 下一步建议:① 想跑 API 服务给 Dify/LangChain 接入,执行
python basic_demo/openai_api_server.py,兼容 OpenAI 格式;② 想免本地部署,直接用 bigmodel.cn 云端 API,新用户有免费额度;③ 商用前查阅智谱 AI 官方 LICENSE(MODEL_LICENSE),按规则申请授权
什么是ChatGLM
ChatGLM 是由清华大学知识工程实验室(KEG)与智谱 AI 联合开发并开源的 GLM(General Language Model)系列大模型,GitHub 组织为 THUDM(Tsinghua University Data Mining and Knowledge Management Lab)。项目起源于 GLM 预训练架构,2023 年 3 月开源 ChatGLM-6B 后引发广泛关注,此后陆续推出 ChatGLM2-6B、ChatGLM3-6B、GLM-4-9B(含 Chat/Chat-1M/9B-Chat 多种变体)、GLM-4V-9B 多模态、GLM-4.5/4.5-Air、GLM-4.5V 视觉推理等版本,以及 2024 年发布的轻量级 C++ 推理项目 chatglm.cpp。模型覆盖 6B、9B、12B(激活参数)、106B(总参数)等不同规模,在 Hugging Face 累计下载量与 GitHub star 数量长期位居国产开源大模型前列。
ChatGLM 的目标用户包括:学术研究者(尤其是中文信息处理领域)、需要在本地或私有化环境部署大模型的企业开发者、做 AI Agent 与工具调用集成的应用层团队,以及对多模态、视觉推理、桌面助手等前沿能力有需求的开发者。智谱 AI 同步提供「智谱清言」C 端应用、GLM 系列 API(BigModel 开放平台)以及企业级私有化方案,形成「开源 + 闭源 + API + 应用」的四层产品矩阵。GLM 系列在国内最早支持 Function Call、All Tools、Agent 长流程等特性,生态覆盖 LangChain、LlamaIndex、Dify 等主流框架,适合作为中文场景下的通用基座。
核心功能
- 多规模基座模型 — 提供 6B/9B/9B-Chat/9B-Chat-1M/9B-V 多模态等多种规格,支持 BF16/Int4/Int8 多种精度量化,适配不同显存。
- 超长上下文(GLM-4-9B-Chat-1M) — 支持 1M tokens 上下文,约 200 万中文字符,可一次性处理 2 本《红楼梦》或约 125 篇论文。
- Function Call 与 All Tools — 在 Berkeley Function-Calling Leaderboard 上表现稳定,支持网页浏览、代码执行、自定义工具调用,适配 Agent 工作流。
- 多模态能力(GLM-4V-9B) — 支持 1120×1120 高分辨率下的中英双语多轮对话,覆盖场景理解、OCR、图表理解、视觉推理等任务。
- 视觉推理旗舰(GLM-4.5V) — 106B 总参数/12B 激活参数,在 42 个多模态榜单中拿下 41 项 SOTA(以官方公开数据为准),开源配套桌面助手。
如何使用
注册和入门
如使用 GLM 的云端 API,需访问 bigmodel.cn 或智谱 AI 官网注册账号,完成实名认证后申请 API Key,新用户通常有免费试用额度。本地部署只需准备 Python 3.9+、PyTorch 2.0+、Git LFS 等基础环境,从 Hugging Face 下载对应模型权重即可。推荐硬件:GLM-4-9B-Chat BF16 约需 19GB 显存,Int4 约 6GB;9B-Chat-1M 因上下文长度大,建议 24GB 以上;多模态 GLM-4V-9B 需约 28GB BF16 显存。
基础操作流程
- 克隆代码仓库:
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4
pip install -r requirements.txt
- 下载模型权重(以 GLM-4-9B-Chat 为例):
git lfs install
git clone https://huggingface.co/THUDM/glm-4-9b-chat
- Python API 调用示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("THUDM/glm-4-9b-chat", torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)
model = model.eval()
response, history = model.chat(tokenizer, "你好,介绍下你自己", history=[])
print(response)
- 启动 OpenAI 兼容 API 服务(便于在 Dify/LangChain 中接入):
python basic_demo/openai_api_server.py
- 启动 Web 演示(Streamlit):
streamlit run composite_demo/src/main.py
高级技巧
- C++ 轻量推理:社区项目
chatglm.cpp支持 int4/int8 量化的 CPU 推理,适配 x86/ARM/Apple Silicon,适合无 GPU 环境部署。 - 多模态本地部署:使用 GLM-4V-9B 时,需额外下载视觉塔权重;在 24GB 显存的 RTX 4090 上可流畅运行,但显存不足时建议改用 Int4 量化。
- Agent 工作流:通过
composite_demo启动带网页浏览、代码执行、工具调用的复合 Agent,需要配置 Bing 搜索 API Key(可选)。 - Docker 容器化:项目支持一键 Docker 构建,适合在 Kubernetes 等生产环境中标准化部署。
- LangChain 集成:使用
langchain_openai.ChatOpenAI接入智谱 BigModel API,设置openai_api_base为https://open.bigmodel.cn/api/paas/v4/即可。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 开源模型权重 | 免费(商用以智谱官方协议为准) | 6B/9B/9B-V 等模型在 Hugging Face 公开,学术研究完全开放 |
| BigModel API(GLM-4-Flash 等) | 0.001 元/千 tokens 起,以官网为准 | 兼容 OpenAI 接口,新用户赠送免费额度 |
| 智谱清言 C 端应用 | 免费 + 增值订阅 | 面向个人用户的 ChatGLM 对话客户端 |
| 企业级私有化 | 按部署规模与并发计费,以商务对接为准 | 私有集群/公有云/混合云多种部署形态 |
| GLM-4.5/4.5V 旗舰 | 闭源旗舰 + 开源部分版本,以官网为准 | 顶级多模态与视觉推理能力,适合高复杂度生产场景 |
竞品对比
| 维度 | ChatGLM(GLM-4) | 通义千问 Qwen2.5 | 文心一言 ERNIE | DeepSeek-V3 |
|---|---|---|---|---|
| 开源规模 | 6B/9B/9B-V 等 | 0.5B–72B+ | 主要为闭源 API | 67B MoE 等 |
| 中文能力 | 强,中文榜单稳居前列 | 强,Qwen 系列对中文优化深 | 强(百度长期积累) | 强,代码/数学突出 |
| 上下文长度 | 1M tokens(9B-Chat-1M) | 128K(Qwen2.5-Turbo) | 128K(部分版本) | 64K(DeepSeek-V3) |
| 工具调用 | 强,Function Call + All Tools | 强,Qwen-Agent 生态完整 | 中,函数调用支持 | 强,代码解释器生态好 |
| 多模态 | GLM-4V-9B/GLM-4.5V(106B) | Qwen2-VL/Qwen2.5-VL | ERNIE-ViLG | 暂未公开多模态 |
| 适合人群 | 中英长文本、Agent 集成 | 通用场景、代码、多模态 | 中文搜索/营销/政企客户 | 开发者、代码/数学研究者 |
优缺点
优点:
- 中英双语能力均衡,中文榜单长期稳居国产开源模型前列
- 工具调用/Agent 能力国内最早商业化落地,Function Call 在 Berkeley 榜单上表现稳定
- 1M 超长上下文版本在长文档/代码仓库分析场景实用价值高
- 多模态/视觉推理产品线更新快,GLM-4.5V 等旗舰模型在多模态榜单上拿到大量 SOTA
- 文档与示例代码相对完善,LangChain/LlamaIndex/Dify 等框架集成顺畅
缺点:
- 商用授权需走智谱 AI 官方流程,部分版本对月活用户/收入门槛有约束,中小团队需仔细阅读 LICENSE
- 9B 模型对显存要求略高于 Qwen2.5 同尺寸(尤其 1M 版本),需要 24GB+ 显卡
- 闭源旗舰版本(GLM-4.5/4.5V)与开源版本在能力上有差距,需要付费 API 才能用上最新能力
- GLM 早期版本(ChatGLM-6B)的「双语退步」问题在社区曾引发讨论,新版本已改善但仍需关注
- 训练数据与训练细节的完全公开度,弱于 Qwen、DeepSeek 等技术报告透明的项目
常见问题
Q1: ChatGLM 与 GLM 是什么关系? A1: 严格意义上,ChatGLM 是 GLM 架构下的对话模型系列(以 Chat 后缀为主),GLM 是更广义的预训练语言模型家族。GLM-4-9B、GLM-4V-9B、GLM-4.5V 等是 GLM 系列下的不同规格与模态,ChatGLM 则是面向对话的版本。目前社区习惯将两者视为同一系列。
Q2: GLM-4-9B 1M 上下文模型对硬件有什么要求? A2: 官方公开数据显示,GLM-4-9B-Chat-1M 在 BF16 精度下约需 7.4GB 显存用于处理 200K tokens 输入;在 24GB 显存的 RTX 4090 上可运行,推荐使用 1M 上下文的硬件环境为 A100 40GB/80GB 或同等配置。Int4 量化版本可显著降低显存占用。
Q3: ChatGLM 商用有什么限制? A3: 模型权重对学术研究完全开放,商用需向智谱 AI 申请书面授权,具体条款以官方协议为准;部分较新版本(如 GLM-4.5 系列)对月活用户数或营收设有门槛,小团队/个人项目通常免费,大流量商业产品需联系商务。建议商用前直接咨询智谱 AI 获取最新条款。
Q4: GLM-4V 与 GLM-4.5V 有什么区别? A4: GLM-4V-9B 是 9B 参数规模的多模态模型,支持图像+文本输入;GLM-4.5V 是基于 GLM-4.5-Air 架构的旗舰视觉推理模型,总参数 106B、激活参数 12B,支持图像/文本/视频输入,主打复杂视觉推理与 Grounding 定位能力,适合 GUI 自动化、长视频分析等高阶任务。
Q5: 部署 GLM-4 时推荐哪种推理框架? A5: 个人研究推荐 Transformers + bitsandbytes(Int4 量化)即可;生产环境推荐 vLLM、TGI(Text Generation Inference)或 SGLang,可获得显著吞吐提升;边缘/无 GPU 环境推荐 chatglm.cpp 或 llama.cpp 等 C++ 实现。
总结建议
ChatGLM/GLM 系列是国内「学术 + 商业」结合最紧密的开源大模型项目之一,适合以下几类用户:1)中文 NLP 研究者与高校学生,作为中文基座模型的首选候选之一;2)需要本地/私有化部署的中大型企业,尤其是金融、政企、医疗等合规要求高的行业;3)做 Agent 工具调用、AI 助手、AI 搜索等应用层产品的团队,GLM 的 Function Call 与 All Tools 生态在国内最为成熟;4)对超长上下文(1M)、多模态(视觉问答)、GUI 自动化(桌面助手)有专门需求的开发者。建议从 9B-Chat 开始体验,生产部署根据并发量选择 Int4 量化 + vLLM,或直接调用 BigModel API。如以英文为主,可同步评估 Qwen2.5、Llama 3;如侧重代码/数学,DeepSeek-V3 与 Qwen-Coder 是不错的对比对象。商用前务必查阅智谱 AI 官方最新版 LICENSE 与商用授权说明。
同分类推荐
开源模型 分类下的其他工具