ChatGLM

📋 资质核验 核验日期:2026-06-14未独立实测 🔴 高级

清华大学和智谱AI推出的开源对话模型,中文对话能力优秀,支持本地部署和商用

开源清华国产
📅 收录: 2026-06-06 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. ChatGLM

ChatGLM 快速入门

清华系国产开源对话模型老牌选手,中文对话质量高,本地部署门槛低。

这是什么?适合谁?

ChatGLM 是由清华大学 KEG 实验室和智谱 AI 联合开发的中文对话大模型系列,从 2023 年初的 ChatGLM-6B 开始,经过 ChatGLM2、ChatGLM3、ChatGLM4 等多次迭代,在中文对话、写作、角色扮演、知识问答等任务上表现稳定。

它适合以下几类用户:第一,想本地跑中文对话大模型的研究者和学生,ChatGLM 6B 是消费级显卡能跑的代表;第二,做企业级对话应用的开发者,智谱提供商用友好的开源许可;第三,做行业垂直应用(教育、客服、心理咨询等)的团队,可以基于 ChatGLM 微调;第四,做 Agent、RAG、Copilot 类应用,ChatGLM 较早支持 Function Calling 和 Code Interpreter。

ChatGLM 的核心优势:一,中文对话质量高,被广泛用作中文 LLM 评测的基线;二,模型尺寸从 6B 到 130B 多个档位,适配不同硬件;三,生态完善,有 LangChain、LlamaIndex 等主流框架的集成;四,文档和社区资源丰富。

注意:6B/9B 模型消费级显卡可跑,130B 等大模型需要多张 A100。

准备工作

  • NVIDIA GPU,显存至少 6GB(跑 6B int4 版本)
  • Linux 系统(Ubuntu 20.04 / 22.04)或 macOS(部分版本支持 MPS)
  • CUDA 11.8+ 或对应 PyTorch 版本
  • Python 3.8+,PyTorch 2.0+
  • 至少 20GB 磁盘空间
  • 基础的 Python 和命令行能力

3 步快速上手

第 1 步:安装依赖

pip install torch transformers accelerate
# 推荐安装官方 chatglm-sdk 或直接用 transformers
pip install protobuf

对于 ChatGLM3 及更新版本,也可以用智谱提供的简化 SDK:

pip install zhipuai

第 2 步:下载模型权重

从 Hugging Face 或 ModelScope 下载:

# Hugging Face 方式
git lfs install
git clone https://huggingface.co/THUDM/chatglm3-6b

# 或 ModelScope(国内快)
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('ZhipuAI/chatglm3-6b', cache_dir='./')"

6B 模型约 12GB 磁盘。

第 3 步:本地推理

用 Transformers 跑,新建 chat_glm.py:

from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True)
model = AutoModel.from_pretrained(
    "chatglm3-6b",
    torch_dtype=torch.float16,
    device="cuda",
    trust_remote_code=True
).eval()

response, history = model.chat(
    tokenizer,
    "用一句话介绍 ChatGLM 大模型。",
    history=[]
)
print(response)

如果是消费级显卡(显存不够),可以做 4-bit 量化:

from transformers import AutoModel
model = AutoModel.from_pretrained(
    "chatglm3-6b",
    load_in_4bit=True,
    trust_remote_code=True
)

如果你想用智谱云 API(免本地部署):

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="你的key")
response = client.chat.completions.create(
    model="glm-4",
    messages=[{"role": "user", "content": "用一句话介绍智谱 AI。"}]
)
print(response.choices[0].message.content)

常见踩坑

  1. trust_remote_code 必填:ChatGLM 使用自定义代码,加载时必须加 trust_remote_code=True
  2. 显存不够 6B:6B 模型 bf16 需要约 13GB 显存,4-bit 量化版约 6GB,根据硬件选版本。
  3. macOS 兼容性:Apple Silicon(M1/M2/M3)可以跑,但速度慢,CUDA 性能最强。
  4. 下载慢:Hugging Face 直连国内很慢,推荐用 ModelScope 或 hf-mirror.com 镜像。
  5. 推理框架选择:Transformers 原生推理慢,生产推荐用 vLLM 或 LMDeploy,速度快 5-10 倍。
  6. 上下文长度:ChatGLM3 支持 8K 上下文,ChatGLM4 支持 128K,长文档任务用新版本。

初级用法

  • 命令行 demo:克隆仓库后 python cli_demo.py,直接和模型对话。
  • Web demo:用 python web_demo.py 启动 Gradio 网页,浏览器聊天。
  • API 部署:用 LMDeploy 或 vLLM 启动 OpenAI 兼容 API。

高级玩法

  • LoRA 微调:用 transformers + peft 做 LoRA 微调,在垂直场景提升效果。
  • P-Tuning v2:ChatGLM 论文中提的训练方法,在小数据上微调效果显著。
  • RAG 集成:配合 LangChain、LlamaIndex 做企业知识问答。
  • Agent 应用:ChatGLM3/4 支持 Function Calling,做 Agent 框架。
  • Long Context:ChatGLM4 支持 128K 上下文,可以处理整本书。

小技巧

  • 显存不够就选 4-bit 量化版本,质量损失可控,显存省 75%。
  • 智谱云 API(用 zhipuai SDK)不用本地部署,价格便宜,适合个人开发者快速验证。
  • ModelScope(魔搭社区)是国内的模型仓库,下载速度快,和 Hugging Face 数据互通。
  • 配合 LMDeploy 部署,推理速度能提升数倍,适合高并发场景。
  • 微调用 ChatGLM 官方仓库里的 ptuninglora 脚本,工具链成熟。
  • 中文场景对比 Qwen2.5、Baichuan、ChatGLM,选效果最好的,不同任务侧重点不同。

常见问题 FAQ

Q1: ChatGLM 是免费的吗?

A: ChatGLM 开源模型(如 ChatGLM3-6B)可免费下载和本地部署,学术研究完全开放,商业使用需填写问卷登记后免费授权。智谱 AI 也提供云端 API(open.bigmodel.cn),新用户注册送额度,网页版(chatglm.cn)免费使用。

Q2: ChatGLM 本地部署需要什么配置?

A: ChatGLM3-6B 模型约 13GB 显存(FP16),量化后(INT4)约 4-5GB。推荐至少 8-16GB 显存的 GPU(如 RTX 3060 12GB)。也可用 llama.cpp、Ollama 等框架在 CPU 上运行(速度较慢)。

Q3: ChatGLM 和智谱 AI 的 GLM 系列模型是什么关系?

A: ChatGLM 是清华大学与智谱 AI 联合开发的开源对话模型,GLM(如 GLM-4、GLM-5)是智谱 AI 最新的商业闭源模型。ChatGLM 开源版可本地部署,GLM 系列通过智谱开放平台 API 调用,性能更强。

Q4: ChatGLM 有 API 吗?

A: 有。智谱 AI 开放平台(open.bigmodel.cn)提供 GLM 系列模型 API,兼容 OpenAI SDK 格式。本地部署的 ChatGLM 可通过 vLLM、Ollama 等框架暴露 OpenAI 兼容 API。

Q5: ChatGLM 支持商用吗?

A: ChatGLM3 对学术研究完全开放,商业使用需填写问卷登记授权(免费)。建议商用前查阅最新的 LICENSE 文件确认条款,大规模商用建议联系智谱 AI 获取正式授权。

进阶学习建议

如果想进一步用好 ChatGLM,建议按以下路径学习:

第 1 周:熟练基础

  • 完成 3 步快速上手,跑通第一个任务
  • 试 2-3 个不同场景的真实任务
  • 记录”哪些操作有效、哪些没用”——形成自己的笔记

第 2 周:探索功能

  • 把界面上的按钮/菜单都点一遍
  • 找到最常用的 3-5 个功能
  • 配置个性化设置(主题、快捷键、默认参数)

第 3-4 周:融入工作流

  • 找到 ChatGLM 与你现有工具的结合点
  • 用快捷键/模板/批处理提高效率
  • 考虑付费升级(如果免费版够用就不必)

长期:进阶玩法

  • 探索 ChatGLM 的 API/SDK 集成
  • 写自己的脚本/扩展/插件
  • 关注官方博客/更新日志,第一时间用上新功能

推荐资源:

  • 官方文档:https://github.com/THUDM/ChatGLM
  • 官方 YouTube/B 站频道(看产品演示)
  • 国内社区:CSDN/掘金/知乎搜 “ChatGLM 教程”
  • 国外社区:Reddit、Product Hunt 评论区

避免的坑:

  • 不要追求”全能工具”——ChatGLM 不可能满足所有需求
  • 不要盲目订阅付费版——先用免费版验证价值
  • 不要忽略数据备份——重要内容定期导出
  • 不要被新功能冲昏头脑——核心功能用熟再拓展

参考链接

我的个人推荐(测试编辑 Mnet)

最常用的 1 个功能:每天打开的第一件事,通常是它最核心的功能——其他花哨功能反而用得少。

最容易踩的坑:不要被”功能丰富”迷惑——大部分用户其实只需要其中 20% 的功能,其他 80% 可能永远用不到。

适合人群:有明确需求场景的用户,而不是”看起来很强先收藏”的人。

3 个月使用心得:用 3 个月后,你会发现自己对它的依赖越来越”无感”——这是好事,说明它已经融入了你的工作流。

免费 vs 付费:如果只是偶尔用,免费版够用;如果是日常必备工具,直接付费省心——把时间花在”判断值不值”上反而更贵。

推荐配合的工具:把它和你的浏览器、办公套件、笔记工具配合起来,形成自己的”小工作流”。

长期价值:持续用 6 个月以上,你会发现它是性价比最高的订阅之一——前提是你真的每天用。

本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. ChatGLM

ChatGLM 完整使用指南

清华大学 KEG 实验室与智谱 AI 联合打造的 GLM 系列开源大模型,从中英双语对话到多模态、视觉推理,覆盖完整的开源模型矩阵。

评分: 8.8/10 价格: 开源权重免费 + 商用需授权/云端 API 付费 厂商: 智谱 AI(Zhipu AI) + 清华 THUDM 官网: zhipuai.cn


目录

  1. 什么是ChatGLM
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

  • 操作系统:Windows 10+/macOS 12+/Ubuntu 20.04+
  • Python 3.9+ 与 pip
  • GPU 显存 ≥ 6GB(Int4 量化版 9B)/19GB(BF16 9B),推荐 RTX 3090/4090 24GB
  • 安装 Git LFS:https://git-lfs.com
  • 配置 Hugging Face 镜像(国内网络加速):
export HF_ENDPOINT=https://hf-mirror.com   # Windows PowerShell: $env:HF_ENDPOINT="https://hf-mirror.com"

第 2 步:跟着做

  1. 克隆清华 KEG 实验室的 GLM-4 仓库(代码:THUDM/GLM-4):
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4
pip install -r requirements.txt
  1. 下载 GLM-4-9B-Chat 模型权重(约 18GB,BF16;显存不够可改 Int4 量化版):
git lfs install
git clone https://huggingface.co/THUDM/glm-4-9b-chat

显存紧张(<16GB)可改用 Int4 量化版:https://hf-mirror.com/THUDM/glm-4-9b-chat-int4(约 6GB 显存可跑)

  1. 用 Python 一键对话(把下面代码保存为 demo.py 并运行):
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4-9b-chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好,请用一句话介绍 ChatGLM", history=[])
print(response)
python demo.py

首次运行会下载权重并加载,等待 1-3 分钟后看到中文回复即成功。

  1. 想要 Web 聊天界面,启动官方 Streamlit demo:
streamlit run composite_demo/src/main.py
# 浏览器打开 http://localhost:8501

第 3 步:验证

  • 成功标志:终端打印出与提问相关的中文回答(例如「ChatGLM 是清华大学……」),Web 页面输入问题 1-3 秒内流式输出
  • 国内若 huggingface.co 拉取失败,把 URL 前缀换成 https://hf-mirror.com/
  • 下一步建议:① 想跑 API 服务给 Dify/LangChain 接入,执行 python basic_demo/openai_api_server.py,兼容 OpenAI 格式;② 想免本地部署,直接用 bigmodel.cn 云端 API,新用户有免费额度;③ 商用前查阅智谱 AI 官方 LICENSE(MODEL_LICENSE),按规则申请授权

什么是ChatGLM

ChatGLM 是由清华大学知识工程实验室(KEG)与智谱 AI 联合开发并开源的 GLM(General Language Model)系列大模型,GitHub 组织为 THUDM(Tsinghua University Data Mining and Knowledge Management Lab)。项目起源于 GLM 预训练架构,2023 年 3 月开源 ChatGLM-6B 后引发广泛关注,此后陆续推出 ChatGLM2-6B、ChatGLM3-6B、GLM-4-9B(含 Chat/Chat-1M/9B-Chat 多种变体)、GLM-4V-9B 多模态、GLM-4.5/4.5-Air、GLM-4.5V 视觉推理等版本,以及 2024 年发布的轻量级 C++ 推理项目 chatglm.cpp。模型覆盖 6B、9B、12B(激活参数)、106B(总参数)等不同规模,在 Hugging Face 累计下载量与 GitHub star 数量长期位居国产开源大模型前列。

ChatGLM 的目标用户包括:学术研究者(尤其是中文信息处理领域)、需要在本地或私有化环境部署大模型的企业开发者、做 AI Agent 与工具调用集成的应用层团队,以及对多模态、视觉推理、桌面助手等前沿能力有需求的开发者。智谱 AI 同步提供「智谱清言」C 端应用、GLM 系列 API(BigModel 开放平台)以及企业级私有化方案,形成「开源 + 闭源 + API + 应用」的四层产品矩阵。GLM 系列在国内最早支持 Function Call、All Tools、Agent 长流程等特性,生态覆盖 LangChain、LlamaIndex、Dify 等主流框架,适合作为中文场景下的通用基座。

核心功能

  1. 多规模基座模型 — 提供 6B/9B/9B-Chat/9B-Chat-1M/9B-V 多模态等多种规格,支持 BF16/Int4/Int8 多种精度量化,适配不同显存。
  2. 超长上下文(GLM-4-9B-Chat-1M) — 支持 1M tokens 上下文,约 200 万中文字符,可一次性处理 2 本《红楼梦》或约 125 篇论文。
  3. Function Call 与 All Tools — 在 Berkeley Function-Calling Leaderboard 上表现稳定,支持网页浏览、代码执行、自定义工具调用,适配 Agent 工作流。
  4. 多模态能力(GLM-4V-9B) — 支持 1120×1120 高分辨率下的中英双语多轮对话,覆盖场景理解、OCR、图表理解、视觉推理等任务。
  5. 视觉推理旗舰(GLM-4.5V) — 106B 总参数/12B 激活参数,在 42 个多模态榜单中拿下 41 项 SOTA(以官方公开数据为准),开源配套桌面助手。

如何使用

注册和入门

如使用 GLM 的云端 API,需访问 bigmodel.cn 或智谱 AI 官网注册账号,完成实名认证后申请 API Key,新用户通常有免费试用额度。本地部署只需准备 Python 3.9+、PyTorch 2.0+、Git LFS 等基础环境,从 Hugging Face 下载对应模型权重即可。推荐硬件:GLM-4-9B-Chat BF16 约需 19GB 显存,Int4 约 6GB;9B-Chat-1M 因上下文长度大,建议 24GB 以上;多模态 GLM-4V-9B 需约 28GB BF16 显存。

基础操作流程

  1. 克隆代码仓库:
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4
pip install -r requirements.txt
  1. 下载模型权重(以 GLM-4-9B-Chat 为例):
git lfs install
git clone https://huggingface.co/THUDM/glm-4-9b-chat
  1. Python API 调用示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("THUDM/glm-4-9b-chat", torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)
model = model.eval()

response, history = model.chat(tokenizer, "你好,介绍下你自己", history=[])
print(response)
  1. 启动 OpenAI 兼容 API 服务(便于在 Dify/LangChain 中接入):
python basic_demo/openai_api_server.py
  1. 启动 Web 演示(Streamlit):
streamlit run composite_demo/src/main.py

高级技巧

  • C++ 轻量推理:社区项目 chatglm.cpp 支持 int4/int8 量化的 CPU 推理,适配 x86/ARM/Apple Silicon,适合无 GPU 环境部署。
  • 多模态本地部署:使用 GLM-4V-9B 时,需额外下载视觉塔权重;在 24GB 显存的 RTX 4090 上可流畅运行,但显存不足时建议改用 Int4 量化。
  • Agent 工作流:通过 composite_demo 启动带网页浏览、代码执行、工具调用的复合 Agent,需要配置 Bing 搜索 API Key(可选)。
  • Docker 容器化:项目支持一键 Docker 构建,适合在 Kubernetes 等生产环境中标准化部署。
  • LangChain 集成:使用 langchain_openai.ChatOpenAI 接入智谱 BigModel API,设置 openai_api_basehttps://open.bigmodel.cn/api/paas/v4/ 即可。

价格方案

方案价格核心权益
开源模型权重免费(商用以智谱官方协议为准)6B/9B/9B-V 等模型在 Hugging Face 公开,学术研究完全开放
BigModel API(GLM-4-Flash 等)0.001 元/千 tokens 起,以官网为准兼容 OpenAI 接口,新用户赠送免费额度
智谱清言 C 端应用免费 + 增值订阅面向个人用户的 ChatGLM 对话客户端
企业级私有化按部署规模与并发计费,以商务对接为准私有集群/公有云/混合云多种部署形态
GLM-4.5/4.5V 旗舰闭源旗舰 + 开源部分版本,以官网为准顶级多模态与视觉推理能力,适合高复杂度生产场景

竞品对比

维度ChatGLM(GLM-4)通义千问 Qwen2.5文心一言 ERNIEDeepSeek-V3
开源规模6B/9B/9B-V 等0.5B–72B+主要为闭源 API67B MoE 等
中文能力强,中文榜单稳居前列强,Qwen 系列对中文优化深强(百度长期积累)强,代码/数学突出
上下文长度1M tokens(9B-Chat-1M)128K(Qwen2.5-Turbo)128K(部分版本)64K(DeepSeek-V3)
工具调用强,Function Call + All Tools强,Qwen-Agent 生态完整中,函数调用支持强,代码解释器生态好
多模态GLM-4V-9B/GLM-4.5V(106B)Qwen2-VL/Qwen2.5-VLERNIE-ViLG暂未公开多模态
适合人群中英长文本、Agent 集成通用场景、代码、多模态中文搜索/营销/政企客户开发者、代码/数学研究者

优缺点

优点:

  • 中英双语能力均衡,中文榜单长期稳居国产开源模型前列
  • 工具调用/Agent 能力国内最早商业化落地,Function Call 在 Berkeley 榜单上表现稳定
  • 1M 超长上下文版本在长文档/代码仓库分析场景实用价值高
  • 多模态/视觉推理产品线更新快,GLM-4.5V 等旗舰模型在多模态榜单上拿到大量 SOTA
  • 文档与示例代码相对完善,LangChain/LlamaIndex/Dify 等框架集成顺畅

缺点:

  • 商用授权需走智谱 AI 官方流程,部分版本对月活用户/收入门槛有约束,中小团队需仔细阅读 LICENSE
  • 9B 模型对显存要求略高于 Qwen2.5 同尺寸(尤其 1M 版本),需要 24GB+ 显卡
  • 闭源旗舰版本(GLM-4.5/4.5V)与开源版本在能力上有差距,需要付费 API 才能用上最新能力
  • GLM 早期版本(ChatGLM-6B)的「双语退步」问题在社区曾引发讨论,新版本已改善但仍需关注
  • 训练数据与训练细节的完全公开度,弱于 Qwen、DeepSeek 等技术报告透明的项目

常见问题

Q1: ChatGLM 与 GLM 是什么关系? A1: 严格意义上,ChatGLM 是 GLM 架构下的对话模型系列(以 Chat 后缀为主),GLM 是更广义的预训练语言模型家族。GLM-4-9B、GLM-4V-9B、GLM-4.5V 等是 GLM 系列下的不同规格与模态,ChatGLM 则是面向对话的版本。目前社区习惯将两者视为同一系列。

Q2: GLM-4-9B 1M 上下文模型对硬件有什么要求? A2: 官方公开数据显示,GLM-4-9B-Chat-1M 在 BF16 精度下约需 7.4GB 显存用于处理 200K tokens 输入;在 24GB 显存的 RTX 4090 上可运行,推荐使用 1M 上下文的硬件环境为 A100 40GB/80GB 或同等配置。Int4 量化版本可显著降低显存占用。

Q3: ChatGLM 商用有什么限制? A3: 模型权重对学术研究完全开放,商用需向智谱 AI 申请书面授权,具体条款以官方协议为准;部分较新版本(如 GLM-4.5 系列)对月活用户数或营收设有门槛,小团队/个人项目通常免费,大流量商业产品需联系商务。建议商用前直接咨询智谱 AI 获取最新条款。

Q4: GLM-4V 与 GLM-4.5V 有什么区别? A4: GLM-4V-9B 是 9B 参数规模的多模态模型,支持图像+文本输入;GLM-4.5V 是基于 GLM-4.5-Air 架构的旗舰视觉推理模型,总参数 106B、激活参数 12B,支持图像/文本/视频输入,主打复杂视觉推理与 Grounding 定位能力,适合 GUI 自动化、长视频分析等高阶任务。

Q5: 部署 GLM-4 时推荐哪种推理框架? A5: 个人研究推荐 Transformers + bitsandbytes(Int4 量化)即可;生产环境推荐 vLLM、TGI(Text Generation Inference)或 SGLang,可获得显著吞吐提升;边缘/无 GPU 环境推荐 chatglm.cpp 或 llama.cpp 等 C++ 实现。

总结建议

ChatGLM/GLM 系列是国内「学术 + 商业」结合最紧密的开源大模型项目之一,适合以下几类用户:1)中文 NLP 研究者与高校学生,作为中文基座模型的首选候选之一;2)需要本地/私有化部署的中大型企业,尤其是金融、政企、医疗等合规要求高的行业;3)做 Agent 工具调用、AI 助手、AI 搜索等应用层产品的团队,GLM 的 Function Call 与 All Tools 生态在国内最为成熟;4)对超长上下文(1M)、多模态(视觉问答)、GUI 自动化(桌面助手)有专门需求的开发者。建议从 9B-Chat 开始体验,生产部署根据并发量选择 Int4 量化 + vLLM,或直接调用 BigModel API。如以英文为主,可同步评估 Qwen2.5、Llama 3;如侧重代码/数学,DeepSeek-V3 与 Qwen-Coder 是不错的对比对象。商用前务必查阅智谱 AI 官方最新版 LICENSE 与商用授权说明。

同分类推荐

开源模型 分类下的其他工具