1. Baichuan
Baichuan 快速入门
国内最早一批开源商用的大模型之一,中文场景成熟,本地部署稳定。
这是什么?适合谁?
Baichuan(百川)是由前搜狗 CEO 王小川创立的百川智能推出的开源大语言模型系列,自 2023 年 6 月发布以来持续迭代,出了 Baichuan-7B、Baichuan-13B 等多个版本。它是少数明确支持商用的国产开源大模型,对中文场景做了深度优化。
它适合这些用户:第一,做国内业务的开发者,需要在本地或私有云跑中文大模型,数据不能出域;第二,做垂直应用(教育、法律、医疗、客服)的团队,想要一个中文表现好、可微调、授权清晰的开源底座;第三,想学习大模型训练、微调、部署的工程师和学生,百川的文档和社区相对友好。
百川的核心优势是中文理解和生成质量高、模型权重完全开放、商用许可清晰。在 Hugging Face 和 GitHub 上都可以下载,支持主流推理框架(vLLM、Transformers、FastChat 等)。
注意:虽然是开源,但模型权重几十 GB,需要 GPU 服务器才能跑;小模型(7B)可以在消费级显卡(如 RTX 4090 24G)上跑起来,大模型(13B+)需要 A100 级别的显卡。
准备工作
- 一台带 NVIDIA GPU 的服务器/工作站(显存 24GB+ 推荐)
- Linux 系统(Ubuntu 20.04 / 22.04 推荐)
- CUDA 11.8+ 和对应版本的驱动
- Python 3.9+ 和 PyTorch 2.0+
- 至少 50GB 磁盘空间(存放模型权重)
- 基础的命令行和 Python 能力
- 良好的网络环境(从 Hugging Face 下载模型)
3 步快速上手
第 1 步:克隆仓库并安装依赖
git clone https://github.com/baichuan-inc/Baichuan.git
cd Baichuan
pip install -r requirements.txt
pip install torch transformers accelerate
如果用 vLLM(推荐,推理快):
pip install vllm
第 2 步:下载模型权重
去 Hugging Face 找到你要的版本,比如 baichuan-inc/Baichuan2-13B-Chat:
# 先登录 Hugging Face(部分模型需要同意许可)
huggingface-cli login
# 下载模型
git lfs install
git clone https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat
模型大小约 26GB(13B),如果是 7B 版本约 14GB。
第 3 步:跑通对话
用 Transformers 直接推理,新建 chat_baichuan.py:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
tokenizer = AutoTokenizer.from_pretrained("Baichuan2-13B-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"Baichuan2-13B-Chat",
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
)
messages = [{"role": "user", "content": "用一句话介绍百川大模型。"}]
response = model.chat(tokenizer, messages)
print(response)
如果用 vLLM(更快,生产推荐):
python -m vllm.entrypoints.openai.api_server \
--model Baichuan2-13B-Chat \
--trust-remote-code \
--port 8000
之后可以用 OpenAI 兼容客户端调用:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Baichuan2-13B-Chat",
"messages": [{"role": "user", "content": "你好"}]
}'
常见踩坑
- 显存不够:13B 模型 bfloat16 加载需要 ~26GB 显存,7B 模型 ~14GB,4-bit 量化版分别降到 ~10GB / ~6GB,可以根据硬件选。
- 缺少 trust_remote_code=True:百川模型使用自定义代码,加载时必须加这个参数,否则会报错。
- 网络下载失败:Hugging Face 模型下载可能很慢或被中断,建议用
huggingface-cli或镜像站(国内有 hf-mirror.com)。 - CUDA 版本不匹配:PyTorch、CUDA、驱动版本必须匹配,版本不对会出现”CUDA not available”等错误。
- 商用许可要确认:虽然百川支持商用,但具体许可条款可能随版本变化,使用前看 LICENSE 文件。
- 中文分词差异:百川有自己的 tokenizer,和 Llama、Qwen 不通用,迁移应用时要替换对应分词器。
初级用法
- 命令行对话:用
python cli_demo.py(仓库自带示例),直接和模型对话。 - Web 演示:用
python web_demo.py,启动 Gradio 网页,浏览器里聊天。 - API 部署:用 vLLM 或 Text Generation Inference 启动 OpenAI 兼容 API,接入自家应用。
高级玩法
- LoRA 微调:用
transformers+peft+ 自己的数据集做 LoRA 微调,在垂直场景(医疗问答、法律咨询)上效果显著。 - 量化部署:用
bitsandbytes做 4-bit 量化,显存需求降低到 1/4,适合消费级显卡。 - RAG 集成:配合 LangChain、LlamaIndex,把百川作为底座 LLM,做企业知识问答。
- 多卡推理:用
accelerate或deepspeed做多卡并行,跑更大的模型。 - Function Calling:部分新版本支持函数调用,可以做 Agent 应用(具体看版本文档)。
小技巧
- 显存吃紧就用 4-bit 量化版,牺牲一点质量换运行可能性。
- 推理速度上,vLLM 远超原生 Transformers,生产环境强烈推荐。
- 微调时用 LoRA,而不是全参数,显存需求小很多,效果也不错。
- 中文场景用百川,英文/代码场景建议对比 Qwen2.5、Llama 3,选效果最好的。
- 模型文件很大,做好磁盘管理:训练用的数据、checkpoint、模型权重分开目录。
- 关注 GitHub Releases 跟踪新版本,百川模型迭代较快。
常见问题 FAQ
Q1: Baichuan 是免费的吗?
A: Baichuan 开源模型(如 Baichuan2-7B/13B)可免费下载和本地部署,Apache 2.0 协议允许商用(DAU<100万且非云服务提供商)。百川也提供云端 API(平台:baichuan-ai.com),新用户赠送约 100-500 万 token 免费额度,超出按量付费。
Q2: Baichuan 本地部署需要什么配置?
A: Baichuan2-7B 模型约 14GB 显存(FP16),量化后(INT4)约 4-5GB。推荐至少 16GB 显存的 GPU(如 RTX 3060/4060 12GB)。也可用 llama.cpp 等框架降低显存需求。
Q3: Baichuan 有 API 吗?怎么调用?
A: 有。百川智能提供云端 API,兼容 OpenAI SDK 格式,国内直连。也支持通过百度千帆、阿里云百炼等平台调用 Baichuan 模型。本地部署可以用 vLLM、Ollama 等框架提供兼容 API。
Q4: Baichuan 和 ChatGLM、Qwen 比有什么优势?
A: Baichuan 在中文理解、安全对齐方面表现优秀,模型体积适中(7B/13B),部署门槛较低。ChatGLM 在对话流畅性上更突出,Qwen 系列覆盖面更广(0.5B-72B)。三者都是国产优秀开源模型,选型建议根据具体任务实测。
Q5: Baichuan 支持商用吗?
A: Baichuan2 系列采用 Apache 2.0 协议 + 社区许可协议,允许商用,但有条件:日均用户活跃量需低于 100 万,且不能是云服务提供商。超出限制需联系百川获取商业授权。
进阶学习建议
如果想进一步用好 Baichuan,建议按以下路径学习:
第 1 周:熟练基础
- 完成 3 步快速上手,跑通第一个任务
- 试 2-3 个不同场景的真实任务
- 记录”哪些操作有效、哪些没用”——形成自己的笔记
第 2 周:探索功能
- 把界面上的按钮/菜单都点一遍
- 找到最常用的 3-5 个功能
- 配置个性化设置(主题、快捷键、默认参数)
第 3-4 周:融入工作流
- 找到 Baichuan 与你现有工具的结合点
- 用快捷键/模板/批处理提高效率
- 考虑付费升级(如果免费版够用就不必)
长期:进阶玩法
- 探索 Baichuan 的 API/SDK 集成
- 写自己的脚本/扩展/插件
- 关注官方博客/更新日志,第一时间用上新功能
推荐资源:
- 官方文档:https://github.com/baichuan-inc/Baichuan
- 官方 YouTube/B 站频道(看产品演示)
- 国内社区:CSDN/掘金/知乎搜 “Baichuan 教程”
- 国外社区:Reddit、Product Hunt 评论区
避免的坑:
- 不要追求”全能工具”——Baichuan 不可能满足所有需求
- 不要盲目订阅付费版——先用免费版验证价值
- 不要忽略数据备份——重要内容定期导出
- 不要被新功能冲昏头脑——核心功能用熟再拓展
参考链接
- GitHub 仓库:https://github.com/baichuan-inc/Baichuan
- Hugging Face 主页:https://huggingface.co/baichuan-inc
- 官方文档:https://platform.baichuan-inc.com/docs
- 在线体验:https://www.baichuan.com
- vLLM 项目:https://github.com/vllm-project/vllm
- Hugging Face 中文镜像:https://hf-mirror.com
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. Baichuan
Baichuan 完整使用指南
王小川创立的百川智能推出的开源大模型系列,中文能力突出、医疗增强版本 Baichuan-M 在 HealthBench 评测中多次领先。
评分: 8.4/10 价格: 模型权重免费(商用需邮件申请)/API 付费 厂商: 百川智能(baichuan-inc) 官网: baichuan-ai.com
目录
- 什么是Baichuan
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
- 操作系统:Windows 10+/macOS 12+/Ubuntu 20.04+
- Python 3.8+ 与 pip
- GPU 显存 ≥ 8GB(7B Chat 4bits 量化版),推荐 RTX 3060/3090/4090
- 安装 Git LFS(用于下载大模型权重):https://git-lfs.com
- 准备好 国内镜像(加速 Hugging Face 下载,避免 404/超时):
pip install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com # Windows PowerShell 用 $env:HF_ENDPOINT
第 2 步:跟着做
- 克隆代码仓库并安装依赖(代码仓库:baichuan-inc/Baichuan2):
git clone https://github.com/baichuan-inc/Baichuan2.git
cd Baichuan2
pip install -r requirements.txt
pip install streamlit # 跑 Web demo 需要
- 下载 Baichuan2 7B Chat 4bits 量化版(权重约 5.1GB,适合 8GB 显存):
git lfs install
git clone https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat-4bits
- 启动命令行对话(
cli_demo.py首次运行会加载权重,等待 1-3 分钟):
python cli_demo.py
按提示输入问题,如:用一句话介绍百川智能,看到模型中文回复即成功。
- 想要 Web 界面(浏览器聊天),改跑:
streamlit run web_demo.py
终端会打印 http://localhost:8501,浏览器打开即可对话。
第 3 步:验证
- 成功标志:命令行打印出与提问相关的中文回答,Web 界面在输入框输入问题后 1-5 秒内流式输出中文
- 国内网络下若
huggingface.co克隆失败,改用镜像源:https://hf-mirror.com/baichuan-inc/Baichuan2-7B-Chat-4bits - 下一步建议:① 想要更高质量输出,把
cli_demo.py里的模型路径换成Baichuan2-13B-Chat(需 ≥12GB 显存);② 商用前邮件申请授权:opensource@baichuan-inc.com;③ 想试医疗场景,把模型替换为 baichuan-inc/Baichuan-M2-32B
什么是Baichuan
Baichuan(百川)是由搜狗创始人王小川于 2023 年 4 月创立的「百川智能」公司推出的大模型系列,公司总部位于北京,定位为通用人工智能服务商。Baichuan 系列自第一代 Baichuan-7B/13B 发布以来,经历了 Baichuan2(7B/13B,2.6 万亿 tokens 训练)、Baichuan-53B 闭源模型,以及针对特定场景的 Baichuan-192K 超长上下文版本、Baichuan4-Finance 金融大模型、Baichuan-Omni-1.5 全模态模型、Baichuan-M1/M2/M3 医疗增强模型等多个迭代。截至 2023 年 12 月,Baichuan 系列在 GitHub 与 Hugging Face 累计下载量已超过 500 万次,是国内最早走通「开源免费可商用」路线的国产大模型之一。
Baichuan 的目标用户覆盖三类:一是中小型开发者和研究机构,可基于 Apache 2.0 源码与 Baichuan 2 社区许可协议二次开发与微调;二是企业私有化部署客户,尤其是金融、医疗、教育等对数据合规有较高要求的行业;三是 C 端产品团队,可通过百川提供的「百小应」等官方应用直接体验 M 系列医疗模型的能力。从定位上看,Baichuan 与通义千问(Qwen)、智谱 GLM、DeepSeek 等同属「中文系」开源基座,差异化点在于其医疗垂直能力、量化部署友好度(7B 4bits 仅需 5.1GB 显存)以及对中文长文任务的相对优势。2025 年以来,百川将研发重心明显向「严肃医疗」赛道倾斜,陆续开源的 M1、M2、M3 在 HealthBench 评测上屡次跑赢同期开源模型,引发业内关注。
核心功能
- 中英双语基座模型 — 提供 7B/13B/53B 等多种参数规模 Base 与 Chat 版本,2.6 万亿 tokens 训练,在中英文综合任务上有稳定表现。
- 4bits 量化部署 — 官方提供 4bits/8bits 量化模型,7B 量化后仅需 5.1GB 显存,RTX 2060s/RTX 3060 等消费级显卡可流畅运行。
- 长上下文支持 — Baichuan2-192K 支持 192K 上下文窗口,适合长文档摘要、合同审查、跨文档问答等场景。
- 医疗增强版本(M 系列) — Baichuan-M1/M2/M3 专注医疗场景,M3 在 HealthBench 评测中以 65.1 分排名第一(以官方公开数据为准)。
- 多模态扩展(Omni-1.5) — 支持文本、图像、音频和视频的全模态理解,以及文本和音频的双模态生成。
如何使用
注册和入门
如需使用 Baichuan 的云端 API 或「百小应」应用,需访问百川智能官网 baichuan-ai.com 注册账号,完成实名认证后申请 API Key。如以本地部署为目标,则无需注册,只需准备好 Python 3.8+、PyTorch 2.0+、Git LFS 等基础环境即可。注意:消费级 GPU(8GB 显存以上)即可运行 7B 4bits 量化版,13B 量化版建议 12GB 以上显存。
基础操作流程
- 克隆代码仓库:
git clone https://github.com/baichuan-inc/Baichuan2.git
cd Baichuan2
pip install -r requirements.txt
- 从 Hugging Face 下载模型权重(以 7B Chat 量化版为例):
git lfs install
git clone https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat-4bits
- 运行命令行对话 demo:
python cli_demo.py
- 如需 Web 界面,运行 Streamlit demo:
streamlit run web_demo.py
- 通过 Python API 调用:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan2-13B-Chat", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan2-13B-Chat", device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
messages = [{"role": "user", "content": "解释一下'温故而知新'的含义"}]
response = model.chat(tokenizer, messages)
print(response)
高级技巧
- 微调定制:项目内置
fine-tune/fine-tune.py支持 LoRA 轻量微调,结合peft库可在单卡消费级 GPU 上完成 7B 模型的领域适配;多机训练使用 DeepSpeed + hostfile 即可横向扩展。 - CPU 部署:若仅有 CPU 环境,可将
torch_dtype改为torch.float32进行推理,速度较慢但仍可跑通;也可使用 llama.cpp 等社区移植版本。 - 离线 4bits 量化:对已下载的完整 bf16 模型,使用
bitsandbytes自行量化可降低 60% 以上显存占用,实测 4bits 量化后能力损失在 1–2 个百分点之间(以官方公开评测数据为准)。 - Baichuan 1 优化迁移:社区在 Baichuan-1 上做的编译/推理优化方案,可通过替换
lm_head.weight归一化版,零成本迁移到 Baichuan 2。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 模型权重开源 | 免费(商用需邮件申请) | Apache 2.0 源码,学术研究完全开放,商用需向 opensource@baichuan-inc.com 申请书面授权 |
| 4bits 量化模型 | 免费 | Hugging Face 公开下载,7B 仅 5.1GB 显存,RTX 2060s 即可运行 |
| 百小应(M 系列) | 应用端按需付费,以官网为准 | 接入 M1/M2/M3 医疗增强模型,提供医生版与患者版 |
| 企业级 API | 待官网确认 | 闭源 Baichuan-53B 等大模型提供 API 调用,以官方最新报价为准 |
| 金融大模型 Baichuan4-Finance | 待官网确认 | 面向金融行业的领域增强模型,以官网商务对接为准 |
竞品对比
| 维度 | Baichuan | 通义千问 Qwen | 智谱 GLM | Llama 2 |
|---|---|---|---|---|
| 开源协议 | Apache 2.0 + 社区许可(商用需申请) | Apache 2.0(部分版本 Qwen) | 商用许可较严,需申请 | 社区许可,月活 7 亿以上用户受限 |
| 中文能力 | 强,CMMLU 61.97(13B) | 强,Qwen 系列对中文优化深 | 强,ChatGLM 系列在中文榜单稳定 | 英文为主,中文需额外微调 |
| 参数规模 | 7B/13B/53B/192K | 0.5B–72B+ | 6B/9B/130B | 7B/13B/70B |
| 垂直领域 | 医疗 M 系列、金融 Finance | 通义家族通用与代码 Qwen-Coder | GLM-4 通用 + 多模态 | 通用为主,社区微调生态 |
| 部署门槛 | 低(4bits 5.1GB) | 中(Qwen2.5 1.5B 起) | 中(9B 推荐 24GB) | 中(7B 量化约 4–6GB) |
| 适合人群 | 中文基座研究、中文对话、医疗场景 | 通用 NLP/代码/多模态 | 中英长文本、多模态、Agent | 学术研究、英文场景、社区生态 |
优缺点
优点:
- 中文能力同尺寸领先,C-Eval/MMLU/CMMLU 等榜单上 13B 版本超过 Llama 2 同尺寸模型
- 4bits 量化版本对消费级显卡非常友好,RTX 2060s 即可运行 7B Chat
- 医疗垂直版(M 系列)在 HealthBench 上表现突出,适合医疗知识库、问诊辅助等场景
- 文档与示例代码相对完善,中文社区资料较多,上手门槛低
- 商用许可相对清晰,Apache 2.0 源码 + 社区许可,申请流程公开透明
缺点:
- 商用授权需额外邮件申请,流程不如 Qwen/GLM 直接开放来得省事
- 13B 之后很长一段时间内未开源 70B+ 大模型,与同期 Llama 3、Qwen2.5 等相比规模略显保守
- 闭源大模型版本在企业级 API 上的市场声量相对较小,生态以开源版本为主
- 训练细节披露集中在 Baichuan 2 技术报告,后续版本训练公开度参差
- 工具调用/Agent 能力与一线闭源模型相比仍有差距,需自行二次开发
常见问题
Q1: Baichuan 系列模型是否可以直接商用? A1: 源码采用 Apache 2.0;模型权重(尤其是 Baichuan 2 系列)使用《Baichuan 2 模型社区许可协议》,学术研究完全免费,商用需通过 opensource@baichuan-inc.com 提交申请,获得书面授权后方可商用。具体条款以 GitHub 仓库 LICENSE 文件为准。
Q2: 7B Chat 4bits 量化版本最低需要什么显卡? A2: 官方公开数据显示,7B 4bits 量化版约需 5.1GB 显存,RTX 2060s(8GB)或 RTX 3060(12GB)即可流畅运行;13B 4bits 量化版约需 8.6GB 显存,推荐 RTX 3060 12GB 以上;CPU 推理可行但速度较慢,不推荐生产环境使用。
Q3: Baichuan-M1/M2/M3 医疗模型与基础版有什么区别? A3: M 系列是百川智能针对医疗场景增强的模型,基于「AI 患者模拟器」+ 端到端强化学习训练,聚焦低幻觉率与严肃问诊能力。官方公开数据显示 M3 在 HealthBench 评测中得分领先同期开源模型(以官方数据为准),并已开源至 Hugging Face(baichuan-inc/Baichuan-M3-235B)。如用于临床诊断等高风险场景,需自行进行合规评估。
Q4: Baichuan 2 与 Llama 2 相比哪个更适合中文任务? A4: 从 C-Eval、CMMLU 等中文权威榜单看,Baichuan 2-13B 在多数中文任务上超过 Llama 2-13B;但 Llama 2 拥有更庞大的英文社区生态和微调资源。如果业务以中文为主,Baichuan 2 是更合适的选择;如果以英文为主或需要使用社区大量微调版本,Llama 系列生态更丰富。
总结建议
Baichuan 是国产开源大模型中「中文友好 + 低门槛部署 + 医疗垂直能力」组合的代表,特别适合以下几类用户:1)消费级显卡持有者,想跑一个 7B/13B 量化模型做本地对话或实验;2)中文基座模型研究者,需要参考高质量的中文训练数据与训练细节;3)医疗相关产品团队,可基于 M 系列医疗模型做问诊辅助、知识库检索等应用;4)中小型企业私有化部署,对中文任务有刚需且希望清晰商用授权流程。如果你的场景以英文为主,或需要 70B+ 级别的超大规模模型,建议同时评估 Qwen2.5、Llama 3 等候选;若侧重多模态或 Agent 能力,可关注百川的 Omni-1.5 全模态版本或对比 GLM-4.5V 等更新模型。商用前请务必核对最新 LICENSE 与官方授权邮件回复,以免因条款变化产生合规风险。
同分类推荐
开源模型 分类下的其他工具