Baichuan

📋 资质核验 核验日期:2026-06-14未独立实测 🔴 高级

百川智能推出的开源大语言模型,中文能力出色,支持商用,适合国内开发者本地部署使用

开源百川国产
📅 收录: 2026-06-06 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. Baichuan

Baichuan 快速入门

国内最早一批开源商用的大模型之一,中文场景成熟,本地部署稳定。

这是什么?适合谁?

Baichuan(百川)是由前搜狗 CEO 王小川创立的百川智能推出的开源大语言模型系列,自 2023 年 6 月发布以来持续迭代,出了 Baichuan-7B、Baichuan-13B 等多个版本。它是少数明确支持商用的国产开源大模型,对中文场景做了深度优化。

它适合这些用户:第一,做国内业务的开发者,需要在本地或私有云跑中文大模型,数据不能出域;第二,做垂直应用(教育、法律、医疗、客服)的团队,想要一个中文表现好、可微调、授权清晰的开源底座;第三,想学习大模型训练、微调、部署的工程师和学生,百川的文档和社区相对友好。

百川的核心优势是中文理解和生成质量高、模型权重完全开放、商用许可清晰。在 Hugging Face 和 GitHub 上都可以下载,支持主流推理框架(vLLM、Transformers、FastChat 等)。

注意:虽然是开源,但模型权重几十 GB,需要 GPU 服务器才能跑;小模型(7B)可以在消费级显卡(如 RTX 4090 24G)上跑起来,大模型(13B+)需要 A100 级别的显卡。

准备工作

  • 一台带 NVIDIA GPU 的服务器/工作站(显存 24GB+ 推荐)
  • Linux 系统(Ubuntu 20.04 / 22.04 推荐)
  • CUDA 11.8+ 和对应版本的驱动
  • Python 3.9+ 和 PyTorch 2.0+
  • 至少 50GB 磁盘空间(存放模型权重)
  • 基础的命令行和 Python 能力
  • 良好的网络环境(从 Hugging Face 下载模型)

3 步快速上手

第 1 步:克隆仓库并安装依赖

git clone https://github.com/baichuan-inc/Baichuan.git
cd Baichuan
pip install -r requirements.txt
pip install torch transformers accelerate

如果用 vLLM(推荐,推理快):

pip install vllm

第 2 步:下载模型权重

去 Hugging Face 找到你要的版本,比如 baichuan-inc/Baichuan2-13B-Chat:

# 先登录 Hugging Face(部分模型需要同意许可)
huggingface-cli login

# 下载模型
git lfs install
git clone https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat

模型大小约 26GB(13B),如果是 7B 版本约 14GB。

第 3 步:跑通对话

用 Transformers 直接推理,新建 chat_baichuan.py:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("Baichuan2-13B-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Baichuan2-13B-Chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

messages = [{"role": "user", "content": "用一句话介绍百川大模型。"}]
response = model.chat(tokenizer, messages)
print(response)

如果用 vLLM(更快,生产推荐):

python -m vllm.entrypoints.openai.api_server \
  --model Baichuan2-13B-Chat \
  --trust-remote-code \
  --port 8000

之后可以用 OpenAI 兼容客户端调用:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Baichuan2-13B-Chat",
    "messages": [{"role": "user", "content": "你好"}]
  }'

常见踩坑

  1. 显存不够:13B 模型 bfloat16 加载需要 ~26GB 显存,7B 模型 ~14GB,4-bit 量化版分别降到 ~10GB / ~6GB,可以根据硬件选。
  2. 缺少 trust_remote_code=True:百川模型使用自定义代码,加载时必须加这个参数,否则会报错。
  3. 网络下载失败:Hugging Face 模型下载可能很慢或被中断,建议用 huggingface-cli 或镜像站(国内有 hf-mirror.com)。
  4. CUDA 版本不匹配:PyTorch、CUDA、驱动版本必须匹配,版本不对会出现”CUDA not available”等错误。
  5. 商用许可要确认:虽然百川支持商用,但具体许可条款可能随版本变化,使用前看 LICENSE 文件。
  6. 中文分词差异:百川有自己的 tokenizer,和 Llama、Qwen 不通用,迁移应用时要替换对应分词器。

初级用法

  • 命令行对话:用 python cli_demo.py(仓库自带示例),直接和模型对话。
  • Web 演示:用 python web_demo.py,启动 Gradio 网页,浏览器里聊天。
  • API 部署:用 vLLM 或 Text Generation Inference 启动 OpenAI 兼容 API,接入自家应用。

高级玩法

  • LoRA 微调:用 transformers + peft + 自己的数据集做 LoRA 微调,在垂直场景(医疗问答、法律咨询)上效果显著。
  • 量化部署:用 bitsandbytes 做 4-bit 量化,显存需求降低到 1/4,适合消费级显卡。
  • RAG 集成:配合 LangChain、LlamaIndex,把百川作为底座 LLM,做企业知识问答。
  • 多卡推理:用 acceleratedeepspeed 做多卡并行,跑更大的模型。
  • Function Calling:部分新版本支持函数调用,可以做 Agent 应用(具体看版本文档)。

小技巧

  • 显存吃紧就用 4-bit 量化版,牺牲一点质量换运行可能性。
  • 推理速度上,vLLM 远超原生 Transformers,生产环境强烈推荐。
  • 微调时用 LoRA,而不是全参数,显存需求小很多,效果也不错。
  • 中文场景用百川,英文/代码场景建议对比 Qwen2.5、Llama 3,选效果最好的。
  • 模型文件很大,做好磁盘管理:训练用的数据、checkpoint、模型权重分开目录。
  • 关注 GitHub Releases 跟踪新版本,百川模型迭代较快。

常见问题 FAQ

Q1: Baichuan 是免费的吗?

A: Baichuan 开源模型(如 Baichuan2-7B/13B)可免费下载和本地部署,Apache 2.0 协议允许商用(DAU<100万且非云服务提供商)。百川也提供云端 API(平台:baichuan-ai.com),新用户赠送约 100-500 万 token 免费额度,超出按量付费。

Q2: Baichuan 本地部署需要什么配置?

A: Baichuan2-7B 模型约 14GB 显存(FP16),量化后(INT4)约 4-5GB。推荐至少 16GB 显存的 GPU(如 RTX 3060/4060 12GB)。也可用 llama.cpp 等框架降低显存需求。

Q3: Baichuan 有 API 吗?怎么调用?

A: 有。百川智能提供云端 API,兼容 OpenAI SDK 格式,国内直连。也支持通过百度千帆、阿里云百炼等平台调用 Baichuan 模型。本地部署可以用 vLLM、Ollama 等框架提供兼容 API。

Q4: Baichuan 和 ChatGLM、Qwen 比有什么优势?

A: Baichuan 在中文理解、安全对齐方面表现优秀,模型体积适中(7B/13B),部署门槛较低。ChatGLM 在对话流畅性上更突出,Qwen 系列覆盖面更广(0.5B-72B)。三者都是国产优秀开源模型,选型建议根据具体任务实测。

Q5: Baichuan 支持商用吗?

A: Baichuan2 系列采用 Apache 2.0 协议 + 社区许可协议,允许商用,但有条件:日均用户活跃量需低于 100 万,且不能是云服务提供商。超出限制需联系百川获取商业授权。

进阶学习建议

如果想进一步用好 Baichuan,建议按以下路径学习:

第 1 周:熟练基础

  • 完成 3 步快速上手,跑通第一个任务
  • 试 2-3 个不同场景的真实任务
  • 记录”哪些操作有效、哪些没用”——形成自己的笔记

第 2 周:探索功能

  • 把界面上的按钮/菜单都点一遍
  • 找到最常用的 3-5 个功能
  • 配置个性化设置(主题、快捷键、默认参数)

第 3-4 周:融入工作流

  • 找到 Baichuan 与你现有工具的结合点
  • 用快捷键/模板/批处理提高效率
  • 考虑付费升级(如果免费版够用就不必)

长期:进阶玩法

  • 探索 Baichuan 的 API/SDK 集成
  • 写自己的脚本/扩展/插件
  • 关注官方博客/更新日志,第一时间用上新功能

推荐资源:

  • 官方文档:https://github.com/baichuan-inc/Baichuan
  • 官方 YouTube/B 站频道(看产品演示)
  • 国内社区:CSDN/掘金/知乎搜 “Baichuan 教程”
  • 国外社区:Reddit、Product Hunt 评论区

避免的坑:

  • 不要追求”全能工具”——Baichuan 不可能满足所有需求
  • 不要盲目订阅付费版——先用免费版验证价值
  • 不要忽略数据备份——重要内容定期导出
  • 不要被新功能冲昏头脑——核心功能用熟再拓展

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. Baichuan

Baichuan 完整使用指南

王小川创立的百川智能推出的开源大模型系列,中文能力突出、医疗增强版本 Baichuan-M 在 HealthBench 评测中多次领先。

评分: 8.4/10 价格: 模型权重免费(商用需邮件申请)/API 付费 厂商: 百川智能(baichuan-inc) 官网: baichuan-ai.com


目录

  1. 什么是Baichuan
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

  • 操作系统:Windows 10+/macOS 12+/Ubuntu 20.04+
  • Python 3.8+ 与 pip
  • GPU 显存 ≥ 8GB(7B Chat 4bits 量化版),推荐 RTX 3060/3090/4090
  • 安装 Git LFS(用于下载大模型权重):https://git-lfs.com
  • 准备好 国内镜像(加速 Hugging Face 下载,避免 404/超时):
pip install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com   # Windows PowerShell 用 $env:HF_ENDPOINT

第 2 步:跟着做

  1. 克隆代码仓库并安装依赖(代码仓库:baichuan-inc/Baichuan2):
git clone https://github.com/baichuan-inc/Baichuan2.git
cd Baichuan2
pip install -r requirements.txt
pip install streamlit  # 跑 Web demo 需要
  1. 下载 Baichuan2 7B Chat 4bits 量化版(权重约 5.1GB,适合 8GB 显存):
git lfs install
git clone https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat-4bits
  1. 启动命令行对话(cli_demo.py 首次运行会加载权重,等待 1-3 分钟):
python cli_demo.py

按提示输入问题,如:用一句话介绍百川智能,看到模型中文回复即成功。

  1. 想要 Web 界面(浏览器聊天),改跑:
streamlit run web_demo.py

终端会打印 http://localhost:8501,浏览器打开即可对话。

第 3 步:验证

  • 成功标志:命令行打印出与提问相关的中文回答,Web 界面在输入框输入问题后 1-5 秒内流式输出中文
  • 国内网络下若 huggingface.co 克隆失败,改用镜像源:https://hf-mirror.com/baichuan-inc/Baichuan2-7B-Chat-4bits
  • 下一步建议:① 想要更高质量输出,把 cli_demo.py 里的模型路径换成 Baichuan2-13B-Chat(需 ≥12GB 显存);② 商用前邮件申请授权:opensource@baichuan-inc.com;③ 想试医疗场景,把模型替换为 baichuan-inc/Baichuan-M2-32B

什么是Baichuan

Baichuan(百川)是由搜狗创始人王小川于 2023 年 4 月创立的「百川智能」公司推出的大模型系列,公司总部位于北京,定位为通用人工智能服务商。Baichuan 系列自第一代 Baichuan-7B/13B 发布以来,经历了 Baichuan2(7B/13B,2.6 万亿 tokens 训练)、Baichuan-53B 闭源模型,以及针对特定场景的 Baichuan-192K 超长上下文版本、Baichuan4-Finance 金融大模型、Baichuan-Omni-1.5 全模态模型、Baichuan-M1/M2/M3 医疗增强模型等多个迭代。截至 2023 年 12 月,Baichuan 系列在 GitHub 与 Hugging Face 累计下载量已超过 500 万次,是国内最早走通「开源免费可商用」路线的国产大模型之一。

Baichuan 的目标用户覆盖三类:一是中小型开发者和研究机构,可基于 Apache 2.0 源码与 Baichuan 2 社区许可协议二次开发与微调;二是企业私有化部署客户,尤其是金融、医疗、教育等对数据合规有较高要求的行业;三是 C 端产品团队,可通过百川提供的「百小应」等官方应用直接体验 M 系列医疗模型的能力。从定位上看,Baichuan 与通义千问(Qwen)、智谱 GLM、DeepSeek 等同属「中文系」开源基座,差异化点在于其医疗垂直能力、量化部署友好度(7B 4bits 仅需 5.1GB 显存)以及对中文长文任务的相对优势。2025 年以来,百川将研发重心明显向「严肃医疗」赛道倾斜,陆续开源的 M1、M2、M3 在 HealthBench 评测上屡次跑赢同期开源模型,引发业内关注。

核心功能

  1. 中英双语基座模型 — 提供 7B/13B/53B 等多种参数规模 Base 与 Chat 版本,2.6 万亿 tokens 训练,在中英文综合任务上有稳定表现。
  2. 4bits 量化部署 — 官方提供 4bits/8bits 量化模型,7B 量化后仅需 5.1GB 显存,RTX 2060s/RTX 3060 等消费级显卡可流畅运行。
  3. 长上下文支持 — Baichuan2-192K 支持 192K 上下文窗口,适合长文档摘要、合同审查、跨文档问答等场景。
  4. 医疗增强版本(M 系列) — Baichuan-M1/M2/M3 专注医疗场景,M3 在 HealthBench 评测中以 65.1 分排名第一(以官方公开数据为准)。
  5. 多模态扩展(Omni-1.5) — 支持文本、图像、音频和视频的全模态理解,以及文本和音频的双模态生成。

如何使用

注册和入门

如需使用 Baichuan 的云端 API 或「百小应」应用,需访问百川智能官网 baichuan-ai.com 注册账号,完成实名认证后申请 API Key。如以本地部署为目标,则无需注册,只需准备好 Python 3.8+、PyTorch 2.0+、Git LFS 等基础环境即可。注意:消费级 GPU(8GB 显存以上)即可运行 7B 4bits 量化版,13B 量化版建议 12GB 以上显存。

基础操作流程

  1. 克隆代码仓库:
git clone https://github.com/baichuan-inc/Baichuan2.git
cd Baichuan2
pip install -r requirements.txt
  1. 从 Hugging Face 下载模型权重(以 7B Chat 量化版为例):
git lfs install
git clone https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat-4bits
  1. 运行命令行对话 demo:
python cli_demo.py
  1. 如需 Web 界面,运行 Streamlit demo:
streamlit run web_demo.py
  1. 通过 Python API 调用:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan2-13B-Chat", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan2-13B-Chat", device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
messages = [{"role": "user", "content": "解释一下'温故而知新'的含义"}]
response = model.chat(tokenizer, messages)
print(response)

高级技巧

  • 微调定制:项目内置 fine-tune/fine-tune.py 支持 LoRA 轻量微调,结合 peft 库可在单卡消费级 GPU 上完成 7B 模型的领域适配;多机训练使用 DeepSpeed + hostfile 即可横向扩展。
  • CPU 部署:若仅有 CPU 环境,可将 torch_dtype 改为 torch.float32 进行推理,速度较慢但仍可跑通;也可使用 llama.cpp 等社区移植版本。
  • 离线 4bits 量化:对已下载的完整 bf16 模型,使用 bitsandbytes 自行量化可降低 60% 以上显存占用,实测 4bits 量化后能力损失在 1–2 个百分点之间(以官方公开评测数据为准)。
  • Baichuan 1 优化迁移:社区在 Baichuan-1 上做的编译/推理优化方案,可通过替换 lm_head.weight 归一化版,零成本迁移到 Baichuan 2。

价格方案

方案价格核心权益
模型权重开源免费(商用需邮件申请)Apache 2.0 源码,学术研究完全开放,商用需向 opensource@baichuan-inc.com 申请书面授权
4bits 量化模型免费Hugging Face 公开下载,7B 仅 5.1GB 显存,RTX 2060s 即可运行
百小应(M 系列)应用端按需付费,以官网为准接入 M1/M2/M3 医疗增强模型,提供医生版与患者版
企业级 API待官网确认闭源 Baichuan-53B 等大模型提供 API 调用,以官方最新报价为准
金融大模型 Baichuan4-Finance待官网确认面向金融行业的领域增强模型,以官网商务对接为准

竞品对比

维度Baichuan通义千问 Qwen智谱 GLMLlama 2
开源协议Apache 2.0 + 社区许可(商用需申请)Apache 2.0(部分版本 Qwen)商用许可较严,需申请社区许可,月活 7 亿以上用户受限
中文能力强,CMMLU 61.97(13B)强,Qwen 系列对中文优化深强,ChatGLM 系列在中文榜单稳定英文为主,中文需额外微调
参数规模7B/13B/53B/192K0.5B–72B+6B/9B/130B7B/13B/70B
垂直领域医疗 M 系列、金融 Finance通义家族通用与代码 Qwen-CoderGLM-4 通用 + 多模态通用为主,社区微调生态
部署门槛低(4bits 5.1GB)中(Qwen2.5 1.5B 起)中(9B 推荐 24GB)中(7B 量化约 4–6GB)
适合人群中文基座研究、中文对话、医疗场景通用 NLP/代码/多模态中英长文本、多模态、Agent学术研究、英文场景、社区生态

优缺点

优点:

  • 中文能力同尺寸领先,C-Eval/MMLU/CMMLU 等榜单上 13B 版本超过 Llama 2 同尺寸模型
  • 4bits 量化版本对消费级显卡非常友好,RTX 2060s 即可运行 7B Chat
  • 医疗垂直版(M 系列)在 HealthBench 上表现突出,适合医疗知识库、问诊辅助等场景
  • 文档与示例代码相对完善,中文社区资料较多,上手门槛低
  • 商用许可相对清晰,Apache 2.0 源码 + 社区许可,申请流程公开透明

缺点:

  • 商用授权需额外邮件申请,流程不如 Qwen/GLM 直接开放来得省事
  • 13B 之后很长一段时间内未开源 70B+ 大模型,与同期 Llama 3、Qwen2.5 等相比规模略显保守
  • 闭源大模型版本在企业级 API 上的市场声量相对较小,生态以开源版本为主
  • 训练细节披露集中在 Baichuan 2 技术报告,后续版本训练公开度参差
  • 工具调用/Agent 能力与一线闭源模型相比仍有差距,需自行二次开发

常见问题

Q1: Baichuan 系列模型是否可以直接商用? A1: 源码采用 Apache 2.0;模型权重(尤其是 Baichuan 2 系列)使用《Baichuan 2 模型社区许可协议》,学术研究完全免费,商用需通过 opensource@baichuan-inc.com 提交申请,获得书面授权后方可商用。具体条款以 GitHub 仓库 LICENSE 文件为准。

Q2: 7B Chat 4bits 量化版本最低需要什么显卡? A2: 官方公开数据显示,7B 4bits 量化版约需 5.1GB 显存,RTX 2060s(8GB)或 RTX 3060(12GB)即可流畅运行;13B 4bits 量化版约需 8.6GB 显存,推荐 RTX 3060 12GB 以上;CPU 推理可行但速度较慢,不推荐生产环境使用。

Q3: Baichuan-M1/M2/M3 医疗模型与基础版有什么区别? A3: M 系列是百川智能针对医疗场景增强的模型,基于「AI 患者模拟器」+ 端到端强化学习训练,聚焦低幻觉率与严肃问诊能力。官方公开数据显示 M3 在 HealthBench 评测中得分领先同期开源模型(以官方数据为准),并已开源至 Hugging Face(baichuan-inc/Baichuan-M3-235B)。如用于临床诊断等高风险场景,需自行进行合规评估。

Q4: Baichuan 2 与 Llama 2 相比哪个更适合中文任务? A4: 从 C-Eval、CMMLU 等中文权威榜单看,Baichuan 2-13B 在多数中文任务上超过 Llama 2-13B;但 Llama 2 拥有更庞大的英文社区生态和微调资源。如果业务以中文为主,Baichuan 2 是更合适的选择;如果以英文为主或需要使用社区大量微调版本,Llama 系列生态更丰富。

总结建议

Baichuan 是国产开源大模型中「中文友好 + 低门槛部署 + 医疗垂直能力」组合的代表,特别适合以下几类用户:1)消费级显卡持有者,想跑一个 7B/13B 量化模型做本地对话或实验;2)中文基座模型研究者,需要参考高质量的中文训练数据与训练细节;3)医疗相关产品团队,可基于 M 系列医疗模型做问诊辅助、知识库检索等应用;4)中小型企业私有化部署,对中文任务有刚需且希望清晰商用授权流程。如果你的场景以英文为主,或需要 70B+ 级别的超大规模模型,建议同时评估 Qwen2.5、Llama 3 等候选;若侧重多模态或 Agent 能力,可关注百川的 Omni-1.5 全模态版本或对比 GLM-4.5V 等更新模型。商用前请务必核对最新 LICENSE 与官方授权邮件回复,以免因条款变化产生合规风险。

同分类推荐

开源模型 分类下的其他工具