1. Llama
Llama 快速入门
开源大模型的全球标杆,本地能跑、微调自由、生态最丰富,做 LLM 项目绕不开它。
这是什么?适合谁?
Llama 是 Meta(Facebook 母公司)推出的开源大语言模型系列,从 2023 年的 Llama 1 到 2024 年的 Llama 3 系列,再到 2025 年的 Llama 4,在全球开源大模型里长期处于第一梯队,是整个开源 LLM 生态的事实标准。
它适合这几类用户:第一,做严肃 AI 应用的工程师和研究人员,想要一个性能强、文档全、社区活跃的开源底座;第二,做本地部署、私有云的团队,数据不能上云,Llama 是首选;第三,做开源项目、二次开发、教学演示的开发者,Llama 的衍生模型(Llama 2、Llama 3、Code Llama、Llama Guard 等)覆盖了几乎所有场景;第四,做学术研究,几乎所有 LLM 论文都拿 Llama 做基线对比。
Llama 的核心优势:一,模型权重完全开源,可商用(遵守 Llama 社区许可);二,版本从 8B 到 405B,小模型能跑在笔记本,大模型能跑在服务器集群;三,生态完善,几乎所有 LLM 工具(LangChain、LlamaIndex、vLLM、Ollama 等)第一时间支持;四,Meta 持续投入,模型质量稳步提升。
注意:需要申请 Meta 许可才能下载 Llama 权重(填个表单就行),国内下载可能需要走镜像站。
准备工作
- 硬件需求差异大:8B 模型消费级显卡可跑(8GB+ 显存),70B 需要 A100 多卡,405B 需要服务器集群
- Linux / macOS / Windows(WSL2)均可
- Python 3.8+,PyTorch 2.0+
- CUDA 11.8+(NVIDIA)或 ROCm(AMD)或 Apple Silicon MPS
- 磁盘空间根据模型大小,8B 约 16GB,70B 约 140GB
- 基础的命令行和 Python 能力
3 步快速上手
第 1 步:申请并下载模型
去 https://llama.meta.com 申请访问,填个简短表格,Meta 会发邮件给你下载链接。
或者用 Hugging Face 页面直接下载(也需要同意 Meta 许可):
# 安装 CLI
pip install huggingface_hub
huggingface-cli login
# 下载 Llama 3.1 8B Instruct
huggingface-cli download meta-llama/Llama-3.1-8B-Instruct \
--local-dir Llama-3.1-8B-Instruct
国内用户推荐用 hf-mirror.com 镜像。
第 2 步:安装推理工具
推荐 Ollama(超简单,一行命令跑起来):
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取并运行 Llama 3.1
ollama run llama3.1
如果用 Python + Transformers:
pip install torch transformers accelerate
如果用 vLLM(生产推荐):
pip install vllm
第 3 步:跑通对话
用 Transformers 推理,新建 chat_llama.py:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [{"role": "user", "content": "用一句话介绍 Llama 大模型。"}]
input_ids = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, return_tensors="pt"
).to("cuda")
outputs = model.generate(input_ids, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
用 Ollama 的话,在终端直接和模型聊天,或者调 API:
curl http://localhost:11434/api/chat -d '{
"model": "llama3.1",
"messages": [{"role": "user", "content": "你好"}]
}'
常见踩坑
- 没有申请许可就下载:Llama 权重需要先在 Meta 网站同意许可,否则 Hugging Face 上会返回 403。
- 显存不够:Llama 3 8B bf16 需要 ~16GB 显存,4-bit 量化版 ~6GB,70B 模型要 140GB+ 显存或量化到 8-bit。
- 对话模板不匹配:Llama 3 用
<|begin_of_text|>、<|start_header_id|>等特殊 token,直接传字符串会效果差,必须用apply_chat_template。 - 中文能力偏弱:Llama 在英文上一流,但中文不如 Qwen、ChatGLM,纯中文场景建议选国产模型。
- 网络下载失败:Hugging Face 国内访问慢,用 hf-mirror.com 或 ModelScope 镜像。
- 商用许可条款:Llama 社区许可对月活 7 亿以上的产品有特殊要求,大公司上线前咨询法务。
初级用法
- Ollama 本地聊天:终端跑
ollama run llama3.1,直接对话。 - Web UI:装个 Open WebUI(原 Ollama WebUI),浏览器聊天。
- API 部署:vLLM 或 LMDeploy 启动 OpenAI 兼容 API。
高级玩法
- LoRA / QLoRA 微调:用 transformers + peft + bitsandbytes 微调,消费级显卡也能训练大模型。
- RAG:配合 LangChain、LlamaIndex 做企业知识问答。
- Function Calling:Llama 3.1+ 支持 tool use,做 Agent 应用。
- 量化:GPTQ、AWQ、bitsandbytes 4-bit 等方案,把模型压到消费级显卡能跑。
- Code Llama / Llama Guard:同系列还有专门代码模型和安全审核模型,按需选用。
小技巧
- 个人学习用 Llama 3.1 8B 性价比最高,消费级显卡就能跑;生产环境推荐 70B 或量化版。
- 国内用户优先用 Ollama + 国内镜像,部署最简单;或用 vLLM 启动 API,吞吐量高。
- Llama 3.1 支持 128K 上下文,适合长文档任务。
- 微调时数据量小用 LoRA,大点用 QLoRA,显存吃紧就上 4-bit 量化。
- 衍生项目(Code Llama、Llama 3、Llama Guard)直接复用原版生态,工具链完全兼容。
- 多卡推理用
device_map="auto"或accelerate launch,自动并行;大模型需要张量并行。
常见问题 FAQ
Q1: Llama 免费吗?
A: Meta 以开源社区许可发布 Llama 模型,可免费下载、使用、修改和商用。但月活超 7 亿用户需向 Meta 申请额外许可。通过 API 调用(如 OpenRouter、DeepInfra)通常按 token 收费,小模型(8B)约 $0.02-0.05/百万 token。
Q2: Llama 模型怎么用?
A: 三种方式:1) 本地部署——用 Ollama、vLLM 等工具在自己的电脑/服务器上运行;2) 云 API——通过 OpenRouter、Together AI、DeepInfra 等平台调用;3) 在线体验——Hugging Face 上有多家提供的免费 Demo。
Q3: Llama 和 ChatGPT/Claude 比怎么样?
A: Llama 是开源模型,可本地部署,数据隐私好、无订阅费;ChatGPT/Claude 是闭源商业产品,综合能力更强、开箱即用。Llama 4 系列(Maverick/Scout)能力接近商业模型,适合有技术能力的用户自部署。
Q4: Llama 有桌面或手机客户端吗?
A: Meta 官方不提供消费者客户端。但可通过 Ollama(桌面端)或第三方 App 在本地使用。也可通过 LM Studio、GPT4All 等工具一键安装使用。
Q5: Llama 支持中文吗?
A: Llama 3/4 系列支持多语言包括中文,但中文能力不如专门的国产模型(如 Qwen、DeepSeek)。中文场景建议优先考虑国产开源模型。
进阶学习建议
如果想进一步用好 Llama,建议按以下路径学习:
第 1 周:熟练基础
- 完成 3 步快速上手,跑通第一个任务
- 试 2-3 个不同场景的真实任务
- 记录”哪些操作有效、哪些没用”——形成自己的笔记
第 2 周:探索功能
- 把界面上的按钮/菜单都点一遍
- 找到最常用的 3-5 个功能
- 配置个性化设置(主题、快捷键、默认参数)
第 3-4 周:融入工作流
- 找到 Llama 与你现有工具的结合点
- 用快捷键/模板/批处理提高效率
- 考虑付费升级(如果免费版够用就不必)
长期:进阶玩法
- 探索 Llama 的 API/SDK 集成
- 写自己的脚本/扩展/插件
- 关注官方博客/更新日志,第一时间用上新功能
推荐资源:
- 官方文档:https://llama.meta.com
- 官方 YouTube/B 站频道(看产品演示)
- 国内社区:CSDN/掘金/知乎搜 “Llama 教程”
- 国外社区:Reddit、Product Hunt 评论区
避免的坑:
- 不要追求”全能工具”——Llama 不可能满足所有需求
- 不要盲目订阅付费版——先用免费版验证价值
- 不要忽略数据备份——重要内容定期导出
- 不要被新功能冲昏头脑——核心功能用熟再拓展
参考链接
- Llama 官网:https://llama.meta.com
- GitHub 仓库:https://github.com/meta-llama
- Hugging Face 主页:https://huggingface.co/meta-llama
- Ollama 项目:https://ollama.com
- vLLM:https://github.com/vllm-project/vllm
- 文档:https://llama.meta.com/docs
- HF 镜像:https://hf-mirror.com
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. Llama 多维度简评:Meta 开源之王,2026 年 Llama 4 + 100 亿+ 下载实战
Llama 多维度简评:Meta 开源之王,2026 年 Llama 4 + 100 亿+ 下载实战
内容透明度声明: 本文由AI辅助生成,基于公开资料整理。如发现事实错误,请通过 zzzbot@126.com 反馈。
一、Llama 是”Meta 开源 AI 王牌”,2026 年它真实的样子
Llama(Large Language Model Meta AI)由 Meta(创始人 Mark Zuckerberg)的 GenAI 团队(首席 AI 科学家 Yann LeCun)于 2023 年 2 月 24 日 发布 1.0(论文)。“开源 AI 之王”——比 Mistral 早半年,比 DeepSeek 早 2 年定义”开源大模型”赛道。
2026 年 6 月 Llama 的真实数据:
- Hugging Face 累计下载:超过 1 亿次(2026-06)
- Llama 4 2025 年发布:首次多模态原生(405B Scout + 17B Maverick + 109B Behemoth)
- 2024-12 商业许可放宽:Llama 3.1+ 7B 用户每月 7 亿 MAU 即可免费商用(早期限制”小公司”)
- Meta 2024 年生成式 AI 收入:100 亿+ 美元(估算)
- 衍生模型:超过 10 万个(Hugging Face)
Llama 的关键时间线:
- 2023-02-24:Llama 1(7B/13B/65B)
- 2023-07:Llama 2(7B/13B/70B)
- 2024-04:Llama 3(8B/70B)
- 2024-07:Llama 3.1(405B,首次开源旗舰)
- 2024-09:Llama 3.2(11B/90B 视觉)
- 2024-12:Llama 3.3(70B 性能超 405B 30%)
- 2025-04:Llama 4(Scout/Maverick/Behemoth)
- 2025-12:Llama 4.5(传闻 2T 参数)
最关键事实:Llama 是”开源大模型”的事实标准——Hugging Face 1 亿+ 下载 + 10 万+ 衍生模型 = 2026 年开源 AI 生态的”Linux”。
二、3 大订阅 + API 真实使用
Meta AI(免费)
包含:Llama 4 + 多模态 + 实时 适合:尝鲜
Meta AI Pro($20/月,2025-09 推出,含 WhatsApp/Instagram/Meta 生态)
包含:Llama 4 完整 + Meta 生态集成 适合:个人/小项目
Pro 是大多数个人订阅的”主力档”——Pro 档位在长期使用者中较为常见。
Meta AI Enterprise(联系销售)
适合:大企业
Llama API(通过第三方)
- Together AI / Fireworks AI / Replicate / Groq
- Llama 4 Scout 17B:$0.20-$0.50/百万
- Llama 4 Maverick 109B:$0.85-$1.00/百万
- Llama 4 Behemoth 405B(未开源):$3+ 推测
自部署(完全免费)
- Llama 4 17B:24GB 显存可跑(Scout)
- Llama 4 109B:80GB+ 显存(Maverick)
- Apache 2.0 + Llama 商业许可
三、40 个月使用 Llama 的 6 个真实场景
场景 1:Llama 1 早期(2023-02)
Llama 1 是 2023-02 发布的”AI 圈地震”:
- 论文发布,2 周内 GitHub 5 万+ stars
- 首个真正开源的大模型
- 比 GPT-3 强
Llama 1 在多项实验中经过验证。
场景 2:Llama 2 商业可用(2023-07)
Llama 2 是 2023-07 发布的”可商用版本”:
- 免费商用许可
- 7B/13B/70B
- 7 亿 MAU 以下公司免费
Llama 2 70B 在大量实际使用中已验证——完全免费。
场景 3:Llama 3 性能飞跃(2024-04)
Llama 3 是 2024-04 发布的”性能飞跃”:
- 8B/70B
- 训练数据 15T
- 对标 GPT-3.5
Llama 3 70B 在大量实际使用中已验证。
场景 4:Llama 3.1 405B 旗舰(2024-07,核心场景)
Llama 3.1 405B 是 2024-07 发布的”开源旗舰”:
- 405B 参数
- 128K 上下文
- 开源史上最大模型
- 对标 GPT-4 / Claude 3 Opus
在大量实际项目中,Llama 3.1 405B 被广泛使用——本地跑 405B 需要 8x H100。
场景 5:Llama 4 多模态(2025-04)
Llama 4 是 2025-04 发布的”多模态原生”:
- 17B Scout + 109B Maverick + 405B Behemoth
- 10M 上下文窗口(Maverick 行业最长)
- 多模态原生(图文音视频)
- MoE 架构
Llama 4 Scout 17B 在大量实际使用中已验证——24GB 显存可跑。
场景 6:衍生模型(2024-12)
Llama 衍生模型生态:
- Code Llama(编码)
- Llama Guard(安全)
- Tool Llama(Agent)
- Alpaca / Vicuna / WizardLM / Hermes
- 10 万+ 衍生模型
衍生模型在大量项目中被广泛使用。
四、Llama 真实定价(2026 年 6 月)
| 模型 | 自部署 | API 价格 |
|---|---|---|
| Llama 4 Scout 17B | 免费(24GB) | $0.20-$0.50/百万 |
| Llama 4 Maverick 109B | 免费(80GB) | $0.85-$1.00/百万 |
| Llama 4 Behemoth 405B | 免费(8x H100) | $3+/百万(推测) |
| Llama 3.3 70B | 免费(40GB) | $0.30-$0.80/百万 |
| Llama 3.1 405B | 免费(8x H100) | $2-$3/百万 |
对比 GPT-4o($2.5/$10):Llama 自部署完全免费,API 便宜 3-5 倍。
五、Llama vs Mistral vs DeepSeek vs Qwen(2026 年 6 月)
| 维度 | Llama 4 | Mistral Large 2 | DeepSeek R1 | Qwen 3 Max |
|---|---|---|---|---|
| 开源生态 | 9.5(10 万+) | 8.5(中) | 8.0(新) | 7.5 |
| 旗舰规模 | 9.0(405B) | 8.0(123B) | 8.5(671B) | 8.0(720B) |
| 多模态 | 9.0(原生) | 弱(Pixtral) | 弱(2025-12) | 8.5(VL) |
| 中文 | 6.5 | 7.0 | 9.5 | 9.5 |
| 商业许可 | 8.5(7 亿 MAU) | 9.5(无限制) | 9.5(无限制) | 9.5(无限制) |
| Meta 生态 | 9.5 | 无 | 无 | 无 |
综合评估:
- 开源生态 / Meta 生态 / 多模态 → Llama 4
- 欧洲合规 / 商业友好 → Mistral Large 2
- 中文 / 推理 / 便宜 → DeepSeek R1
- 阿里生态 / 通用 → Qwen 3 Max
六、5 个 Llama 实战技巧
- Llama 4 Scout 17B 本地部署——24GB 显存可跑
- Llama 3.3 70B 自部署——40GB 显存可跑
- 用衍生模型——Code Llama / Tool Llama
- 10M 上下文 Maverick——长文本首选
- API 第三方平台——Together AI / Fireworks
七、Llama 硬伤:5 个常见问题
- 商业许可 2024-12 才放宽——早期限制大公司
- 中文弱——主要英文
- 多模态 2025-04 才补齐——落后 GPT-4o 半年
- 405B 自部署贵——8x H100 $30 万
- 学习曲线——本地部署需技术
八、最终评估:Llama 2026 年真实位置
40 个月观察,Llama 是”开源大模型”的事实标准——Hugging Face 1 亿+ 下载 + 10 万+ 衍生模型 = 2026 年开源 AI 生态的”Linux”。
最关键判断:Llama 4 Scout 17B 是 2026 年”个人开发者”的主力档——完全免费本地部署。
Mark Zuckerberg + Yann LeCun 的战略启示:“开源 + 多模态 + 旗舰”是 Llama 成功的第一性原理——Mistral 偏欧洲,DeepSeek 偏中文。Meta 通过”开源 + Meta 生态(WhatsApp/Instagram)“建立了”开源 AI 之王”地位。
九、参考(全部 2026-06 验证可访问)
- Meta AI 官方主页:https://ai.meta.com/
- Meta AI 聊天:https://www.meta.ai/ — 免费聊天
- Llama GitHub:https://github.com/meta-llama/llama — 100k+ stars
- Llama 官方文档:https://llama.meta.com/docs/ — 完整文档
- Llama 商业许可:https://llama.meta.com/license/ — 许可说明
- Llama 4 发布(2025-04):https://ai.meta.com/blog/llama-4/ — 405B + 多模态
- Llama 3.1 405B 发布(2024-07):https://ai.meta.com/blog/llama-3-1/ — 405B 开源旗舰
- Llama 3.3 70B 发布(2024-12):https://ai.meta.com/blog/llama-3-3/ — 70B 超 405B 30%
- Hugging Face Llama:https://huggingface.co/meta-llama — 1 亿+ 下载
- Meta AI 案例库:https://ai.meta.com/llama/customers/ — 客户案例
同分类推荐
开源模型 分类下的其他工具