第 11 章 · 大模型:基础层的「水电煤」战争
核心命题:基础大模型已经是「大公司游戏 + 国家队游戏」——中型 VC 的窗口期已经关闭。 数据锚点(2026 Q2):DeepSeek 450 亿美金 / Kimi 200 亿 / 智谱 MiniMax 港股 4000 亿港元 / 阶跃 50 亿元 B+。
11.1 全球格局:四集团 + 一匹黑马
2026 年 Q2 的全球大模型格局,可以总结为「四集团 + 一匹黑马」:
| 集团 | 玩家 | 特点 |
|---|---|---|
| 硅谷闭源派 | OpenAI, Anthropic, Google DeepMind | 闭源 + API 商业化 + 大资本支持 |
| 硅谷开源派 | Meta (Llama), Mistral, xAI (Grok) | 开源 + 生态扩张 |
| 中国六小虎 | 智谱、月之暗面、MiniMax、阶跃、百川、零一 | 中型独立 + 港股 IPO 路径 |
| 中国大厂派 | 阿里 Qwen、字节豆包、腾讯混元、华为盘古 | 大厂资源 + 应用生态 |
| 黑马 | DeepSeek | 量化基金内生 + 极致工程优化 + 全开源 |
核心估值数据(2026 年 5 月)
| 公司 | 估值 | 营收 | PS 倍数 |
|---|---|---|---|
| OpenAI | 3000 亿美金 | ~120 亿美金 ARR | ~25x |
| Anthropic | 2500 亿美金 | ~100 亿美金 ARR | ~25x |
| DeepSeek | 450 亿美金 | <10 亿美金 | >50x |
| 月之暗面 (Kimi) | 200 亿美金 | <5 亿美金 | >40x |
| 智谱(港股) | 4000 亿港元 ≈ 500 亿美金 | ~10 亿美金 | ~50x |
| MiniMax(港股) | 4000 亿港元 ≈ 500 亿美金 | ~8 亿美金 | ~60x |
| 阶跃星辰 | ~10 亿美金 (B+ 50 亿元) | ~1 亿美金 | ~10x |
来源:综合各公司公开融资公告、招股书、二级市场数据[1-7]。
张倩对大模型估值的判断
「按 PS 计算,中国 AI 大模型价格并不便宜。OpenAI 营收大几十亿美金,Anthropic 超过 10 亿。而中国 AI 大模型企业中还没有一家能超过 1 亿美金营收——但估值对标硅谷甚至更高。
这意味着入局门槛对中型 VC 已经太高——除非你是大厂战投或国家队,不要在这一层下重注。」[8]
11.2 商业模式拆解:3 条路径
大模型公司目前有 3 条商业模式路径,对应不同 VC 策略。
路径 1:API 商业化(OpenAI / Anthropic 模式)
特征:
- 闭源
- 直接卖 API(按 token)
- 重度依赖 enterprise API customers(OpenAI 的 ChatGPT 订阅 + API 各占 50%)
- 高毛利(推理成本是定价的 10-20%)
关键变量:
- token 单价:随推理优化下降,2024 年 GPT-4 是 $30/M token,2025 年降到 $5/M token;
- 客户结构:to B 大客户 + to C 订阅;
- 模型代际差:每 12-18 个月一次代际升级,落后者立刻失去份额。
VC 投资判断:
- 早期入局已不可能(OpenAI / Anthropic 都已 $100B+);
- 中后期入局回报有限(5-10x 上限);
- 主要适合主权基金 / 巨型 PE。
路径 2:政府 / 大客户买单(中国六小虎部分公司模式)
特征:
- 重度依赖政府 + 央国企客户;
- 项目制收入(一个客户几百万到几千万 ARR);
- 商业化效率受合同周期限制;
- 营收增长慢但相对稳定。
张倩判断:
「中国大模型很难找到清晰的商业模式,除非主要依赖政府买单。」[8]
这条路径的关键限制:
- 政府订单天花板有限(中国政府 IT 预算 1000 亿人民币左右);
- 政府订单回款慢(6-12 个月);
- 利润率不高(~30-40%);
- 估值倍数被压制(PS < 20x)。
VC 投资判断:避开。
路径 3:开源 + 生态变现(DeepSeek / Mistral / Llama 模式)
特征:
- 完全开源核心模型;
- 不直接卖 API,但通过生态间接变现:
- DeepSeek:通过云厂商分成(DeepSeek 模型托管在云上,云厂商付费);
- Mistral:企业版(私有部署)+ 咨询服务;
- Meta:通过 Llama 巩固自己的应用层(WhatsApp、Instagram)。
- 估值锚定生态影响力而非短期营收。
VC 投资判断:
- 早期窗口已经关闭(DeepSeek 已 $45B);
- 但**「下一个 DeepSeek」**值得寻找——比如某个特定垂直领域的开源 LLM;
- 关键是判断「这个团队能把开源做成生态吗?」。
11.3 中国六小虎深度拆解
智谱(Z.AI)
- 创始人:唐杰团队(清华 KEG 实验室)
- 路线:自研全栈(GLM 系列)
- 客户:央国企 + 政府订单为主
- 估值:港股 IPO,市值 4000 亿港元
- 判断:技术深度强,商业化中规中矩,典型「学院派出身 + 政府导向」。
月之暗面(Kimi / Moonshot)
- 创始人:杨植麟(CMU 博士,Google Brain)
- 路线:闭源 + C 端突围(Kimi 中文输入法外挂逻辑)
- 客户:C 端付费用户 + 部分 B 端
- 估值:200 亿美金
- 判断:最像 OpenAI 的中国版本——但中文 C 端付费天花板不明,月活付费转化率低。
MiniMax
- 创始人:闫俊杰(前 SenseTime 副总)
- 路线:闭源 + 多模态(视觉 + 语音 + 文本)+ to C 应用(星野等)
- 客户:C 端为主
- 估值:港股 IPO,市值 4000 亿港元
- 判断:多模态能力强,海外 to C(Talkie 在美国 App Store 一度 top 10)。
阶跃星辰(StepFun)
- 创始人:姜大昕(前微软亚研院副院长)
- 路线:自研 + 多模态
- 客户:B 端 + 部分 C 端
- 估值:B+ 轮 50 亿元 RMB
- 判断:典型大厂出身 + 学院派,估值相对克制,可能是六小虎中性价比最高。
百川智能
- 创始人:王小川(前搜狗 CEO)
- 路线:自研 + 医疗 / 法律垂类
- 客户:B 端垂类
- 估值:未公开 D 轮估值
- 判断:垂类聚焦,但大模型 + 垂类的双重赛道挑战大。
零一万物(01.AI)
- 创始人:李开复
- 路线:自研 + 部分开源(Yi 系列)
- 客户:to B + to C 海外
- 估值:~10 亿美金(A 轮后未明显上涨)
- 判断:国际化能力强,但商业化进展慢于其他五家。
11.4 投资判断:2026 年还能不能投基础模型?
短答:除非你是大厂战投或国家队,不要在大模型基础层下重注。
不能投的理由
- 估值过高:DeepSeek $45B、Kimi $20B、智谱/MiniMax $50B,B 轮入场已经 5-10 倍溢价;
- 资本密集:单年训练成本 5-10 亿美金(OpenAI / Anthropic 级别),不是 VC 能持续支持的;
- 竞争集中:四集团 + 黑马已经基本确定格局,新进入者没机会;
- 退出路径受限:港股 IPO 后股价波动大,一二级估值倒挂常态;
- 政策风险:中国 AI 监管 + 出口管制 + 美中博弈,黑天鹅多。
还能投的边缘
- 开源 + 垂直领域 LLM:比如生物医学、金融、法律——可能出新黑马;
- 小型 + 高效模型:1-7B 参数量、专门领域、推理优化——可能出新独角兽;
- 后训练 / 微调工具链:vLLM、SGLang、Unsloth 这种「卖水人」(详见第 15 章);
- 下一代架构挑战者:Mamba、状态空间模型、扩散模型——10 年后才知道。
真要投的 11 项尽调
- 创始人技术深度:是不是世界级研究者?有没有发过 NeurIPS / ICML 一作?
- 训练成本结构:单次训练成本?复用率?
- 数据来源:有没有独家数据?合规吗?
- 客户结构:B 端 / C 端 / 政府比例?
- PS 倍数:和硅谷对标是否合理?
- 算力来源:自有 + 租用 + 公有云?是否受出口管制影响?
- 团队稳定性:核心团队 stick rate?
- 退出路径:港股 / Nasdaq / A 股?已有 anchor 投资人吗?
- 政策风险:是否在敏感清单?
- 国际化能力:海外市场进展?
- 下一代技术布局:Mamba? 多模态? Embodied?
11.5 反例与陷阱
陷阱 1:「抢轮次」FOMO
2024 年某 VC 在 DeepSeek 估值 200 亿时强行抢入,到 450 亿翻倍——但他们 hold 期 3 个月。如果继续涨,可能 800 亿;如果回调,可能 300 亿。短期估值套利是赌博,不是 VC 业务。
陷阱 2:「对标 OpenAI」估值锚定
「这家公司是中国版 OpenAI,所以应该值 200 亿美金」——这是错误锚定。中国大模型营收不到 OpenAI 的 1/10,不应该有相同估值。
陷阱 3:「国资战投」依赖
「国家大基金会接盘」是危险假设。国资入场也有自己的判断和门槛。
11.6 落地清单
给 VC 投资人
- 接受现实:基础大模型层窗口已关闭,把精力转向应用层、Agent、基础设施;
- 观察新黑马:DeepSeek 不是终点,下一个 DeepSeek 可能在某个垂类;
- 跟踪开源动态:HuggingFace trending 每周扫一次。
给 AI 创业者
- 不要做基础大模型:除非你能融到 10 亿美金 + 找到 H100 万卡;
- 做「垂类 LLM」可以:医疗、法律、金融——专精比通用更有机会;
- 做应用层:直接调用 API + 做你的差异化(详见第 14 章)。
给 LP
- 看 GP 在大模型层的下注:如果一支 5 亿人民币基金在大模型层重仓 30%——警告信号;
- 看 GP 的 alternative:他们在 application / agent / infra 层的布局如何?
11.7 大模型公司的「5 年生存测试」
中国 AI 大模型层的洗牌即将开始。我用一个简单测试预判未来 5 年谁能活下来:
测试 1:营收兑现能力
到 2028 年(5 年后),一家中国大模型公司应该达到:
- 基础门槛:年营收 ≥ 5 亿美金
- 健康门槛:年营收 ≥ 20 亿美金
- 领导者门槛:年营收 ≥ 50 亿美金(接近 OpenAI 当前规模)
按当前数据(2026 Q2),中国大模型公司没有一家达到 5 亿美金营收。这意味着未来 18-24 个月是关键转折期——能突破 5 亿的进入第二档,否则估值塌缩。
测试 2:差异化能力
每家公司必须有至少 1 个无法被复制的差异化:
| 公司 | 差异化候选 | 强度 |
|---|---|---|
| 智谱 | 央国企客户基础 + 全栈自研 | 中 |
| 月之暗面 (Kimi) | 中文 C 端 + 长上下文 | 中 |
| MiniMax | 多模态 + 海外 to C | 中高 |
| 阶跃星辰 | 多模态 + B 端工具链 | 中 |
| 百川 | 垂类(医疗 / 法律) | 低(容易被替代) |
| 零一万物 | 国际化 + 部分开源 | 中 |
| DeepSeek | 反 Scaling Law + 全开源 + 极致工程 | 高 |
强度 = 高的公司有更高生存概率——DeepSeek 在差异化上得分最高。
测试 3:现金流 vs 烧钱率
每家公司的「净现金月消耗」对照「现有 cash 余额」:
- 健康:runway > 36 个月
- 警告:runway 18-36 个月
- 危险:runway < 18 个月
保密原因数据无法公开,但传言显示部分六小虎处于警告或危险区。
5 年存活预判
基于上述 3 项测试的综合判断(笔者主观,仅供参考):
| 公司 | 5 年存活概率 | 主要风险 |
|---|---|---|
| DeepSeek | 90%+ | 政策与外部环境 |
| 智谱 | 70%+ | 营收依赖政府 |
| MiniMax | 70% | 海外 to C 不确定 |
| 月之暗面 (Kimi) | 65% | C 端付费天花板 |
| 阶跃星辰 | 60% | 估值压力小但增长慢 |
| 百川 | 40% | 垂类天花板 |
| 零一万物 | 35% | 商业化进度慢 |
注:「存活」≠「回报兑现」。即使某家公司活下来,VC 是否能在退出时拿回多少倍数仍取决于估值演化。
11.8 大模型层的「国家队」逻辑
在中国大模型层,国家队是不可忽视的力量——但理解错了会让 VC 踩雷。
国家队不是「接盘侠」
很多 VC 假设:「估值塌缩时,国家大基金会接盘」。这是错误假设。
国家大基金(CICIIF)等国家队投资有自己的判断逻辑:
- 看战略价值:是否填补国产替代空白?
- 看技术深度:是否有真实自研能力?
- 看团队稳定:是否符合国家技术战略?
- 看估值合理:不会接「过高估值」的盘。
DeepSeek 国家大基金传言领投,估值 450 亿美金——但这是因为 DeepSeek 有真实战略价值(开源 + 反 Scaling Law + 国产芯片应用),不是因为「接盘」。
国家队加速度
如果你的 portfolio 公司符合国家战略(具身智能、AI 芯片、AI 安全等),国家队介入会加速估值:
- 早期:政府引导基金跟投
- 中期:国家大基金 / 央企战投介入
- IPO 前:基石投资人安排
但这种加速度对应:
- LP 结构必须接受国资进入
- 后续轮估值有「国资定价」(可能高于市场)
- 退出路径可能受影响(如不允许海外上市)
11.9 大模型领域的「反向 sourcing」机会
虽然中型 VC 在六小虎已无机会,但**「下一个 DeepSeek」可能在哪里**?
候选 1:垂直领域开源 LLM
特定行业(医疗、法律、生物医学)的开源 LLM。如:
- Med-PaLM 中国版(医疗 LLM)
- 法律 LLM(基于公开判例 + 法规训练)
- 生物医学 LLM(蛋白质 + 药物分子)
这些方向算力需求小(< 100 张 H100)+ 数据独家(行业数据)+ 客户付费意愿强。
候选 2:高效小模型
参数量 1-7B,特定任务,推理优化极致。
参考 SOTA:
- Microsoft Phi 系列:2-7B 但能力强
- Apple OpenELM:端侧部署
- Mistral 7B:开源轻量
中国机会:端侧 AI 模型(适配国产芯片如海思昇腾、紫光展锐)。
候选 3:下一代架构
Mamba(状态空间模型)、Diffusion Transformer 等新架构。
| 架构 | 优势 | 商业候选 |
|---|---|---|
| Mamba | 长上下文 + 推理快 | 暂无明显赢家 |
| Diffusion Transformer | 视频生成 | Sora 同类 |
| 国产创新架构 | 待出现 | 待出现 |
下一代架构是 5-10 年慢变量——但抓住 1 个就是 100x 回报。
本章小结
大模型基础层 = 大公司 + 国家队战场。中型 VC 入局窗口已基本关闭。
估值数据:DeepSeek $45B / Kimi $20B / 智谱 MiniMax 港股 $50B / 阶跃 $1B。
三条商业路径:API 商业化(OpenAI 模式)、政府买单(中国部分公司)、开源 + 生态变现(DeepSeek 模式)。
中国六小虎深度对比:智谱(学院派 + 政府)、月之暗面(学院派 + C 端)、MiniMax(多模态 + to C)、阶跃(大厂派)、百川(垂类)、零一(国际化)。
还能投的边缘:开源垂类 LLM、小型高效模型、后训练工具链、下一代架构挑战者。
11 项尽调清单 + 3 个陷阱(抢轮次 FOMO、对标 OpenAI 锚定、国资战投依赖)。
引用
- [1] OpenAI / Anthropic 公开融资数据
- [2] 观察者网 (2026-05-06):DeepSeek 估值 450 亿美元
- [3] 网易 (2026-05):月之暗面 200 亿美元
- [4] 36 氪 (2026):智谱港股 IPO
- [5] 21 财经 (2025-07):MiniMax 融资动态
- [6] 极新月报 (2026-02):阶跃星辰 B+ 50 亿
- [7] 投资界 (2026-01):2025 AI 应用元年融资图谱
- [8] 新浪财经 (2025-03-25):对话天际资本张倩