科技

谷歌公布AI算力上天计划,中国团队首批卫星已组网

阅读时长 29 min
作者:技术特派员

Google 在 2025 年 11 月初公布了一项名为 Project Suncatcher 的计划:将 TPU(Tensor Processing Unit,张量处理单元)送入太空,与卫星公司 Planet Labs 合作,在距地 650 公里的低地球轨道上构建 AI 计算集群。按照设想,这个集群将由 81 颗卫星组成,分布在半径 1 公里的范围内,彼此间距仅 100 到 200 米,比任何现有卫星星座都要紧密得多。首批两颗试验卫星计划在 2027 年初发射。

Google 已经发布了详细的预印本论文,阐述技术路线。CEO Sundar Pichai 在声明中说,这需要“解决大量复杂的工程挑战”,但 Google 的工程师们显然认为这些挑战是可以应对的。他们已经开始用 67MeV 质子束轰击 Trillium 代 TPU 芯片,模拟太空辐射环境;在实验室里搭建了自由空间光通信演示系统,实现了 1.6Tbps 的双向传输速率;还建立了精密的轨道动力学模型,计算如何让这么多卫星在如此近的距离上编队飞行。


图丨相关论文(来源:Google)

电力已经成为当前数据中心发展的最大瓶颈之一,而把 AI 计算搬到太空,正是想解决这个问题。太阳每秒输出 3.86×10^26 瓦的能量,是人类全球电力生产总量的 100 万亿倍以上。在晨昏太阳同步轨道上,太阳能板几乎可以持续接受光照,每年接收的能量是地球中纬度地区的 8 倍。随着生成式 AI 的爆发,数据中心能耗以惊人速度增长。Google 声称已将 Gemini 查询的能耗在一年内降低了 33 倍,但 AI 应用的增长速度更快。如果 AI 真的成为类似电力或蒸汽机那样的通用基础技术,其能源需求预计将持续攀升,地球上的电力资源终将面临瓶颈。

太空太阳能发电的构想存在已久,但一直被一个问题困扰:如何把电力传回地球?无论是微波束还是激光束,能量传输效率和安全性都难以保证。Project Suncatcher 选择绕开了这个死结。既然传回电力这么难,干脆在太空直接进行计算,只把结果传回地面。这个思路转换使整个方案的可行性大幅提升。

但除此之外还有一系列严峻的技术挑战,首当其冲的是卫星间通信。地面数据中心的 TPU 超级计算机使用定制的低延迟光学芯片互连(ICI,Inter-Chip Interconnect),每个芯片的吞吐量达到数百 Gbps。商用光学卫星间链路的数据速率通常只有 1 到 100Gbps,远远不够。

Google 的方案是采用密集波分复用(DWDM,Dense Wavelength Division Multiplexing)技术,理论上可实现每条链路约 10Tbps 的聚合带宽。问题在于,这种技术需要数百微瓦的接收光功率,而传统长距离卫星间链路只有约 1 微瓦。

紧密编队正是为了解决功率问题。光信号的接收功率与距离的平方成反比,把卫星间距离从数千公里缩短到数百公里,链路预算就能大幅改善。距离进一步缩短到公里级后,还能实现空间复用,在不同卫星的收发器阵列之间建立多个独立光束,每个光束携带独立的 DWDM 数据流。Google 的实验室演示已经在短距离上实现了 800Gbps 单向传输,证明方向是对的。

编队飞行带来了轨道控制的复杂性。81 颗卫星需要在 1 公里半径内保持队形,同时每个轨道周期完成两次形状循环。外围卫星在轨道不同位置会经历远地点和近地点,高度在 650 公里上下浮动 500 米。

在理想的开普勒运动中,这种“自由落体”星座在一个完整轨道后会自动复位,不消耗燃料。但现实中,地球的扁率、太阳和月球潮汐、大气阻力都会造成扰动。Google 提出用机器学习模型来控制星座,通过调整集群形状补偿可预测的漂移。根据计算,将轴比从标准的 2:1 调整到 2:1.0037,可以把 J2 项(地球扁率效应)引起的漂移降低到每年每公里不到 3 米每秒。

辐射环境是另一道坎。在太阳同步低地球轨道上,即使有 10 毫米铝当量的屏蔽,辐射剂量仍约为每年 150 拉德(rad(Si))。五年任务寿命意味着累积剂量达到 750 拉德。辐射造成的损害分两类:总电离剂量效应导致器件逐渐退化,单粒子效应则产生瞬时故障。Google 测试了 Trillium 代 V6e 云 TPU 和配套的 AMD 服务器,用质子束模拟轨道辐射条件。

测试结果喜忧参半。高带宽存储器(HBM)对总电离剂量最敏感,在累积 2 千拉德后开始出现异常,好在这仍是任务要求的近 3 倍。单粒子效应方面,HBM 同样最脆弱,主要表现为不可纠正的 ECC 错误。

对于推理工作负载,观察到的错误率约为每 50 拉德一次,换算成实际轨道环境,大约每 1,000 万次推理出现 1 次失效。Google 认为这个比例“对推理可能是可接受的”。但对训练任务,影响还不清楚。训练过程中的位翻转可能导致静默数据损坏,这在任何环境下都是严重问题,需要进一步研究缓解措施。

另外,散热也是一个非常棘手的问题。真空中运行高功率密度的 TPU,只能靠辐射散热。Google 在论文中提到需要“先进的热界面材料和热传输机制,最好是被动式以最大化可靠性”,将热量从芯片高效传导到专用散热器表面。这部分技术细节论文中着墨不多,显然还在攻关阶段。

最关键的可能还是发射成本。目前发射到低地球轨道的价格在每公斤 1,500 到 2,900 美元之间。Google 的分析显示,只有当成本降至每公斤 200 美元,发射费用摊销到航天器寿命周期后,按每千瓦计算才能与地面数据中心的能源成本相当,美国数据中心的电力支出约为每千瓦每年 570 到 3,000 美元。

每公斤 200 美元,这个数字有多现实?Google 对 SpaceX 的历史数据做了学习曲线分析。从 Falcon 1(猎鹰 1 号)到 Falcon Heavy(猎鹰重型),价格展现出约 20% 的学习率。每当累计发射质量翻倍,每公斤价格下降约 20%。

如果 SpaceX 的 Starship 能尽快投入商业运营,并达到每年约 180 次的发射频率,到 2035 年左右,价格可能降到每公斤 200 美元以下。这需要 Starship 实现高频次、高可靠性的运行,也需要足够的市场需求来支撑这个发射规模。即便发射频率打七折,价格也能降到每公斤 300 美元,对大规模星座的可行性仍有实质性影响。


图丨不同低地球轨道卫星的发射功率价格(来源:Google)

另一种估算基于 Starship 4 的公开规格和重复使用目标。假设实现 10 倍组件重复使用,SpaceX 的发射成本可能低至每公斤 60 美元;如果达到 100 倍重复使用,成本可能降到每公斤 15 美元。当然,这些都建立在技术突破的基础上。但太阳能光伏板行业在 40 多年里保持了类似的学习率,说明这种长期成本下降并非没有先例。

实际上,谷歌并不是唯一一家计划将数据中心发射到太空的公司。就在 Google 公布计划前几天,初创公司 Starcloud 发射了搭载英伟达 H100 芯片的 Starcloud-1 卫星,宣称要建设一个跨越 4 公里太阳能阵列、功率达 5GW 的天基数据中心。

马斯克也表示 SpaceX“将会做”太空数据中心,杰夫·贝索斯去年表示 10 年以上后会有千兆瓦级设施出现,前 Google CEO 埃里克·施密特收购火箭公司 Relativity Space 也是为了这个目标。Axiom Space、NTT、Ramon.Space、Sophia Space 等公司都在筹划类似项目。这波热潮背后,是对 AI 计算需求持续增长的预期,以及对地面资源约束的担忧。

中国在这个领域的动作更快。2025 年 5 月 14 日,之江实验室与国星宇航合作的“三体计算星座”首批 12 颗计算卫星在酒泉卫星发射中心成功发射, 成为全球首个成功入轨并组网的太空计算卫星星座。这个项目在 2024 年 11 月的世界互联网大会乌镇峰会上首次公布,计划建设千星规模的天基智能计算基础设施,建成后总算力将达到 1000P(每秒百亿亿次浮点运算)。

但从技术成熟度看,太空 AI 数据中心仍处于极早期阶段。Google 的论文列出了一长串待解决的问题:单粒子效应对训练任务的影响、可靠的被动热管理系统、克服大气湍流的高带宽光学地面通信、在轨可靠性和维修策略。在太空中无法像地面数据中心那样手动更换故障硬件,最简单的办法是冗余配置,这又会增加成本。

即使发射成本降到理想水平,商业可行性仍存疑问。“发射摊销成本与地面电力成本相当”只是第一步,还没算卫星设计制造、在轨运维、通信等费用。更重要的是,AI 计算通常需要频繁的数据输入输出,地面到太空的通信延迟和带宽限制可能使其只适合特定工作负载。论文提到 Trillium TPU 的错误率“对推理可能是可接受的”,但对训练任务“需要进一步研究”,意味着太空 TPU 集群可能更适合推理而非训练。

项目能否成功,取决于一系列不确定因素:SpaceX 能否兑现 Starship 的承诺,AI 计算需求是否真的会持续指数级增长,太空环境中的技术挑战能否逐一攻克,以及商业模式能否找到足够应用场景来支撑前期投入。

Google 研究团队在论文结尾写道:“实现这一雄心勃勃愿景的全部范围,需要持续的研究、设计的迭代完善,以及实现若干关键的未来里程碑。”

答案或许要到 2027 年初那两颗卫星升空后才能揭晓一二。

参考资料:

1.https://services.google.com/fh/files/misc/suncatcher_paper.pdf

2.https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/

运营/排版:何晨龙

🎮谷歌公布AI算力上天计划,中国团队首批卫星已组网 - 科技游戏新闻赏