伊人色爱-一家芯片新贵,组团对抗英伟达

新闻资讯 /

你的位置:伊人色爱 > 新闻资讯 > 一家芯片新贵,组团对抗英伟达
一家芯片新贵,组团对抗英伟达
发布日期:2025-12-26 00:07    点击次数:106

群众东谈主工智能推理芯片初创公司数目惊东谈主——确凿相等惊东谈主,足足有几十家。但唯有一家公司取得了三大 HBM 堆叠内存制造商中的两家的投资,并得到了其地方国两家最大电信公司的救济。磋商到能够取得 HBM 配额的公司可以打造数据中心东谈主工智能加快器,尽管韩国初创公司 Rebellions AI 干预这个领域的时期相对较晚,但八成它的时机恰到平正。

鉴于三星和 SK 海力士不仅为 Rebellions 提供 HBM 内存,而且三星如故该公司的代工场,这些都是 Rebellions 应该能够期骗的上风,因为它不仅念念在韩国销售其 AI 加快器,还念念向全寰宇销售,而全寰宇都对矩阵数学相等沦落。

亲眼目睹第一批东谈主工智能初创公司—— Groq、Cerebras Systems、SambaNova Systems、Graphcore、Nervana Systems 和 Habana Labs ——都遭受了自己架构和资金的结果,或者像 Nervana 和 Habana 那样,清除在也曾的巨头英特尔的巨口中,从此孕育声威,这并莫得什么坏处。

"我常常说——第一只老鼠落入陷坑,第二只老鼠智商吃到奶酪," Rebellions 的首席商务官 Marshall Choy 告诉 The Next Platform。

Choy 曾在 Sun Microsystems 责任十二年,厚爱时间家具和处分决策工程。2010 年 Sun 被 Oracle 收购后,他又在 Oracle 担任工程系统方面的职务杰出八年,因此他对互联网泡沫以及互联网时间转头常态的过程相等了解。Choy 亦然 SambaNova 的独创团队成员之一,领先担任家具副总裁,之后担任首席客户官,一个月前离开 SambaNova 加入 Rebellions。

"说真话,第一代东谈主工智能加快器短缺生动性和恰当性,是以从未在商场上取得巨大见效," Choy 继续说谈。"作为第二代加快器,咱们是略胜一筹,咱们一直很有耐性。生态系统依然发展训诫,咱们正在战术性地聘用干预各个商场的时机,这裁汰了合座风险。"

Rebellions 于 2020 年 9 月诞生,领先的谋划是为高频交游公司打造 AI 推理加快芯片。其时,Rebellions 的谋划并非与英伟达、AMD 以及稠密来自超大鸿沟数据中心、云平台和模子构建商的自研 AI 加快器张开竞争。但话说回来,英伟达领先亦然以制造 3D 图形芯片起家,之后才转向更无为的 AI 商场,并在该领域深耕十余年。谋划赶不上变化,偶而以致会远超预期。

晨光之地

(The Land Of The Morning Calm)

Rebellions 的总部位于首尔,首尔是韩国的都门和最大城市。韩国事工业和金融强国,亦然寰宇第十四大经济体,瞻望 2025 年国内出产总值将达到 1.86 万亿好意思元。(好意思国排行第一,瞻望为 30.6 万亿好意思元,其次是中国,为 19.4 万亿好意思元;欧盟的国内出产总值约为 21.1 万亿好意思元,但显著它由许多国度组成。)

该公司由四位麇集独创东谈主组成,其中朴成铉担任首席扩充官。朴成铉在韩国科学时间院取得学士学位,之后在麻省理工学院取得电气工程和蓄意机科学双硕士学位(辅修金融)。毕业后,朴成铉曾在英特尔担任高等接头科学家两年,并在创立 Rebellions 之前,先后在三星移动担任工程师,在 SpaceX 的星链部门担任 ASIC 联想师,以及在摩根士丹利担任超低蔓延股票交游系统联想师。

吴镇旭是公司的麇集独创东谈主兼首席时间官。他本科毕业于首尔国立大学电气工程专科,并在韩国科学时间院(KAIST)取得高等学位。KAIST 与韩国科学时间信息接头院(KISTI)在高性能蓄意(HPC)和东谈主工智能(AI)接头领域有着细巧的协作关连。吴镇旭曾在 KAIST 担任接头员多年,与微软和德州仪器协作,之后加入 IBM 接头院,主要接头方针为近似蓄意、粗粒度可重构阵列和神经相聚加快器。Rebellions 的麇集独创东谈主兼首席家具官金孝恩也毕业于 KAIST,取得电气工程学位。他曾在 Maxwave 和三星电子担任工程师,之后加入医疗拓荒制造商 Lunit 担任首席家具官,并在公司创立之初加入 Rebellions。临了一位麇集独创东谈主申成浩也毕业于首尔国立大学,是一位东谈主工智能和算法接头员。

Rebellions 在 2020 年和 2022 年分散完成了 A 轮融资,共筹集了 6100 万好意思元。2024 年,该公司完成了由 KT Corp(原韩国电信)领投的 B 轮融资,沙特阿好意思的风险投资部门也参与了投资。C 轮融资则由 Arm Holdings(颇为碰劲)领投,三星风投、和硕麇集创投、韩国开发银行、Korelya Capital、Kindred Ventures 和 Top Tier Capital 也参与了投资。2024 年 12 月,韩国电信旗下的东谈主工智能初创公司 Sapeon Korea 与 Rebellions 合并,SK Telecom 也因此成为 Rebellions 的投资者。Sapeon Korea 此前曾取得 DRAM 和 HBM 内存制造商 SK 海力士的投资。合并后,Rebellions 成为韩国首家东谈主工智能芯片独角兽企业,估值杰出 10 亿好意思元。其估值可能达到 15 亿好意思元或更高。

事情是这样的:SK Telecom 和 SK Hynix 都附庸于 SK 集团,SK 集团是韩国第二大财阀。三星集团是韩国最大的财阀。这两家公司都投资了 Rebellions,并为其供应 HBM 内存;三星是 Rebellions 的代工场协作伙伴。

Rebellions 公司领先采选台积电 7 纳米工艺制造用于高频交游加快的 Ion 芯片,之后在后续的 Atom AI 推理加快器中转向 5 纳米工艺。当前咱们讲理的 Rebel 系列芯片(因为它们与英伟达和 AMD 的数据中心级 GPU 加快器竞争)采选的是三星 4 纳米工艺——事实上,Rebellions 公司正在鼓吹三星的 4 纳米工艺升级,因为 IBM 在其 Power11 处理器中莫得聘用 4 纳米工艺,而是坚抓使用三星改良的 7 纳米工艺。

近几个月来,Rebellions 与 Arm 达成协作,成为其 Arm Total Design 生态系统的一部分。这将使基于 Neoverse 联想制造 Arm CPU 的公司能够集成 Rebellions 的 Atom 或 Rebel AI 加快器,并期骗三星行将推出的 2 纳米工艺创建羼杂平台。此外,Rebellions 还与 Marvell 协作,期骗其信令 SerDes、芯片间互连和先进封装时间,为客户(尽头是亚洲、非洲或中东等地区的自主东谈主工智能中心和区域性新云平台)打造定制化的 AI 加快器。这些客户可能需要购买不受好意思国出口管制结果的 AI 加快器。

而这最终将咱们带到了第三代 Rebel AI 推理芯片。

他们发出顽抗的呼吁,

高呼" Coarse Grained Cores "

在羼杂内行时期初期,Nvidia GPU、Google TPU 和 AWS Trainium 险些左右了 AI 磨真金不怕火,而推理又是东谈主们试图收成的领域,因此 Rebellions 将其 Rebel 和将来的芯片重心放在推理上也就不及为奇了。

Rebel 芯片的架构鉴戒了其前身 Atom 芯片,具体来说,它采选了 Oh 在微软公司开发的粗粒度可确立阵列(CGRA:coarse grained configurable array)处理单位联想设施,并将其与软件界说片上相聚相阿谀。就像这样:

采选这种设施,Rebellions 称之为"神经中枢"的 Rebel 芯片上纵情两个处理单位之间的路由都是可编程的,这种网状互连可以彭胀到多个芯片组,从而构建鸿沟越来越大的蓄意和存储复合体。芯片里面以及芯片组之间的路由和退换可以阐发推理任务动手时的流量模式进行自我调养。

但 CGRA 架构最实用的部分八成在于,神经中枢上的缓存、加载存储单位、张量单位和向量单位都配备了输入缓冲区(IBUF),这些缓冲区领有自界说指示集,使其可编程。这意味着,在 LLM 推理的预填充阶段,可以将神经中枢阵列编程为肖似大型脉动阵列的蓄意密集型操作,将提醒信息判辨为键值对;然后在解码阶段,可以将其再行编程为更留心内存带宽的机器,以生成查询的词元反映。如上图所示,还存在一些中间阶段。

简而言之,CGRA 设施期骗了 FPGA 的一些可编程性因素,而无需付出 FPGA 王人备编程生动性所带来的成果失掉。

与其他东谈主工智能蓄意引擎相通,Rebel 芯片的神经相聚中枢也羼杂使用了多种蓄意引擎:

当前,Rebel 神经相聚中枢上每个蓄意单位的具体细节仍处于躲藏景况,但咱们知谈每个中枢都配备 4 MB 的 L1 SRAM 内存,该内存贯穿到一个加载 / 存储单位,该单位又贯穿到一个张量单位和一个向量单位。这些数学单位救济 FP16、FP8、FP4、NF4 和 MXFP4 精度,这足以欣忭当前的推理需求。Rebel Single 的神经相聚中枢在 FP16 精度下领有 16 万亿次浮点运算 / 秒 ( teraflops ) 的性能,在 FP8 精度下领有 32 万亿次浮点运算 / 秒 ( teraflops ) 的性能;咱们当前尚不明晰神经相聚中枢每个时钟周期可以扩充若干次运算,因此无法服气其时钟频率。但咱们瞻望其时钟频率约为 2 GHz。

为了彭胀 Rebel 芯片,八个神经相聚中枢通过 SRAM 块以网状互连的花样贯穿在一齐,这是 CPU、GPU 和 XPU 架构中的常见特点。两个这样的芯片被摒弃在一个名为 Rebel Single 的单个芯片组上:

Rebel Single 主板配备一个 PCI-Express 5.0 x16 接口、三个 UCI-Express-A 芯片互贯穿口以及一个 HBM3E 内存章程器。当前,Rebel Single 使用的是三星的 HBM3E 堆叠式内存,但它王人备可以救济 SK 海力士的 HBM 内存,而且王人备有原理信赖它最终会救济。

HBM3E 端口的读写速率为 1.2 TB/ 秒,PCI-Express 端口的读写速率为 128 GB/ 秒,三个 UCI-Express 端口的读写速率均为 1 TB/ 秒。Rebel Single 领有 64 个神经相聚中枢,以及悉数 64 MB 的 L1 缓存(由这些中枢分享)。网状互连相聚为缓存分拨了 16 TB/ 秒的带宽,另有 16 TB/ 秒的带宽分拨给神经相聚中枢。

在 Rebel Single 芯片的左上角,您会看到一个寂寞的电路模块,其中包含 TDMA、CP 和 Sync Man。这些是联想中的遑急元素,可以加快 AI 推理责任经过的部分门径:

咱们期待能更真切地接头这些内容,但就当前而言,Rebellions 对这些稀奇逻辑模块的形色仅限于此。

号令处理器(CP)包含两个四核 Arm Neoverse CPU 模块,配备 4 MB 二级缓存。它的作用是协助其高下两头的同步管制器和任务 DMA 章程器,协同一同步 Rebel 芯片组之间的数据传输,确保蓄意单位在需要时能够获取所需数据。从意见上讲,咱们合计它有点像插槽内 HBM 内存的 NUMA 章程器。

这些神经中枢集群相互贯穿,组成单个插槽中的蓄意引擎。咱们估量,从永恒来看,多个插槽将通过基于 UALink 或 ESUN 的可彭胀相聚互连,以致可能阐发客户需求采选授权的 NVLink Fusion 互连时间。(Rebellions 当前对此保抓千里默。)

为了构建更大的蓄意复合体,可以将四个 Rebel Single 像这样贯穿起来:

这张走漏图展示了一个由四个 Rebel Single 组成的阵列,显著它被称为 Rebel Quad。但正如你所看到的,你可以不休地在顶部和底部堆叠成对的 Rebel Single,从而彭胀出一个相等大的互连蓄意和内存平面。淌若你旺盛,你可以制作一个相等长的滑橇,其逻辑上特地于一个晶圆级联想,上头吊挂着巨额的 HBM 内存,就像圣诞节时卖的那种巨型士力架相通。

但除非有东谈主条目,不然 Rebellions 不会确凿这样作念。不外,CPU 和 XPU 复合体之间显著有许多贯穿花样,Oh 和 Choy 也向咱们展示了一些可能性:

当前,重心是 Rebel Quad,这是一个咱们依然骨子拿在手里的 Socket,但他们不让咱们把它作为镇纸添加到咱们的储藏中:

该芯片复合体采选三星的 ICube-S 中介层和封装时间,与台积电的 CoWoS-S 中介层和封装时间约莫肖似。该封装包含四组 12 层高的 HBM3E 内存堆叠,总带宽为 4.8 TB/s,两条 PCI-Express 5.0 x16 通谈的总带宽为 256 GB/s,可用于芯片的双向数据传输。(可惜的是,这四颗芯片复合体中有两个 PCI-Express 章程器位于中间,无法浅薄责任。)

以下是 UCI-Express-A 芯片间互连的详备信息:

Rebellions 已从 Alphawave Semi 取得其 UCI-Express-A 章程器的授权,Alphawave Semi 是一家芯片初创公司,刚刚被高通以 24 亿好意思元收购。

说七说八,Rebel Quad 在 FP16 精度下可提供 1 petaflops 的运算速率,在 FP8 精度下可提供 2 petaflops 的运算速率。当前尚不明晰在多样 FP4 精度下迷糊量是否会翻倍,或者只是是因为运算单位后半部分存在巨额零值。

Rebel Quad 插槽的功耗为 600 瓦,与 Nvidia 和 AMD 的 GPU 以及性能约莫调换的、气运多舛的 Intel Gaudi 3 AI 加快器比拟,功耗特地低:

咱们谨防到,Rebel Quad 莫得 OAM 插槽,唯有 PCI-Express 卡规格,这极少很成心思。不外,淌若客户需要,念念必是可以已毕的。(这关于液冷职业器确立尤其遑急,因为在液冷职业器确立中,为了提高密度,需要将芯片摒弃在系统主板上,并在多个蓄意引擎之间铺设铜管。)

就原始性能而言,Rebel Quad 与英伟达的 H200 王人备不相高下—— FP16 和 FP8 性能擢升了 3.4% ——但每瓦性能却越过 20.7%。英伟达的 B200 GPU 性能是 Rebel Quad 的 2.2 倍,但为此需要越过 1.7 倍的带宽和功耗,性价比特地可以。AMD MI325X 的每瓦性能与 Rebel Quad 约莫调换,浮点运算迷糊量越过 28%,但为此需要越过 25% 的内存带宽和功耗。

由于架构互异,骨子性能可能会有很大不同,咱们期待看到基准测试结果露馅这些 GPU 和 Rebel 芯片能够进行确切的推理。

咱们当前尚不明晰具体价钱,但可以合理估量 Rebellions 公司在订价方面有一定的回旋余步,况且会阐发商场价值进行订价,而不是竞相压廉价钱。当前张量数学和 HBM 的需求高大于供应,唯有傻瓜才会发动价钱战。

Rebel Single 于 2024 年 11 月完成录制,Rebel Quad 当前正在向部分客户提供样品,以考证意见联想。

在绝对攻克了整个硬件之后,Rebellions 现在需要在其上部署软件。诚然,它将使用基于 PyTorch 原生已毕的开源时间栈,该时间栈采选 Triton 推理引擎和 vLLM 开源库来管制推理所需的键值缓存。Rebellions 还开发了我方的集体通讯库 RBLN CCL,它肖似于 Nvidia 的 NCCL 库;两者都源自开源的音书传递接口 ( MPI ) 库,MPI 库在几十年前绝对更正了高性能蓄意 ( HPC ) 领域,于今仍是东谈主工智能 ( AI ) 的基础。

Rebellions 还有一个名为 Raise 的推理职业层,肖似于 Nvidia 的 Dynamo 推理堆栈,况且依然接入了 Ray 分散式推理框架,该框架动手在 Red Hat 的 OpenShift Kubernetes 容器平台过甚容器版块的 Red Hat Enterprise Linux 之上,而 Red Hat Enterprise Linux 是多年前 The Next Platform 诞生之初收购的 CoreOS 的一部分。



上一篇:没有了

下一篇:没有了