首页 > 科技 > 从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践|主讲回顾

从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践|主讲回顾

导读

7月6日,后摩智能联合智东西公开课策划推出的「存算一体大算力AI芯片在线研讨会」顺利完结。东南大学电子科学与工程学院副研究员司鑫、后摩智能联合创始人&芯片研发副总裁陈亮、后摩智能联合创始人&产品推出副总裁信晓旭三位主讲人参与了本次在线研讨会并进行了主题分享。

陈亮博士的演讲主题为《从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践》。他首先以FSD 和Tenstorrent 两个典型的AI处理器架构为例,介绍了传统处理器架构的不足,之后围绕存算单元Macro、层次化的AI核设计、软件工具链、软件栈、编程模型等方面对后摩智能存算一体大算力AI芯片进行了深入讲解。错过直播的朋友,可以点击“阅读原文”观看回放。

本文为陈亮博士的主讲回顾:

大家好,我是后摩智能联合创始人&芯片研发副总裁陈亮,很高兴跟大家做今天的分享,我讲解的主题是《从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践》,主要从以下三个部分展开介绍:

第一部分会讲下典型的AI处理器架构,这里会围绕特斯拉FSD 和Tenstorrent 芯片做介绍;

第二部分是后摩AI处理器的架构设计,主要分为存算单元Macro 的设计考虑、层次化的AI 核的设计,还有基于存算一体的AI核设计过程中的一些工程化考虑;

第三部分是软件工具链方面,我们知道每个NPU,每个AI核都有自己的软件工具链、编译器等,我会介绍下后摩智能AI处理器的软件栈和编程模型。

一、典型的AI处理器架构

第一个典型的AI处理器架构是特斯拉的FSD。特斯拉FSD 发布于2017年左右,是一个非常简洁、高效的设计,因为它是特斯拉专用的AI处理器,主要的组成部分包括一个96×96的MACs 阵列、一个片内32MB的SRAM、一个非常简洁的指令集,指令集里面包括了两个DMA 指令、三个点乘指令、一个scale 即标量指令、一个eltwise 指令和一个stop 指令。如果不算stop 指令,FSD 只有7条计算指令。

上图的下半部分是它的架构图和版图,从它的架构图和版图来看,它具有非常简洁的设计,带来的好处是非常高效。当时在计算效率、能效比等方面,FSD 要比英伟达的GPU 高几个量级。这也是因为应用的场景不一样,它是一个专用的AI处理器,特斯拉自己的算法运行在特定的处理器上。FSD 架构的主要设计者是吉姆·凯勒,他是处理器领域架构设计的大牛,简洁设计也跟他个人的风格有关,他本人是一个非常崇尚极简主义的架构师。

第二个典型的AI处理器架构是吉姆·凯勒的另外一个作品,这是他近两年加盟的一个新创业公司Tenstorrent,Warmhole 是2021年他们公司一款芯片的名字。我们认为Tenstorrent Warmhole,还有常听说过的GraphCore,它们都属于近存计算的范畴。

从这两个典型的AI处理器架构可以看出,经过一段时间的演变,传统存储和计算分离的架构已经演进成了近存计算。那近存计算是指什么呢?从上图可以看出整个芯片架构的概况。左下角大的方块,是它的芯片,芯片内部由若干个Tensix core 组成,这些小方块就是Tensix core,这些Tensix core 之间是用Network-on-chip,即NoC 连接在一起的。若干个二维的Tensix core 阵列通过NoC 连接在一起,组成一个芯片,芯片间又通过Ethernet 把芯片连接在一起,这样在芯片间再做一个2Dmesh 扩展。

从计算的角度来看,若干个Tensix core 可以同时完成一个大的Tensor 计算,一个Tensor 可以分解成若干个mini-Tensor,每个mini-Tensor 可以分布在不同的Tensix core 上运行。Tensix core 看起来也是相对简洁的设计,包括了一个CPU matrix vector Engine,再加上近存部分,就是它的SRAM,每一个Tensix core 里有一小块SRAM。除此之外,为了增强数据共享,还增加了Router 和Packet Manager 的处理单元,来保证数据在不同的小Tensix core 之间,还有芯片之间做数据的传输和互联。

从整个架构来看,可以看到它的计算是一个分布式的计算,它的存储也是一个分布式的存储。每个Tensix core 里边的SRAM 组成了片内相当大的分布式存储资源。有了计算,有了存储,另外一个关键的问题就是数据传输,它使用了Network-on-chip(NoC)的数据传输解决方案。

从设计角的度来看,也是一个非常简洁的设计,基本上可以认为把一个Tensix core 和NoC 设计好之后,不断的执行copy-paste 就可以组成一个大的芯片。因此,它有极好的可扩展性。Warmhole 是Tenstorrent 公司2021年的产品,前几年的产品还非常小,只是一个4×4的Tensix core阵列,现在已经发展成一个非常大的阵列。

从2017年到2021年,可以看到AI处理器的架构已经从传统计算和存储分离的架构,演变成了一个近存的架构。之前司鑫老师也讲过,后摩智能所做的是更进一步把存储和计算完全融合在一起,而不只是一个近存计算。

二、后摩智能AI处理器架构

下面更详细介绍下后摩的AI处理器设计。从Macro 到Cluster,我们认为这是一种分布式计算和集中式计算的折衷,是一种trade off。如上图所示,最右边这是一个Macro,就是刚才司鑫老师讲的一个存算单元,由若干个Macro 组成一个Macro Group array。Macro Group array 在Tile 里面是Tensor Engine 最重要的一个计算单元,Tile 同时又是AI Core 里一个重要的组成部分。Tile 内部除了Tensor Engine 以外,还包括了CPU、Special Function Unit(SFU)、Vector Processor(VP)、还有Shared Memory&Controller。Tile 有点类似于上面讲到的特斯拉FSD Core,包括了非常大的算力,每个Macro Group 可以提供4TOPS 算力,所以它类似一个大算力的Core。

若干个Tile 又可以组成一个AI Core。AI Core 里边除了Tile 之外,还包括了像神经网络处理或者AI计算里的前处理或后处理的处理单元、LDST 单元,还有一个Bus Node 单元,Bus Node 用来在Tile 之间或者Core 之间做数据共享和数据路由的控制来源。

在SOC层面,若干个AI Core 又可以组成一个AI Core Clueter,通过总线将若干个AI Core 连接在一起。所以这是一个层次化的设计,若干个Macro 可以组成一个Macro Group,Macro Group 又组成了一个Tile,若干个Tile 可以组成一个AI Core,若干个AI Core 可以组成一个AI Core Clueter,那我们的算力就可以从最小的1个Macro Group,4TOPS 算力不断叠加,最终可以在1个SoC 里面实现几百TOPS 算力。

接下来我会以这4个层次为基础,详细介绍后摩智能的存算一体大算力AI芯片设计。首先是Macro 存算单元,刚刚司鑫老师也有讲到,存算是有不同的路线可以选择的,包括了一些非易失存储的工艺,还有SRAM 工艺,我们采用的方案是SRAM 工艺。SRAM 方案也有模拟和数字两种实现方式,我们把数字存算称为CIMD,模拟存算称为CIMA。

上图的表格中对比了数字和模拟CIM 实现的一些特点。从计算原理上来看,CIMD 是数字逻辑,CIMA 采用了诸如电流分压、时域延时,或者是电荷共享、电容耦合的计算方式;在运算精度方面,CIMD 可以达到8比特甚至更高的比特,比如16比特,但CIMA 的精度会低一些,因为它受限于ADC 的精度,还有它需要把模拟信号转换成数字信号,如果想达到比较高的能效比,一般来说只能实现小于等于4比特的计算精度;从工艺上来看,CIMD 与先进工艺相匹配,不会受到PVT 波动的影响,但CIMA 与先进工艺无法匹配,它需要非常复杂的校正模块,因为模拟电路会容易受干扰;在可靠性方面,数字电路抗干扰能力是比较强的,而模拟电路容易受到温度、噪声等因素的影响,所以可靠性会差一些。

从PPA 的角度来看,CIMD 的算力密度和能效比是比较高的,我们的数据在不同先进工艺下,它的能效比可以达到几十TOPS 甚至上百TOPS。因为是纯数字电路,所以CIMD 是没有计算误差的。模拟电路的算力密度也可以做得比较高,能效比甚至会比数字电路更高,但是它是有计算误差的,而且其计算精度会比较低。如果在同等精度下的话,模拟的存算电路并不会比数字的存算电路有太大的优势。但在比较低精度的情况下,模拟电路的能效比会更高一些,但是它的计算误差、精度的问题,还有校正、噪声、温度等这些影响是比较难解决的。所以后摩智能的第一代落地量产的产品是以CIMD 为基础的。

讲完最底层的CIMD,接下来看看怎样把CIMD 组成一个可以用来计算的单元。我们把若干个CIMD Macro 组成一个Macro Group,数据是以数据流stream 的方式流入Macro,结果同样以流的方式流出。这里的一个好处是,在数据流入Macro 过程中,如果feature 数据有很多0,是可以节省一部分功耗的,甚至节省计算时间。这里天然的可以支持feature 稀疏化的效果,不像有些AI处理器里讲稀疏化,比如Orin 的稀疏化是对weight 做稀疏,需要做重新的设计、训练,而我们的计算单元针对feature 可以做稀疏化的加速。

但需要考虑的问题是计算需要在Macro 上映射。上图中举了一个例子,我们的计算单元Macro 会组成一个3×3的阵列,如果是有4个3×3的阵列,可以把它类似组成一个Systolic Array,类似TPU 脉动阵列的形式,数据feature 可以从旁边的Tile 里边或者是Tile SRAM 里的Multi Bank Shared Memory 流入到Macro Group 里,结果同样可以流出Macro Group。

Macro Group 之间的结果可能是一个Partial sum,Partial sum 做一个加法之后,可以写到当前Tile的Shared Memory 里面去,也有可能通过Partial sum bus 流到临近Tile 的计算单元里面。

除了传统的AI NPU 或者AI Core,还要考虑一个利用率的问题,利用率上除了时间利用率,还要考虑空间利用率。比如,上面的例子为什么是一个3×3的结构,因为大多数卷积神经网络中的卷积核,最常用的是3×3 kernel,所以用一个3×3的阵列是可以最高效的计算3×3的卷积。但是除了3×3以外,还有5×5,7×7或者1×1等的卷积规格,这时怎样把一个5×5、7×7的一个kernel映射到3×3的阵列里,这是一个非常难的问题,需要大家仔细考虑怎么把空间上的利用率用满,这也是在用Macro 设计时需要重点关注或考虑的问题。

Macro Group 可以作为Tensor Engine 里一个最重要的单元,那Tensor Engine 和其他的一些控制单元或者计算单元,组成一个Tile。从上图可以看出,Tile 里包括了CPU,CPU 主要用来做控制,通过一个指令分发单元把不同的指令分发给Tensor Engine、Vector Engine,Special Function Unit,还有一个多通道的DMA,以及一个Switch。Switch 起到了一个路由的作用,用来在不同的Tile 之间传输数据。我们自己设计了一个数据的传输总线,通过传输和路由,还有多播的机制,让数据可以在不同的Tile,甚至在不同的AI Core 之间进行共享和传播,这样可以极大的提高带宽的利用率,减少数据和memory 之间的传输。

另外,还需要考虑的是Tile 之间的同步问题。比如两个Tile 之间需要共同完成一个计算时,那Tile0 和Tile1 之间怎么进行同步,这也需要在设计中考虑。

再上一层就是Core level。Core 是由若干个Tile 组成,上图中有4个Tile 的示例了,那Tile 之间以什么样的形式去做拓扑,这也是在做Core level 设计时需要第一个考虑的问题。上图是一个环形的拓扑,4个Tile 组成了1个环。如果是Tile 很多时,也可以是2D Mesh 这样的一个 拓扑形式。

上图的Core level 除了4个Tile 以外,包括一些AI计算里的前处理、后处理的处理单元,Load/Store 等处理单元。Core 里边会有另外的Bus Node 处理单元,Bus Node 用来将不同的Core 之间连接在一起,让不同的Core 之间可以直接传输数据。类似于英伟达最新H100 的架构,H100 架构里面也有类似的设计,它叫DSMEM,是Tensor 之间直接传输数据,而不用通过global memory,也是一个节省数据带宽,节省DDR 带宽很有效的方式。

右边的图是第一个Core 的版图,可以看到这里边包括了Macro Group、shared memory、CPU,还有Special Function Unit 等等,灰色部分就是Core level 里面的前后处理、Load/Stop等处理单元,还有重要的数据传输和互联,这是第一代Core 设计的版图,里面包括了4个Tile。

除了架构的设计以外,基于存算一体的AI 处理器设计,还有很多工程化的问题需要考虑,因为它跟传统的数字电路已经有比较大的差别,这些问题都是我们在实际工程当中遇到的问题。

第一个需要考虑的问题是SI 和PI。SI 是信号完整性,PI 是电源完整性,因为每个Macro 提供的算力很大,有4TOPS。如果有几百TOPS 算力,这几百TOPS 算力在同一时间运转,那对电源和信号完整性是非常大的挑战。

除此之外,Macro DFT 该怎么做?如果不做DFT,实际上是无法实现大规模量产的,我们对Macro 做了非常多DFT 相关的设计,主要包括MBIST 和Repair,Repair 是修复因为面积大了以后可能会有default,我们就需要把它修复。我们做的修复电路里可以测试和修复SRAM bit cell 电路,因为存算本身是由SRAM bit cell 加上一些逻辑电路组成的。同时,还有诊断功能,与传统的SRAM 相比,需要开发自己的lvlib,因为它已经跟传统的SRAM 行为已经有不一样的地方,没有标准的工具可以支持。

另外在CIM 计算模式下,我们设计了定制化的Macro BIST。定制化BIST 需要自己设计BIST RTL,同时可以测试Macro 内部的计算表,所以我们是把Macro 分为SRAM mode 和CIM 两种模式下进行BIST 和Repair 设计。

三、软件工具链

上面主要讲到硬件设计方面的的考虑,如果把硬件设计类比成人的身体,那有了身体还需要有灵魂,而软件工具链就是我们的灵魂。很多人会问基于存算电路的软件工具链、软件生态是否会与传统电路的AI处理器有不一样或者有不兼容的地方?

从软件的角度来看,几乎已经看不到底层的存算电路的存在,它已经在AI处理器里边,通过AI处理器的架构设计把它屏蔽掉。而从软件工具链的角度来看,并不需要过多的考虑底层的存算电路,所以软件工具链需要考虑的事情与用传统的数字电路去做NPU 没有本质上的区别。

我们的软件工具链主要提供了两个开发工具:一个是算子的开发工具,一个是模型的开发工具。对于大多数用户而言,如果没有特殊的自定义算子开发需求,可以用模型开发工具,这里包括了一个加速的算子库,算子库有很丰富的算子,可以cover 80%-90%的算子需求,除了极个别的自定义算子不包括在算子库里边。模型开发SDK 里面还包括了推理引擎、Graph IR、设备内存的分配,设备内存有片内memory 和片外memory 的分配器,还有一个图优化器,以及运行时的一些东西。

如果是高级的用户,可以开发自己的自定义算子,我们也提供算子的开发工具SDK,这里边包括了编程模型方面,基于CUDA 的扩展语言,叫后摩 Data parallel language 或者叫hardware data parallel language(HDPL语言),还有 Schedule Language,最底层是标准的C++。

编译器方面包括了HDPL 编译器,底层C/C++编译器。工具链方面也提供了丰富的工具链,包括了debugger、调试器、汇编和反汇编的工具、Objdump 工具,还有一个HM profeiler,用它来可以方便的调试CIM。

除此之外,我们也对推理引擎方面有支持。我们的编译器可以让用户从开发类似GPU 的一些程序里,无缝的过渡到AI处理器的开发过程中来,因为我们是一个类CUDA 的编程模型。上层对接的推理引擎可以是多种多样的,包括百度的PaddlePaddle、ONNX、TensorFlow、MXNet 等。这些工具产生的模型,经过量化工具会翻译成一个Relay IR 的中间表达。这个中间表达之后会通过Tensor graph 优化器来做优化,Tensor 优化器做了哪些事情呢?包括自动算子的融合,优化带宽的瓶颈,自动流水的分配机制,可以充分利用AI Core 的硬件并行性,以及设备内存SRAM 和DDR 的自动分配,层间的调度优化等,来提高硬件利用率。

再下一层是IPU graph runtime,即图的运行时。运行时最下层会调用IPU 各种各样的资源。IPU 资源包括了AI Core,就是AI写处理器,还有一些扩展的计算资源,大多数的计算可以通过卷积在CIM 里来实现。还有一些其他的特殊操作,比如最常用的pooling 等类似的操作,可以在Special Function Unit 来实现。如果有自定义的算子还可以通过HDPL 语言的接口,在不同的计算扩展单元里实现。我们的编程模型也是针对数据并行的模型,上图有一个简单的例子,它与CUDA 编程方式是非常接近的。

以上就是本次分享的主要内容,感谢大家的观看。

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_18655.html
上一篇郭明錤:苹果相机供应链将进入连续两年高速成长周期
下一篇微软 Win11 相机 App 获圆角 UI 且支持扫二维码

为您推荐

北京大学研究员研制出国际上最大规模集成光量子芯片

北京大学研究员研制出国际上最大规模集成光量子芯片

​如果我们真的无法通过硅芯片技术超越欧美,那么是否可以借助光芯片实现“弯道超车”呢?近日,有报道称,我国的光芯片技术有重大突破!北京大学王剑威研究员、龚旗煌教授课题组与合作者经过6年联合攻关,研制了基于超大规模集成硅基光子学的图论“光量子计算芯片”——“博雅一号”,发展出了超大规模集成硅基光量子芯片
韩国芯片滞销:任正非2年前的预言,应验了?

韩国芯片滞销:任正非2年前的预言,应验了?

中国庞大的市场需求,将倒逼芯片制造商想方设法冲破美国封锁,向中国供货。正解局出品最近,韩国统计厅发布的数据显示,1月韩国芯片制造商的芯片库存与销售比达到265.7%,创下26年来的最高值。韩国芯片,滞销了!2年前,华为任正非预言,全世界芯片过剩时,会有人求着我们买芯片的。这一刻,来了吗?库存率,指的是商品库存
地表最强?苹果A16芯片现身跑分平台 成绩有点尴尬

地表最强?苹果A16芯片现身跑分平台 成绩有点尴尬

【手机中国新闻】苹果的A系列核心处理器,性能一般都非常强大,甚至曾经被不少网友赞誉为“地表最强”。而如今,随着iPhone 14系列的正式发布,我们也迎来了苹果的全新A16处理器。根据官方的信息,A16只配备在iPhone 14 Pro和iPhone 14 Pro Max这两款机型上,定位较低的另外两款产品依然只搭载了A15芯片。苹果如此设计,可
消息人士:三星和SK海力士将首当其冲受到美国对中国芯片的打击

消息人士:三星和SK海力士将首当其冲受到美国对中国芯片的打击

集微网消息,据路透社报道,拜登政府计划让SK海力士和三星免受中国存储芯片制造商新限制的冲击,消息人士称。美国商务部计划本周发布对中国技术出口的新限制,可能会拒绝美国供应商向中国公司发送设备的请求。然而,消息人士称,向在中国生产先进存储芯片的外国公司出售设备的许可申请将根据具体情况进行审查,这可能会允许
ChatGPT从下游应用”火“到了上游芯片厂,国内谁将受益?

ChatGPT从下游应用”火“到了上游芯片厂,国内谁将受益?

因库存陷入低迷周期的半导体市场近日因ChatGPT的火热而重新受到外界关注。由于ChatGPT属于生成式AI,被誉为“AI芯片”第一股的英伟达应声而涨。2月13日收盘,英伟达最新股价已达到217美元,较今年1月3日的143美元上涨50%。英伟达创始人兼CEO黄仁勋在一场演讲中甚至将ChatGPT视为“人工智能领域的iPhone时刻”,并称其为“计
知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

腾讯科技讯 4月13日,知乎在北京召开“2023知乎发现大会”,首次公开旗下与面壁智能共建的大模型产品“知海图AI”,双方合作将以联合研发与战略投资的方式展开。据了解,目前“知海图AI”已经应用到“热榜摘要”功能当中,通过对知乎社区现有的内容进行聚合、整理,然后提炼成摘要展现给用户,目前该功能已开放内测。官方表
麒麟芯片绝版 台积电越来越离不开苹果了:超级VIP客户

麒麟芯片绝版 台积电越来越离不开苹果了:超级VIP客户

台积电是全球最大也是工艺最先进的晶圆代工厂,无晶圆芯片设计公司几乎都要依赖台积电代工,包括苹果、AMD、高通、联发科、NVIDIA等等,其中苹果当之无愧地成为台积电第一大客户,而且依赖程度越来越高,2021年近4成收入都来自苹果。根据,市场调研机构Strategy Analytics数据,近年来台积电来自苹果的收入比重逐渐提高。
芯片库存调整影响ASML一季度业绩,预计中国市场收入将大幅增长

芯片库存调整影响ASML一季度业绩,预计中国市场收入将大幅增长

界面新闻记者 | 彭新界面新闻编辑 | 全球消费电子低迷背景下,客户去库存、订单持续调整的影响已传导至半导体设备厂商。“鉴于整个行业都在致力于实现更合理的库存水平,我们持续接收到来自不同终端市场多样化的需求信号。一部分主要客户正在对其需求节奏做进一步的调整;但那些对成熟制程DUV光刻机有需求的客户,正在消化
Mini LED背光面板驱动芯片成功导入理想汽车,哪家厂商?

Mini LED背光面板驱动芯片成功导入理想汽车,哪家厂商?

9月1日,聚积宣布进入理想汽车供应链,其Mini LED背光面板驱动芯片成功导入理想汽车SUV-L9车载显示器系统。理想L9方向盘上搭载了一块Mini LED背光交互屏据介绍,理想L9驾驶座设计风格简洁,以HUD抬头显示系统搭配安全驾驶交互屏取代仪表板,驾驶人所需的行车信息则通过HUD抬头显示系统投射到前风挡上,因此视线不再需要离开
受芯片出口减少等影响,韩对华出口额下滑24.2%,连跌9个月

受芯片出口减少等影响,韩对华出口额下滑24.2%,连跌9个月

【环球时报驻韩国特约记者  张静】受芯片出口减少等影响,韩国今年2月对华出口额下滑24.2%,连跌9个月。“美国政府公布芯片补贴细则,韩企在中美之间左右为难”,韩国KBS电视台2日的报道称,对韩国企业而言,美国和中国均为十分重要的市场。三星电子西安芯片工厂生产40%的NAND闪存芯片,SK海力士将近一半的DRAM产量和约20%
嘉楠科技2022年财报:营收同比下滑12.1% 芯片业务难当大任

嘉楠科技2022年财报:营收同比下滑12.1% 芯片业务难当大任

财联社3月8日讯(记者 徐赐豪) 北京时间7日晚,比特币矿机制造商嘉楠科技公布了2022年第四季度和全年财报。受2022年加密货币市场行情低迷的影响,该公司2022年第四季度收入为5680万美元,较2022年第三季度的1.419亿美元下降59.9%,2022年第四季度的净亏损为6360万美元。此外,嘉楠科技2022年全年收入为6.349亿美元,相比2
多款重磅芯片产品亮相WAIC,为元宇宙算力“蓄能”

多款重磅芯片产品亮相WAIC,为元宇宙算力“蓄能”

2022世界人工智能大会(WAIC 2022)召开前夕,第一财经记者探访世博中心展台,华为昇腾、瀚博半导体、燧原科技等一众芯片参与者齐聚,届时将有包括国产7纳米云端GPU等重磅产品发布。目前,上海已汇聚全国40%左右的集成电路人才,最新数据显示,今年1至7月,上海集成电路产业销售额同比增长超过18%;上海已成为国内集成电路
标准电源类芯片收入下滑 芯朋微上半年增收不增利

标准电源类芯片收入下滑 芯朋微上半年增收不增利

集微网报道 8月29日,芯朋微发布半年度报告称,2022年上半年,公司实现营业收入3.75亿元,同比增长15%;归母净利润0.58亿元,同比下降16.99%;扣非净利润0.45亿元,同比下降28.23%。芯朋微表示,上半年公司产品销售单价总体稳定,销量持续增长推动销售额同比增长15%。其中:家用电器类芯片适配于白电的 AC-DC+ Gate driver
传前阿里达摩院AI芯片研发负责人骄旸加盟三星GPU团队

传前阿里达摩院AI芯片研发负责人骄旸加盟三星GPU团队

摘要:4月11日消息,据业内传闻显示,前阿里达摩院AI芯片研发负责人、前理想汽车AI芯片研发负责人骄旸近期已加盟三星电子,成为其GPU团队的核心成员,主要负责项目规划、团队创建。4月11日消息,据业内传闻显示,前阿里达摩院AI芯片研发负责人、前理想汽车AI芯片研发负责人骄旸近期已加盟三星电子,成为其GPU团队的核心成员
梦幻西游:175全服16强花果山,超强服战硬件,装备属性全拉满!

梦幻西游:175全服16强花果山,超强服战硬件,装备属性全拉满!

Hello大家好,我是浩仔!关注浩仔,每天给你带来最新梦幻西游游戏资讯!以下点评仅代表个人意见,不代表官方或平台立场。        这些天一直在给大家展示三攻队的物理系,各位是不是有点看腻了。花果山作为曾经的服战常客,还是受到很多玩家喜爱的。但是花果山打伤害非常吃状态,而且技能刷新也有一定的几率性,所以
昇显微推出超低功耗显示驱动芯片

昇显微推出超低功耗显示驱动芯片

近日,昇显微突破AMOLED智能穿戴产品续航瓶颈,推出了具备超低待机功耗显示驱动芯片SD3302,可使智能手表整机待机时间延长2天。当前,可穿戴设备正成为显示应用市场新的增长点。根据ABI Research报告,2021 年行业可穿戴设备的出货量就已经超过3亿台,预计2022年将达到3.44亿台左右,2027年将超过6.5亿台,2022年至2027年间
挑战英伟达?微软拟推AI芯片雅典娜:训练大语言模型,成本省三分之一

挑战英伟达?微软拟推AI芯片雅典娜:训练大语言模型,成本省三分之一

为突围芯片短缺困境,微软拟推出自研人工智能芯片。当地时间4月18日,据美国科技媒体The Information报道,微软(Microsoft)准备推出人工智能芯片,为负责理解和生成类人语言的大型语言模型(LLM)提供动力。两位直接了解相关项目的人士透露,微软自2019年开始开发内部代号为“雅典娜”(Athena)的芯片。据悉,微软已向一
卷完模型卷芯片!为提升效率,微软准备推出专属人工智能芯片

卷完模型卷芯片!为提升效率,微软准备推出专属人工智能芯片

在早期成功押注ChatGPT的研发公司OpenAI之后,市场发现,微软在其武器库中还拥有另一个秘密武器:自研人工智能芯片,这一芯片将为生成式AI背后的大型语言模型提供强大动力。4月18日周二,据媒体援引两位知情人士的话说,微软早在2019年就开始开发内部代号为Athena的AI芯片。其中一位知情人士称,一些微软和OpenAI的员工已经
无锡:希望英飞凌加大分立器件、功率器件及智能卡芯片等产线投入力度

无锡:希望英飞凌加大分立器件、功率器件及智能卡芯片等产线投入力度

集微网消息,据无锡日报报道,8月30日,无锡市市长赵建军与英飞凌大中华区总裁苏华一行工作会谈。赵建军表示,希望英飞凌加快推动项目达产,持续扩大既有项目产能,加快整合全球产能布局,加大分立器件、功率器件及智能卡芯片等产线投入力度;统筹谋划在锡布局,积极研究推动在锡设立地区分拨中心、分销中心等功能性机构,
英伟达芯片一周涨了7万元!GPT带动涨价潮,主力芯片缺口达30万

英伟达芯片一周涨了7万元!GPT带动涨价潮,主力芯片缺口达30万

本文来源:时代财经  作者:谢斯临    图片来源:Pixabay ChatGPT爆火带动AI芯片需求飙升。截至上周五,英伟达最新发布的旗舰AI芯片H100在ebay上的售价超过4万美元一枚。相比此前零售商3.6万美元的报价,已提价明显。这一价格仍在持续上涨。4月19日,时代财经搜索eBay时发现,目前共有5家店铺挂牌销售H100芯片,售价普遍达
返回顶部