在智能手机时代下,手机芯片的复杂程度与功能机时代相比已是今非昔比。手机芯片厂商所剩无几,全球能做芯片的手机厂商也是屈指可数。
目前,大部分手机厂商只能选择通用芯片,以及行业配套的影像算法,从而满足用户的影像需求。
随着用户需求不断变高,计算影像也在不断地进化。与此同时,计算影像对通用平台的算力也在水涨船高,通用芯片逐渐无法满足手机厂商对于算力,和移动端极致能耗比的要求。
同时,传感器、芯片和影像算法,通常会由不同的供应链负责。如果要做一枚影像芯片,如何垂直整合影像链路成为了一道难题。算法、芯片框架如果全部采购自第三方,这样做在公司运营和成本方面会有很多好处,但也带来了用户体验上的问题——厂商无法在一个时间点,将各个模块的指标做到最佳,更无法做到整合。
OPPO 认为,如今想要满足用户的影像需求,又要提供差异化体验,那就不仅要拥有自研影像算法能力,还要有自研芯片设计能力,甚至上游传感器的深入定制能力,真正从消费者的真实需求出发,打通整条影像链路,从而为消费者提供最佳的使用体验。
但自研芯片并非易事。这件事情的难度大到 OPPO 会用地球上已知最深的海沟 —— 马里亚纳 —— 来命名这一次行动。
在 2019 年,OPPO 将自研芯片项目命名为“马里亚纳”,而其首个自研影像专用 NPU 也被叫做——马里亚纳 X。
“这颗芯片取名叫做‘马里亚纳’,意味着我们并不想去一个普通的地方,而是希望能挑战极致。我们既是激进地在推动芯片自研,同时也是抱着对芯片的敬畏心在做这件事”。OPPO 芯片产品高级总监——姜波介绍道。
2021 年 INNO DAY 上,马里亚纳 X 正式发布,并在 2022 年 2 月首发于 Find X5 系列产品上;2022 年 5 月,Reno8 系列产品也正式搭载马里亚纳 X。
▲图|INNO DAY 2021 上,姜波正式发布马里亚纳 X
近日,因为这款自研芯片,OPPO 入选了《麻省理工科技评论》“50 家聪明公司”。该名单遴选标准,并不看其短期营收浮动,而是强调入选企业基于新兴科技的创造能力。从技术创新、具体成就、社会影响、业界标杆、商业模式以及公众信誉六个维度,对入选的新兴技术和公司进行评估。
▲图|2021《麻省理工科技评论》50 家聪明公司入选企业名单
对于 OPPO 这支近千人的芯片团队来说,这次入选 2021 年度《麻省理工科技评论》“50 家聪明公司”,也再次证明马里亚纳 X 标记了一个不错的“登陆点”,这片大海是可以征服,也是必须要征服的地方,但同时也必须保持着敬畏之心的态度,去做自研芯片的这场冒险。
一场对计算摄影技术的极致追逐
包括 OPPO 在内,许多国内手机大厂都将“造芯”视为一个避不开的挑战。
自研芯片确实是有好处的。眼下的手机大战已经白热化,细抠每一个用户体验的提升点,最后都会回归到最本质的底层技术能力上。OPPO 认为,只有构建底层技术能力,才能给用户带来本质上差异化的体验。而这一点,早在 2010 年搭载 A4 处理器的 iPhone 就已有所证明。
▲图|苹果首款自研芯片 A4
作为底层能力的移动端芯片,对算力和能耗比的高要求,也逐渐超出了通用芯片厂商的能力范围。通用芯片厂商处于供应链上游,对用户真实的需求了解也不够清楚;而且通用芯片由于商业出货和客户考量,也很难按照手机厂商的自身需求去堆料。
这些问题在过去无伤大雅,但放到现在却愈发致命。
因此,对于必须要再进一步的手机厂商来说,如果“造芯”避不开,那么晚做不如早做。
但自研芯片的风险也是有目共睹的,砸钱砸人砸设备,数十年的投入可能都换不到一张入场券。如果没有足够强大的驱动力,和“板凳坐足十年冷”的长期主义,最终也难以避免吃力不讨好。
作为一名芯片老兵,姜波对此的体会更为深刻:“芯片要做到极致需要很多代的迭代,意味着没有五年或十年的思考,那么做这件事情没有太大的意义。要按照十年磨一剑的态度去做芯片,更是为了建立自身‘千里之性’的底层技术能力去探索。”
在加入 OPPO 之前,从 20 年前的贝尔实验室,到后来进入当时只有 200 人的高通,姜波此前任职过的公司在当初那个时间点上,都是风口浪尖上的存在。用他的话来说:“智能手机从中国一年出货几百万,到一下子出货一个多亿”。
但来到一家国内手机公司,去负责开发一款市面所没有任何参照物的芯片,这是他未经历过的。
最重要的是,这颗芯片要直面手机算力当前最吃紧的一个方向——计算影像。
所谓计算影像,是用数字计算代替光学处理的图像采集和处理技术,包括数字合影图计算、HDR 合成及光场相机等。简单来说,是以软件代替部分相机元件,达到甚至是超过传统摄影效果。更具体的来说,计算影像技术的发展需要芯片、传感器、算法三个层面进行强耦合,三者环环相扣,缺一不可。
而行业当下主要面临的问题,正是传感器、芯片和算法的不同步。
▲图|目前计算影像面临的最大难题
光是开发周期上,三者的节奏就完全不同。芯片的开发周期基本需要两年以上,传感器则是一年一代更新迭代,而算法开发和训练所需的时间则更短,这意味着厂商很难可以在一个时间节点内统筹好三者。
尤其近年来手机影像的相关算法、以及影像元器件突飞猛进,通用芯片的能力开始捉襟见肘,比如对夜景图像的支持,和对高清视频的支持等都不尽人意。而且,视频摄影场景的挑战,远比图片摄影难得多。前者的处理速度和延时性要求,要比拍照更加复杂。
“一个 30 帧的视频用 33 毫秒做完,和几秒钟拍好一张夜景图片,对硬件的需求是完全不一样的。高端手机和低端手机拍照体验的不同,由几个因素引起:一方面是因为镜头、传感器不一样,另一方面也是因为它们的芯片平台不同”,姜波介绍道。
因此,真正的商用产品,永远要在有限算力和质量间寻找平衡。
例如,用户在使用夜景模式拍照时,需要等待,因为这个功能需要“转圈”。计算影像的上限,或者说其持续演进的需求是一直存在的,最后目标是实现用户完全可忽略的时间出片。但视频则是另外一个维度,因为视频是不能允许有延迟和等待的。
出于这种对计算影像的长期追求,OPPO 的第一颗自研芯片,正是一款影像专用 NPU。
尽管是 OPPO 自研的第一款芯片,马里亚纳 X 仍然带来了 4 个关键的技术性突破和创新。首先在 AI 计算能效上,马里亚纳 X 的能效比,达到了 11.6TOPS/W,有效算力高达 18TOPS;马里亚纳 X 支持画面的动态画面到达了 20bit Ultra HDR;同时基于马里亚纳 X 惊人的算力,进行实时的 RAW 域计算,最大程度修复不该出现的噪点;马里亚纳 X 也支持双链路处理,以及 2 倍的 RAW 超采样,可以让传感器同时输出 RGGB 和 W,两路数据,也为计算影像带来了更多可能。
▲图|马里亚纳 X 四大技术特性
不走捷径,一次对 AI 时代 DSA 架构的押注
这些突破的背后,包含着 OPPO 对未来计算影像发展脉络的回答,尤其是对端侧算力演变的判断:AI 时代,DSA(Domain Specific Architecture)架构为王。
这款影像专用 NPU 芯片,采用的设计思想是“面向未来 AI 时代的 DSA 架构理念”。
DSA 架构思想的一大背景是,从传统的芯片发展来看,无论是摩尔定律代表的通过制程工艺提高晶体管密度,还是通过增加核心数量,扩大芯片面积,对目前的计算性能提升都有限。
如图灵奖得主 John Hennessy 和 David Patterson 在 2019 发表的经典文章《A New Golden Age for Computer Architecture》中提到:“获得更高的性能改进(像 20 世纪八九十年代那样)需要新的架构方法,新方法应能更加高效地利用集成电路。”
相比传统芯片架构,DSA 更加强调以应用场景为中心的设计思路,通过特殊的计算架构,为解决特定领域的问题提供了强大且高效的性能,尤其是在 AI 芯片的设计领域,这样的设计理念更加受用。
简单来讲,DSA 就是专芯专用,设计出来的芯片不是去解决所有问题,而是解决特定的一类问题,从而满足对效率的需求。
不过,DSA 目前在行业内是非常奢侈的做法。因为对比通用芯片,DSA 架构下的 AI 算力更加垂直,目前全球前沿科技公司都在探索采用 DSA 做 AI,比如 Google 的 Tensor。
在 DSA 架构的思考下,最重要的一步,就是将专用的 AI 算法进行芯片化,也就是在芯片底层硬件中,就直接嵌入最适合 AI 算法的算子。
反观通用的芯片中 NPU,因为要满足不同客户、不同的算法模型,往往需要在计算单元中集成更普遍的算子,以应对多种类型的算法,无法针对某一种特定的算法做到针对性的加速,也就很难突破AI的能效限制。
具体到 DSA 架构下的计算影像 NPU,就是要从最根本上去思考平衡能耗和用户体验,包括提供同样算力的情况下如何大幅度降低功耗和缩短处理时间。传统芯片厂商很少能做到就一个影像方向的改进去做巨大投入。
换句话说,这也就决定了这样一颗芯片,自研是最优解。
最终,和通用芯片相比,从工艺制程选择到芯片综合能力的提供,OPPO 芯片团队采用的技术解决方案可谓是相当“激进”。
而相对保守的做法是,采用更低费用的方案降低风险,例如信息在 RAW 域的处理上,是不是设置做到 1080P 就可以。
甚至,最快捷的方式就摆在眼前:收购 IP 设计芯片。
但姜波认为,从长期能力积累来看,这些都不见得是对 OPPO 最有利的一些方式:OPPO 既然决定做芯片,决定建立“千里之性”的能力,只有从底层核心 IP 就自研的,才能满足自身的设计目标。再加上这款芯片立项时,市面上没有任何 6nm 独立 NPU 的参考设计,开发生态更难,这是一个真正意义上的无人区,因此也只能选择从核心 IP 全部自研。
回到自研芯片的原点,OPPO 一直是希望提供更好的产品,和更好的用户体验,只有通过自研芯片将基础的硬件能力提升上来,才能打造真正差异化的体验。
▲图|马里亚纳 X 中,由 OPPO 自研的核心单元—— MariLumi
“当产品做到一定程度以后,就是在比这个能力。具备这种能力,有基础的硬件能力后,对于软硬件的结合上、对垂直链路整合的机会都会有所提升。OPPO 有足够的的驱动力去做这件事情”姜波说道。
边造轮子边开车
在 OPPO 内部,对于姜波这支团队,以及他们在做的自研芯片的事情,有着这样一句形象的描述:“边造轮子边开车”。
这句话概括了自研芯片对国内手机厂商的挑战和难度。事实上,除了技术条件上的挑战,光是从 0 开始组建一支全栈式的芯片开发团队,支持打通影像传感器、算法以及芯片之间的壁垒,就是一大难题。
OPPO 整个自研芯片团队成立于 2019 年。2 个月后,OPPO 马里亚纳自研芯片计划启动。启动之后,整个团队就一直保持着高速运转的节奏,在相当长的一段时间中,很多工程师都在加班加点工作。
最重要的里程碑时刻发生在 2021 年 6 月。马里亚纳 X 流片成功,之后第一次流片成功,并成功点亮,验证芯片可用。
▲图|马里亚纳 X
据了解,从项目立项到芯片首次点亮,OPPO 有超过 500 名工程师参与该项目。为了马里亚纳 X,OPPO 自研芯片工程师验证了超过 8000 个案例。
2021 年 12 月 OPPO INNO DAY 上,OPPO 首个自研芯片马里亚纳 X 正式发布,成为“全球首个 6nm 自研影像专用 NPU”。同年年底,OPPO 宣布自研芯片团队已超千人。
“很多同事,尤其是做研发的同事加入这个团队,志同道合的人一起做这个行业里,也许别人没有做过的事情,或者别人没有做成的事情,这对于工程师来讲是蛮大的成就。” 姜波分享道。
也正因为诸多难度的存在,这次芯片研发内部代号“Explorer(探索者)”,意味着 OPPO 希望通过这颗芯片挑战自身芯片设计的极限,并通过这次沉淀下来的能力,拓展自己的能力,打造自身的护城河。
技术验证之后,便到了同样重要的商业验证阶段。毕竟,出几万片和出几百万片对芯片的成熟度,是完全不同的概念。
2020 年,马里亚纳 X 项目正式启动,OPPO 迈出自研芯片第一步。在启动之初,锚定周期便是在 Find X5 系列上正式商用;3 个月之后,马里亚纳 X 搭载于 Reno8 系列,并正式开启大规模商用。这也意味着,OPPO 自研芯片业务的设计流程,以及芯片设计的方法论也得到更加可靠的验证。
从起初芯片预研,到算法优化再到后期适配,目前 OPPO 已经对其进行超过 50 万张真实照片的的训练,以期不断提升自研 AINR(AI 降噪)算法的精准度和适用性。
虽然已经大规模商用,但马里亚纳 X 并未停止迭代。按照规划,它会是一个动态成长的芯片产品,后续也会有基于 NPU 的功能拓展。
姜波进一步解释道,影像比拼的不止是出厂的算法,马里亚纳 X 可以随着OPPO 训练(OTA )拓展更多影像功能,这才是未来影像的做法,为影像拓展带来新可能。
而且,所有厂商在未来都必将面对垂直整合的难题,只有把整个影像链路上各个环节控制在自己手中,才能做好影像,马里亚纳 X 补足了 OPPO 在影像计算单元上的最后短板。
虽然没有透露更多的后续芯片计划,但姜波表示,团队会不断挑战更极致的一些技术点,希望能够在用户体验上带来一些本质的提升,而持续探索 DSA 理念下的芯片,以及继续开发马里亚纳 X 会是 OPPO 长期坚持的赛道。
值得一提的是,对于行业而言,马里亚纳 X 的问世也释放了一个新的信号:手机行业影像门槛的再次拉高。而对于 OPPO 自身而言,马里亚纳 X 的问世也标志着 OPPO 在逐渐构建自身的”千里之性”。
“OPPO 相信计算影像很重要,相信专用 NPU、影像 NPU 非常有价值,其他公司包括其他芯片厂商,甚至包括其他手机厂商,如果觉得这是一个好的方向,也会朝着这个方向发力。
任何一个行业的发展迭代都是相互追赶促进的,这就像不同的选手在一个赛道上,看到对方领先了才会有更好的吸收,让整个行业提升,这是很良性的相互借鉴”。姜波说。