首页 > 科技 > 什么样的NPU才能实现“看得又清”和“看得懂”

什么样的NPU才能实现“看得又清”和“看得懂”

集微网报道 很难想象出没有视觉感知技术的智能世界会是什么样子。从智能安防、智慧交通、工业智造、智能汽车到消费电子,以AI为底座的视觉感知技术已经融入百业千行的智能化进程当中。正是依靠AI的赋能,使得视觉感知经历看得见、看得清、看得懂的演化过程,在诸多应用场景中发挥了不可替代的作用。

正如爱芯元智联合创始人刘建伟在近期发表的文章《打破内存墙、功耗墙,国产芯片AI-NPU的现在和未来》中所言,智能化未来的基础是“感知+计算”,AI视觉在智能化的进程中会起到非常关键的作用,具备非常广阔的应用前景。

没有NPU,怎能“看得更清”,又“看得懂”

海量的视觉数据是万物智能互联时代的特征,要充分发掘这些数据背后的信息,就需要AI技术的辅助。基于AI的智能视觉感知技术因而成为了行业发展的重点。据相关机构统计,2021年工业领域、零售领域以及体育产业领域的智能视觉市场规模分别达145.11亿、6.34亿和362.79亿元。与此同时,智能视觉的应用在整个AI应用领域中的占比达到34.9%,成为技术发展的重要驱动力。

硬件决定了智能视觉系统所呈现的最终效果,以NPU为代表的AI芯片因此大行其道。随着业界越来越重视AI算法与硬件的深度结合,NPU凭借自身的高算力受到了更多的青睐。

“如果说ISP芯片让智能视觉系统看得清,NPU芯片就使系统看得更清和看得更懂。”刘建伟在文中表示。

图 | AI视觉芯片的技术特点

举例来说,摄像头在夜间捕捉的图像或视频往往会出现过曝、色彩细节被淹没的现象,要看得更清,就需要采用技术进行后期处理。如果采用滤波等传统技术,暗光、宽动态等场景下将会产生大量的噪声,效果难以体现。改用AI-ISP可以解决此问题,代价是必须采用AI算法全分辨率、全帧率地对视频进行处理。“仅500万像素的视频码流,要做到全分辨率、全帧率的处理,就会对NPU的算力提出非常高的要求。”刘建伟表示。

而在进行车辆检测和车牌识别的应用中,视频画面中远处的车牌往往识别不出来,高速行驶的车辆也可能会漏检,解决方法也是尽量采用全分辨率、更高帧率检测的方式进行处理,而这种做法同样需要高算力的NPU。

不仅是“看得更清”,要“看得懂”更离不开NPU。智能视觉系统的一大发展趋势就是前端硬件的智能化。以智慧城市行业为例,越来越多的智能算法从后端转向在前端完成。前端智能不仅能够为后端提供高质量、初步结构化的图像数据,还能大大节省带宽和后端计算资源。目前已经有很多智能算法可以在前端实时运行,如人脸检测、进入/离开区域、越界等。但要使前端设备与这些算法相配合,就需要大算力NPU的支撑。

刘建伟在文中指出,“这就相当于把一个专家装到AI芯片里,这个专家系统要足够聪明,对应的就是一个大规模的网络,网络比较大就相当于脑容量比较大,它能够维持存储更多的权重值,这就会对NPU算力提出很高的要求。”

在公共安全领域的监控中,经常会面对各种异常行为,比如突然加速、聚集、跌倒等,还要针对移动物体进行智能化跟踪、复杂场景下的视频分析,这些都需要不断引入新的算法来解决。如果没有大算力的NPU,硬件设备的资源将很难跟上算法的升级速度。

另一方面,要将大算力服务器上训练出的算法部署到前端设备中,必须要进行模型的压缩,如果前端的算力较高,可以大幅缩短这个过程。对此,刘建伟在文中谈到,“用一部分算力来换取开发效率的提升,加速了AI的落地,但这种做法反过来提高了对NPU算力的要求。”

在面对海量数据计算需求的背景下,设备要“看得更清”并“看得懂”,高算力NPU是必不可少的一环。

软硬协同 打破内存墙和功耗墙

业界在不断探索AI算法与硬件深度结合的方式,以提升芯片的利用率,达到更好的视觉信息处理效果,同时降低芯片功耗,以实现大规模商用。在这个过程中,AI芯片的开发会碰到两大障碍:内存墙和功耗墙。

在传统冯·诺伊曼架构下,计算和存储单元相分离,计算单元从内存中读取数据,完成计算后存回内存。但AI算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据,数据在计算单元和存储单元之间进行频繁的移动,因为存储器的数据访问速度跟不上计算单元的数据处理速度,阻碍算力提升的内存墙问题就产生了。

同时,数据频繁的迁移也带来严重的传输功耗问题。根据英特尔的研究显示,半导体工艺到了7nm时代,数据搬运功耗达到35pJ/bit,占比达63.7%。数据传输所导致的功耗损失越来越成为芯片发展的制约因素,由此形成“功耗墙”问题。

刘建伟在《打破内存墙、功耗墙,国产芯片AI-NPU的现在和未来》一文中指出,功耗墙的问题主要来自两个方面:MAC单元和DDR,“当通过堆MAC单元来拉高算力指标时,MAC单元本身的耗电总量会提升,同时还需要高带宽的支撑,在服务器侧可以使用比较贵的HBM,如此一来DDR所需的功耗势必会拉升上去,而在端侧,出于成本的考量,还没有特别好的DDR方案。”

AI芯片的计算以数据为主,大量数据搬运导致“内存墙”和“功耗墙”挑战凸显,这不仅限制其计算性能的发挥,也限制其进入对功耗有严格要求的移动端和嵌入式设备中。

存算一体和减少数据搬运是业界常用的破局思路。存算一体性能强大,但会受到工艺节点瓶颈的限制,距离芯片量产还有一定的距离。数据搬运则可以发掘现有芯片的潜力,大幅降低开发成本。刘建伟表示,爱芯元智正是通过混合精度技术减少了数据搬运,从而在一定程度上减小了内存墙和功耗墙的阻碍,提高了整个NPU的效率。

混合精度就是将不同精度的浮点数/定点进行数值计算。业内专家通过研究发现,计算过程中并非所有环节都需要高精度数值格式。通过合理分配不同环节的数值精度,就可在保证最终计算结果准确度的条件下,实现整体计算的加速。

对此,刘建伟在文章中也有相应解答:“在整个神经网络中,权重系数比较复杂,传统NPU的数据表示格式一般是8比特、16比特和浮点数,才能达到AI算法的精度,所以运算量繁重。但爱芯元智发现,在实际应用中,AI网络中有的信息是有冗余的,这意味着不是所有的计算都需要高精度的浮点或是高精度的16比特,采用8比特或者4比特等低精度混合运算就足够了。”

刘建伟表示,在爱芯元智的AI-ISP应用中,就是基于混合精度技术,网络中许多中间层都是采用INT4精度。相比原来的8比特网络,数据搬运量可能就变成原来的1/2,计算量缩减为1/4,相当于在单位面积内提供数倍于传统NPU的等效算力,同时还能把成本和功耗降下来,更有利于端侧和边缘侧AI落地。

图 | AI-NPU的设计难点和驱动力

面对采用先进制程和高级封装工艺给AI芯片带来的成本压力,用混合精度技术来解决“存储墙”和“功耗墙”的问题, 是一条切实可行之路。

不过,在端侧和边缘侧,AI芯片和场景的耦合强度较弱。要让AI真正落地,还需要实现算法和硬件的紧密结合。

刘建伟在文中表示,爱芯元智算法团队会在NPU设计早期就将算法网络的结构、量化需求/算子需求、内存访问需求等详细信息提供给NPU设计的架构师,硬件架构师可以根据这些算法的需求来调整或优化整个NPU的设计。同时,硬件工程师也会把硬件限制提供给算法工程师,如此算法工程师在设计算法时,可以考虑到硬件限制,从算法的角度来规避一些硬件上的短板。

“只有两者真正结合,才可以兼顾NPU的硬件和软件开发,加快AI开发的落地效率,实现智能视觉“看得更清”和“看得懂”的最终目标。”

(校对/萨米)

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_21326.html
上一篇三度上市遇阻,被困住的比亚迪半导体
下一篇英国科学家认为,外星人可能使用“量子通信“跨星际发送信息

为您推荐

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌

【华为王连军:目标是三年内将AITO问界做成全球高端智能电动品牌】财联社11月7日电,华为智选车战略总监王连军透露,AITO问界已经连续三个月销量破万,在刚刚过去的10月份,销量达到了12018台,在新势力车企中做到当月市场第一。王连军表示,过去的汽车行业积累了精益制造与供应链体系能力,但未来是软件定义汽车,智能化是
北京大学研究员研制出国际上最大规模集成光量子芯片

北京大学研究员研制出国际上最大规模集成光量子芯片

​如果我们真的无法通过硅芯片技术超越欧美,那么是否可以借助光芯片实现“弯道超车”呢?近日,有报道称,我国的光芯片技术有重大突破!北京大学王剑威研究员、龚旗煌教授课题组与合作者经过6年联合攻关,研制了基于超大规模集成硅基光子学的图论“光量子计算芯片”——“博雅一号”,发展出了超大规模集成硅基光量子芯片
韩国芯片滞销:任正非2年前的预言,应验了?

韩国芯片滞销:任正非2年前的预言,应验了?

中国庞大的市场需求,将倒逼芯片制造商想方设法冲破美国封锁,向中国供货。正解局出品最近,韩国统计厅发布的数据显示,1月韩国芯片制造商的芯片库存与销售比达到265.7%,创下26年来的最高值。韩国芯片,滞销了!2年前,华为任正非预言,全世界芯片过剩时,会有人求着我们买芯片的。这一刻,来了吗?库存率,指的是商品库存
AirPods Pro 2,这次真的值得换了?

AirPods Pro 2,这次真的值得换了?

本周,苹果发布了秋季特别活动的邀请函,将发布会定档北京时间 9 月 8 日凌晨 1 点。除了 iPhone 14,大家心心念念的另一款重磅产品,也有望在本次发布会亮相。那就是 AirPods Pro 2。距离第一代 AirPods Pro 发布,已经过去了三年,想必有不少小伙伴已经在为耳机的续航而发愁。AirPods 3 提升不错,但又不支持主动降噪。那
地表最强?苹果A16芯片现身跑分平台 成绩有点尴尬

地表最强?苹果A16芯片现身跑分平台 成绩有点尴尬

【手机中国新闻】苹果的A系列核心处理器,性能一般都非常强大,甚至曾经被不少网友赞誉为“地表最强”。而如今,随着iPhone 14系列的正式发布,我们也迎来了苹果的全新A16处理器。根据官方的信息,A16只配备在iPhone 14 Pro和iPhone 14 Pro Max这两款机型上,定位较低的另外两款产品依然只搭载了A15芯片。苹果如此设计,可
除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

除了绘画,AIGC还做营销能手、创作者和程序员|我在硅谷看未来

【联合出品团队】硅兔赛跑成员王子、顾程来,夏维彬对本文亦有贡献,腾讯科技成员李海丹、郝博阳、关皓。 【免责声明】本篇内容并非投资意见,为便于理解,该系列汇总了相关领域的典型企业案例作为参考,但所含相关公司资料不构成任何投资产品之要约或者建议,只作为一般参考资料用途。【版权声明】本文版权为硅兔赛跑和腾
消息人士:三星和SK海力士将首当其冲受到美国对中国芯片的打击

消息人士:三星和SK海力士将首当其冲受到美国对中国芯片的打击

集微网消息,据路透社报道,拜登政府计划让SK海力士和三星免受中国存储芯片制造商新限制的冲击,消息人士称。美国商务部计划本周发布对中国技术出口的新限制,可能会拒绝美国供应商向中国公司发送设备的请求。然而,消息人士称,向在中国生产先进存储芯片的外国公司出售设备的许可申请将根据具体情况进行审查,这可能会允许
曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

曾经万人斩、永劫无间单挑王,却被AI虐的死去活来?做梦都能吓醒

竞技游戏中的人机模式,一直以来都是玩家用来熟悉游戏、精进技术的最佳手段之一。相对于真人,AI的行为会稍显呆板,只会按照指令来行动。即使强如《英雄联盟》中的末日人机,也仅仅是在数值和技能类型上做出了调整,整体依然不足以与真人相提并论。而最近有款竞技游戏却打破了这个认知,那就是国产多人动作游戏《永劫无间》
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低

机器之心报道编辑:袁铭怿网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为
出门问问发布大模型“序列猴子”及四款AIGC产品

出门问问发布大模型“序列猴子”及四款AIGC产品

三言科技消息 出门问问宣布内测探索大模型「序列猴子」,并提出CoPilot将会无处不在,同时在大模型能力的基础上还同步开启了面向创作者的CoPilot产品矩阵,面向C端的升级版语音助手魔法小问,以及面向B端的企业专属大模型的内测探索。其中面向创作者的CoPilot产品矩阵包含了四款AIGC产品,分别为AI写作平台“奇妙文”、AI
达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

达摩院2023十大科技趋势发布:人类对通用AI的想象从未如此具体

杨净 发自 凹非寺量子位 | 公众号 QbitAI刚刚,达摩院十大科技趋势榜单发布。本次包含了AI、芯片、云计算等基础技术领域,既有引发全球投资浪潮的生成式AI,也有在规模化应用前夜的存算一体、Chiplet设计封装技术……(先来一睹为快)但跟以往不同的是,仅从榜单上可以看到,产业、融合等成为此次的关键词。而在跟达摩院进
ChatGPT从下游应用”火“到了上游芯片厂,国内谁将受益?

ChatGPT从下游应用”火“到了上游芯片厂,国内谁将受益?

因库存陷入低迷周期的半导体市场近日因ChatGPT的火热而重新受到外界关注。由于ChatGPT属于生成式AI,被誉为“AI芯片”第一股的英伟达应声而涨。2月13日收盘,英伟达最新股价已达到217美元,较今年1月3日的143美元上涨50%。英伟达创始人兼CEO黄仁勋在一场演讲中甚至将ChatGPT视为“人工智能领域的iPhone时刻”,并称其为“计
“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

“AI焦虑”蔓延全球?有人失眠,也有人靠ChatGPT带孩子

·“很多年前可能需要我们在农田里务农,工业时代变成流水线女工,到现在变成‘PPT女工’。未来可能就变成为AI工作的工人,是‘喂它东西的饲养员’。变化的只是工作形式,我们始终都会有工作。当然在这个过程中还有一部分人会因为没有继续学习,或者没有继续使用新工具而被淘汰。”曹宇在上海一家媒体担任英文报道编辑,平
返回顶部