首页 > 科技 > 写在百度“文心一言”发布前夕

写在百度“文心一言”发布前夕

文|书航

1、百度从官宣有「文心一言」这么个东西到发布成品用了一个月多一点,这件事本身并不稀奇。因为文心一言和文心大模型的关系就是 ChatGPT 和 GPT-3 的关系。

百度的大模型已经训练很久了,做个前端应用出来没那么难。相信这一个月的时间里,绝大部分都是用在谈商务合作,找人宣传,内部测试各种刁钻古怪的用例,以及找 bug 上面。

2、百度的工具箱里不只有文心大模型,还有支撑它的底层技术,包括它使用自研芯片来训练。BAT 均宣布了自研芯片用于内部训练,百度对外宣布的「昆仑」已经到第二代,采用 7nm 制程,同时也强调通用性。而第三代会在明年部署。

尽管百度也会将自己的各个模块比如芯片层、框架层和模型层等分别拓展其对外兼容性和开发者生态,但它依然认为,都是自己家的东西协同起来,效果肯定好于一堆通用的方案拼起来的(我们倒是可以将华为的5G技术和OpenRAN阵营,或者x86、ARM阵营和RISC-V阵营之间的比较,作为这个观点的证据)。

GPT-4 已经发布了,但非常值得注意的是 OpenAI 这一次公布的技术细节少之又少,跟以前作为慷慨的服务于全人类的非盈利研究机构的感觉大不一样。这也说明如果某个东西真的是好东西,制作它的人不可能太慷慨。

3、所有人都在注视「中国的 ChatGPT」,放眼全球似乎也只有中国有机会在现在的时间点做出美国公司之外开发的竞品。能做出来有这个东西,跟这东西是不是一样的品质,是两个不同的问题。

复旦做的 MOSS 发布倒是最早,但被骂的很惨。当然作为学术实验项目,口碑不与未来的应用前景关联,所以可能不是最重要的东西。真正要出产品的公司,其实都在猛打预防针,不断降低国内外关注者的心理预期。具体地说,就是先肯定自己现在一定是做不出 ChatGPT 这么好的效果,会出更多问题,会更笨拙。

比如,小冰前阵子说的「小冰链」的说辞是,在全功能但高成本、低效率的大模型中,拆出一部分可以快速商用的做成产品,可能加上一些人工调优,会比当前的小冰模型更胜任聊天机器人等角色。即使不考虑类 GPT 的技术,小冰此前也自主实现了其中一些用例,比如文章、图片、视频的生成,以及尽可能的多轮对话。这些已经做出来的东西,其实也没必要扔掉,反正外面看来都是在同一个黑箱里面。

4、那么,百度可能会怎样说呢?如果我们浏览百度的工具箱,可以发现除了芯片和全技术栈之外,还有一个东西很可能被忽略:知识图谱。

目前我们知道的百度知识图谱最新数据来自 2020 年,具体表述是「百度打造了世界上最大的多源异构知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新,每天的调用次数超过 400 亿次」。

在深度学习突飞猛进的同时,知识图谱似乎已经被人遗忘,也长久没有进展。然而此前一直有很多 AI 研究人员相信直接建立实体与事件的对应关系,是让「黑箱」变白,让 AI 决策过程透明化的关键。当然我们知道,截至目前这并没有发生。

主要问题是建立知识图谱的过程太让人抓狂了。如果部分采用机器生成,那就可能产生错误的对应关系——就像百度有时候会在搜索框下面提取出的让人啼笑皆非的「答案」。(谷歌也这样。一个著名的例子是它把研究杀灭 WannaCry 勒索病毒的科学家标注为了该病毒的作者。)

如果用人工来梳理——开什么玩笑,是吧?

但是现在,假设 GPT 及同类技术可以产出符合伦理规范,符合逻辑,而且正确率高于商业应用所需要的阈值的答案,那么这部分人类打标签的工作,包括标记知识图谱,以及清洗深度学习语料等工作,如果可以让成熟的 GPT 自己内循环的话,就不再是看起来不可能的任务了。

所以,即使中文的优质语料没有英文那么多,也有可能通过成熟的 GPT 们代替人工清理过往的素材,核对和搭建知识图谱,再喂进去实现自我增强。当然,这只是一种理论上的假设。

5、实际上,不论是否将知识图谱,或其它现有资源融入文心大模型,现在我们已知它的问题就不算少了。在「文心一格」也就是画图应用中,经常出现 prompt 不能正确认知的情况,我或许可以在摸到「文心一言」的时候一起举例说明。

但是,一个可能证明了他们将知识图谱引入大模型的例子,是文心一格可以正确了解「米线」「佛跳墙」这些中国菜肴,它们翻译过后可能产生歧义。相信百度会特别用力宣传这方面的例子,因为它们刚成立时侯的宣传语就是「更懂中文」。

6、为了扬长避短,避免在算力上正面交锋,以上各种说法都是为了挽救一部分需要训练才能涌现的能力。涌现能力是 all or nothing,跟 ChatGPT 比了不行是意料之中的,如果有地方胜出,那就是意外收获嘛。

国产目前就是从 me too 到 me better 的阶段,比当然可以比,MOSS 都可以比,有什么不能比的。这就是我们面对「文心一言」时候应有的正确预期。

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_168860.html
上一篇和AI谈恋爱之后,她忘掉了相恋五年的前男友。
下一篇中央网信办部署“清朗·从严整治‘自媒体’乱象”专项行动

为您推荐

北京大学研究员研制出国际上最大规模集成光量子芯片

北京大学研究员研制出国际上最大规模集成光量子芯片

​如果我们真的无法通过硅芯片技术超越欧美,那么是否可以借助光芯片实现“弯道超车”呢?近日,有报道称,我国的光芯片技术有重大突破!北京大学王剑威研究员、龚旗煌教授课题组与合作者经过6年联合攻关,研制了基于超大规模集成硅基光子学的图论“光量子计算芯片”——“博雅一号”,发展出了超大规模集成硅基光量子芯片
韩国芯片滞销:任正非2年前的预言,应验了?

韩国芯片滞销:任正非2年前的预言,应验了?

中国庞大的市场需求,将倒逼芯片制造商想方设法冲破美国封锁,向中国供货。正解局出品最近,韩国统计厅发布的数据显示,1月韩国芯片制造商的芯片库存与销售比达到265.7%,创下26年来的最高值。韩国芯片,滞销了!2年前,华为任正非预言,全世界芯片过剩时,会有人求着我们买芯片的。这一刻,来了吗?库存率,指的是商品库存
北京颁发自动驾驶“前排无人”测试许可,百度、小马智行等企业获准

北京颁发自动驾驶“前排无人”测试许可,百度、小马智行等企业获准

记者 | 伍洋宇编辑 | 11月21日,北京市智能网联汽车政策先行区颁发自动驾驶无人化第二阶段测试许可,百度、小马智行等企业成为首批获准在北京开启“前排无人,后排有人”的自动驾驶无人化测试资格的企业。据介绍,获得许可后,小马智行10辆无人化测试车将在经开区60平方公里的核心区内开始全新的测试形式,覆盖亦庄复杂的城
百度首谈希壤“进化论” 院士建议发行人民币稳定币

百度首谈希壤“进化论” 院士建议发行人民币稳定币

图源:希壤这两年,百度董事长李彦宏在世界人工智能大会(WAIC)开幕式的亮相,都会带着一个数字人,去年是祝融号,今年是希加加。希加加是一名不拿画笔的“画家”,开幕式上,她的简单几句话,在几秒钟之后变成了梵高风的“外滩游船”、莫奈风的“印象生煎”……李彦宏以最近流行的AI作画,向与会者呈现了过去一年AI技术层
地表最强?苹果A16芯片现身跑分平台 成绩有点尴尬

地表最强?苹果A16芯片现身跑分平台 成绩有点尴尬

【手机中国新闻】苹果的A系列核心处理器,性能一般都非常强大,甚至曾经被不少网友赞誉为“地表最强”。而如今,随着iPhone 14系列的正式发布,我们也迎来了苹果的全新A16处理器。根据官方的信息,A16只配备在iPhone 14 Pro和iPhone 14 Pro Max这两款机型上,定位较低的另外两款产品依然只搭载了A15芯片。苹果如此设计,可
消息人士:三星和SK海力士将首当其冲受到美国对中国芯片的打击

消息人士:三星和SK海力士将首当其冲受到美国对中国芯片的打击

集微网消息,据路透社报道,拜登政府计划让SK海力士和三星免受中国存储芯片制造商新限制的冲击,消息人士称。美国商务部计划本周发布对中国技术出口的新限制,可能会拒绝美国供应商向中国公司发送设备的请求。然而,消息人士称,向在中国生产先进存储芯片的外国公司出售设备的许可申请将根据具体情况进行审查,这可能会允许
ChatGPT从下游应用”火“到了上游芯片厂,国内谁将受益?

ChatGPT从下游应用”火“到了上游芯片厂,国内谁将受益?

因库存陷入低迷周期的半导体市场近日因ChatGPT的火热而重新受到外界关注。由于ChatGPT属于生成式AI,被誉为“AI芯片”第一股的英伟达应声而涨。2月13日收盘,英伟达最新股价已达到217美元,较今年1月3日的143美元上涨50%。英伟达创始人兼CEO黄仁勋在一场演讲中甚至将ChatGPT视为“人工智能领域的iPhone时刻”,并称其为“计
知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

知乎发布“知海图AI”大模型 官方:已储备充足A100芯片

腾讯科技讯 4月13日,知乎在北京召开“2023知乎发现大会”,首次公开旗下与面壁智能共建的大模型产品“知海图AI”,双方合作将以联合研发与战略投资的方式展开。据了解,目前“知海图AI”已经应用到“热榜摘要”功能当中,通过对知乎社区现有的内容进行聚合、整理,然后提炼成摘要展现给用户,目前该功能已开放内测。官方表
英伟达:采用 RTX 技术的游戏和应用超 280 款

英伟达:采用 RTX 技术的游戏和应用超 280 款

IT之家 8 月 26 日消息,英伟达最新数据显示,二季度新增 30 款 RTX ON 游戏和应用,包括《瘟疫传说:安魂曲》、《鬼玩人:游戏版》以及《F1 22》,采用 RTX 技术的游戏和应用超过 280 款。英伟达表示,GeForce RTX 和 NVIDIA Studio 笔记本电脑的数量增加到创纪录的 180 多款,包括推出配备 GeForce RTX 3080 Ti 的笔记本
麒麟芯片绝版 台积电越来越离不开苹果了:超级VIP客户

麒麟芯片绝版 台积电越来越离不开苹果了:超级VIP客户

台积电是全球最大也是工艺最先进的晶圆代工厂,无晶圆芯片设计公司几乎都要依赖台积电代工,包括苹果、AMD、高通、联发科、NVIDIA等等,其中苹果当之无愧地成为台积电第一大客户,而且依赖程度越来越高,2021年近4成收入都来自苹果。根据,市场调研机构Strategy Analytics数据,近年来台积电来自苹果的收入比重逐渐提高。
芯片库存调整影响ASML一季度业绩,预计中国市场收入将大幅增长

芯片库存调整影响ASML一季度业绩,预计中国市场收入将大幅增长

界面新闻记者 | 彭新界面新闻编辑 | 全球消费电子低迷背景下,客户去库存、订单持续调整的影响已传导至半导体设备厂商。“鉴于整个行业都在致力于实现更合理的库存水平,我们持续接收到来自不同终端市场多样化的需求信号。一部分主要客户正在对其需求节奏做进一步的调整;但那些对成熟制程DUV光刻机有需求的客户,正在消化
Mini LED背光面板驱动芯片成功导入理想汽车,哪家厂商?

Mini LED背光面板驱动芯片成功导入理想汽车,哪家厂商?

9月1日,聚积宣布进入理想汽车供应链,其Mini LED背光面板驱动芯片成功导入理想汽车SUV-L9车载显示器系统。理想L9方向盘上搭载了一块Mini LED背光交互屏据介绍,理想L9驾驶座设计风格简洁,以HUD抬头显示系统搭配安全驾驶交互屏取代仪表板,驾驶人所需的行车信息则通过HUD抬头显示系统投射到前风挡上,因此视线不再需要离开
受芯片出口减少等影响,韩对华出口额下滑24.2%,连跌9个月

受芯片出口减少等影响,韩对华出口额下滑24.2%,连跌9个月

【环球时报驻韩国特约记者  张静】受芯片出口减少等影响,韩国今年2月对华出口额下滑24.2%,连跌9个月。“美国政府公布芯片补贴细则,韩企在中美之间左右为难”,韩国KBS电视台2日的报道称,对韩国企业而言,美国和中国均为十分重要的市场。三星电子西安芯片工厂生产40%的NAND闪存芯片,SK海力士将近一半的DRAM产量和约20%
嘉楠科技2022年财报:营收同比下滑12.1% 芯片业务难当大任

嘉楠科技2022年财报:营收同比下滑12.1% 芯片业务难当大任

财联社3月8日讯(记者 徐赐豪) 北京时间7日晚,比特币矿机制造商嘉楠科技公布了2022年第四季度和全年财报。受2022年加密货币市场行情低迷的影响,该公司2022年第四季度收入为5680万美元,较2022年第三季度的1.419亿美元下降59.9%,2022年第四季度的净亏损为6360万美元。此外,嘉楠科技2022年全年收入为6.349亿美元,相比2
多款重磅芯片产品亮相WAIC,为元宇宙算力“蓄能”

多款重磅芯片产品亮相WAIC,为元宇宙算力“蓄能”

2022世界人工智能大会(WAIC 2022)召开前夕,第一财经记者探访世博中心展台,华为昇腾、瀚博半导体、燧原科技等一众芯片参与者齐聚,届时将有包括国产7纳米云端GPU等重磅产品发布。目前,上海已汇聚全国40%左右的集成电路人才,最新数据显示,今年1至7月,上海集成电路产业销售额同比增长超过18%;上海已成为国内集成电路
标准电源类芯片收入下滑 芯朋微上半年增收不增利

标准电源类芯片收入下滑 芯朋微上半年增收不增利

集微网报道 8月29日,芯朋微发布半年度报告称,2022年上半年,公司实现营业收入3.75亿元,同比增长15%;归母净利润0.58亿元,同比下降16.99%;扣非净利润0.45亿元,同比下降28.23%。芯朋微表示,上半年公司产品销售单价总体稳定,销量持续增长推动销售额同比增长15%。其中:家用电器类芯片适配于白电的 AC-DC+ Gate driver
传前阿里达摩院AI芯片研发负责人骄旸加盟三星GPU团队

传前阿里达摩院AI芯片研发负责人骄旸加盟三星GPU团队

摘要:4月11日消息,据业内传闻显示,前阿里达摩院AI芯片研发负责人、前理想汽车AI芯片研发负责人骄旸近期已加盟三星电子,成为其GPU团队的核心成员,主要负责项目规划、团队创建。4月11日消息,据业内传闻显示,前阿里达摩院AI芯片研发负责人、前理想汽车AI芯片研发负责人骄旸近期已加盟三星电子,成为其GPU团队的核心成员
昇显微推出超低功耗显示驱动芯片

昇显微推出超低功耗显示驱动芯片

近日,昇显微突破AMOLED智能穿戴产品续航瓶颈,推出了具备超低待机功耗显示驱动芯片SD3302,可使智能手表整机待机时间延长2天。当前,可穿戴设备正成为显示应用市场新的增长点。根据ABI Research报告,2021 年行业可穿戴设备的出货量就已经超过3亿台,预计2022年将达到3.44亿台左右,2027年将超过6.5亿台,2022年至2027年间
返回顶部