首页 > 科技 > 开源双语千亿预训练模型GLM-130B 项目原作解读

开源双语千亿预训练模型GLM-130B 项目原作解读

近年来,以 GPT-3 为代表的千亿规模稠密语言模型展现出了强大的零样本/少样本学习能力,引起了新一轮的研究热潮。然而,GPT-3 的模型参数不开源,仅以付费 API 的形式提供给海外研究者(中国地区不可用),给研究者对模型的深入研究设立了障碍。尽管目前有形如 OPT-175B 和 BLOOM-176B 这类的开源千亿模型,用户也至少需要一台 A100(80G * 8)服务器才能启动推理,大部分普通研究者仍然被挡在门槛之外,这极大的影响了预训练语言模型的普惠性(Inclusivity)。

机器之心最新一期线上分享邀请到了清华大学知识工程实验室一年级博士生、 GLM-130B 项目学生负责人之一曾奥涵,将围绕架构选择、工程实现、训练策略三个方面介绍 GLM-130B 在训练过程中遇到的种种困难以及对应的解决方案及取得的一系列工作成果。以下是 GLM-130B 的介绍:

GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿参数,模型架构采用通用语言模型(GLM)。它旨在支持在一台A100(40G * 8)V100(32G * 8)服务器上对千亿规模参数的模型进行推理。在 INT4 量化方案下,GLM-130B 可以几乎不损失模型性能的情况下在RTX 3090(24G * 4)或GTX 1080 Ti(11G * 8)服务器上进行高效推理。截至 2022 年 7 月 3 日,GLM-130B 已完成 4000 亿个文本标识符(中文和英文各 2000 亿)的训练,它有以下独特优势:

双语:同时支持中文和英文。

高精度(英文): 在 LAMBADA 上优于 GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%),在 MMLU 上略优于 GPT-3 175B(+0.9%)。

高精度(中文):在 7 个零样本 CLUE 数据集(+24.26%)和 5 个零样本 FewCLUE 数据集(+12.75%)上明显优于 ERNIE TITAN 3.0 260B。

快速推理:支持用一台 A100 服务器使用 SAT 和 FasterTransformer 进行快速推理(提速最高可达 2.5 倍)。

低资源推理:INT4 量化方案下,支持在几乎不损失模型性能的情况下用 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)服务器进行高效推理

可复现性:所有结果(超过 30 个任务)均可通过开源代码和模型参数轻松复现。

跨平台:支持在 NVIDIA、海光 DCU、昇腾 910 和申威处理器上进行训练。

分享主题:GLM-130B:开源的双语千亿预训练模型

分享嘉宾:曾奥涵,清华大学知识工程实验室一年级博士生,指导老师为唐杰教授、研究方向为自然语言处理与大规模预训练模型。

分享摘要:GLM-130B 是一个开源开放的双语千亿稠密模型。本次分享将从架构选择、工程实现、训练策略三个方面介绍 GLM-130B 在训练过程中遇到的种种困难以及对应的解决方案。之后会介绍 GLM-130B 在中英文多个下游任务上的零样本/少样本表现。最后将介绍 GLM-130B 的后训练 INT4 量化方案。

相关链接:

博客:https://keg.cs.tsinghua.edu.cn/glm-130b/

代码、模型下载:https://github.com/THUDM/GLM-130B

加群看直播

直播间:关注机器之心机动组视频号,北京时间 9 月 5 日 19:00 开播。

交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「GLM-130B」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_167643.html
上一篇证监会:批复“星环科技”上市
下一篇EMR 实战心得浅谈

为您推荐

苹果服务器再度故障,导致iCloud邮件出现问题

苹果服务器再度故障,导致iCloud邮件出现问题

DoNews4月6日消息,继天气服务出现性能问题,导致加载缓慢或者无数据问题之后,苹果服务器今日再次出现故障,导致iCloud和iMessage出现相同的加载缓慢和服务中断问题。据IT之家报道,根据苹果的系统状态页面显示,iMessage服务于今天早 9点30分开始出现性能问题,导致加载缓慢或者无法使用。不过页面显示该服务于9点 48分已
魔兽世界:WLK很多人都在纠结种族跟服务器,其实PVE玩家没必要

魔兽世界:WLK很多人都在纠结种族跟服务器,其实PVE玩家没必要

最近不少小伙伴应该都在纠结魔兽世界的职业,种族跟新区什么的,WLK版本即将开放,对于选择困难症的玩家来说,这些确实都是一些难以解决的问题。先来跟大家说一下种族问题,其实这个没有什么好纠结的,觉得哪个好看就玩哪个,没有必要那么纠结,仔细想一下,就算种族天赋强一点,他真的就是无敌吗?首先对于一般玩家来说,
挑战英伟达?微软拟推AI芯片雅典娜:训练大语言模型,成本省三分之一

挑战英伟达?微软拟推AI芯片雅典娜:训练大语言模型,成本省三分之一

为突围芯片短缺困境,微软拟推出自研人工智能芯片。当地时间4月18日,据美国科技媒体The Information报道,微软(Microsoft)准备推出人工智能芯片,为负责理解和生成类人语言的大型语言模型(LLM)提供动力。两位直接了解相关项目的人士透露,微软自2019年开始开发内部代号为“雅典娜”(Athena)的芯片。据悉,微软已向一
命途多舛的《黑暗之魂3》PC服务器又重新上线了

命途多舛的《黑暗之魂3》PC服务器又重新上线了

之前《暗黑之魂3》PC版在线服务器在沉寂8个月后又上线了,然而9月22日服务器又再次被关闭,万代南梦宫确认服务器又出问题,并在调查。过了几天,万代南梦宫没有发布关于服务器修复的消息,但有人发现《黑暗之魂3》PC服务器又突然恢复了。之前《黑暗之魂》官方推特指出,在众多玩家报告无法访问游戏在线功能后,《黑暗之魂3
返回顶部