- 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测
- 来源:机器之心
经历「大炼模型」后,人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注。今日,阿里达摩院发布了 270 亿参数、1TB + 训练数据的全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。
PLUG 是目前中文社区最大规模的纯文本预训练语言模型;
PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.614 的得分刷新了 Chinese GLUE 分类榜单的新记录排名第一;在语言生成(NLG)任务上,在多项业务数据上较 SOTA 平均提升 8% 以上;
PLUG 可为目标任务做针对性优化,通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,可应用于实际生成任务上;
PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性、领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。
首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当;
在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。
亚马逊云科技线上黑客松2021
识别二维码,立即报名参赛。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
科技
-
-
- 高德地图携手华为智能座舱,亮相上海车展!
- 4月18日,在上海举行的华为HI新品发布会上,华为发布了智能座舱系列产品,并展示了搭载高德地图等合作伙伴的HarmonyOS车机操作系统软硬件生态。华为智能座舱的车载导航部分与高德地图深度合作,搭载全新星云AI引...
- 高德地图
-
-
-
- 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测
- 机器之心报道机器之心编辑部经历「大炼模型」后,人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注。今日,阿里达摩院发...
- 机器之心
-
-
-
- [观察]英特尔至强平台化全面创新,做数字经济发展“芯动力”
- 申耀的科技观察读懂科技,赢取未来!众所周知,企业数字化转型和创新是当下的热点话题,尤其是2020年以来,疫情席卷全球,中国的数字经济迎来前所未有的机遇,数字娱乐、在线教育、远程办公、移动电商、智慧城市...
- 申耀的科技观察
-
-
-
- “一芯难求”,芯片荒何时能缓解?
- 最近一段时间经常听到关于芯片短缺的消息。整个电子产业正在经历一场严重的 芯片危机。芯片可以说是整个电子产业的“灵魂”。从汽车电子、消费电子到通讯基站、智能家电,芯片的应用已经覆盖了人类生活的方方面...
- 范数码
-
-
-
- PDF 开发者 Charles Geschke 去世,39 年前联合创立软件巨头
- 整理 | 苏宓出品 | CSDN(ID:CSDNnews)4 月 16 日,Adobe 官方发布讣告:很遗憾告知大家,Adobe 公司的联合创始 Charles Geschke 博士于家中去世,享年 81 岁。Charles Geschke
- CSDN
-
-
-
- 流金岁月主营业务稳增:连续7年营收增速超10%搏击万亿5G超高清视频市场
- 文 | 挖贝网 高慧4月19日晚,新三板精选层公司流金岁月(834021)交出一份漂亮财报。2020年营收增长14.72%至8亿元,归母净利润增长23.42%至6315万元。这是公司连续第7年营收增速在10%以上。业绩稳步提升,主要得...
- 挖贝网
-
-
-
- 立志做中国市场TOP2,新华三云屏底气何来?
- 初出茅庐便立志要做中国市场的TOP2,新华三云屏MagicHub的底气究竟从何而来?备受关注的新华三智能终端在新华三集团旗下的众多产品线中,智能终端可以说是2021 NAVIGATE领航者峰会上最引人关注的一个。因为新华...
- 趣味科技v
-
-
-
- 5G商业成功,从打造核心网最佳实践做起
- 没有5G核心网的5G网络是没有灵魂的。有了5G核心网,5G才能完整落地大带宽、低时延和多连接三大场景;有了5G核心网,5G才能真正跨越toC边界,走进千行万业。有人说,5G核心网才是隐藏在5G网络中的真英雄。但是,...
- 网优雇佣军
-
-
-
- 华为携手郎朗 开启VR音乐新未来
- 得益于人们对超大带宽利用、超低时延利用以及海量连接应用的需求,5G在正式商用的第一年便得到迅速推广,以VR、AR为代表的千行百业也迎来了全新的基础技术平台。作为一项早已从技术成熟曲线中“毕业”了的技术,...
- 春卷
-
-
-
- [报告]2021佛吉亚企业研究(附24页PDF文件下载)
- 创立于1997年的佛吉亚集团已发展成为全球领先的汽车零部件科技公司,在其四大产品业务领域:汽车座椅系统、汽车内饰系统、歌乐汽车电子和绿动智行系统均处于全球领先地位, 围绕智享未来座舱和创赢绿动未来这两大...
- 汽车之地
-
-
-
- 2021世界电信日大会将成河南特色数字化能力展示平台
- 4月16日,2021年世界电信和信息社会日大会新闻发布会在京召开。河南省通信管理局党组成员、一级巡视员孙力进行了精彩致辞。作为我国信息通信领域的顶级盛会,世界电信和信息社会日大会第一次在京外举办就放到了...
- 通信世界
-
-
-
- Azure Stack HCI 实战六大绝招
- (本文阅读时间:5分钟)上一期我们为大家介绍了微软全新的超融合操作系统 Azure Stack HCI,错过的小伙伴可以通过视频快速回顾一下:为了帮助企业应对日益复杂的混合基础架构,IT 部门需要管理并维护横跨本地、...
- 微软科技
-
-
-
- 太空机器人可能长啥样?一起来看看这个“精神小伙”
- 你心目中的太空机器人,是这样?↓还是这样?↓太科幻了吧!实际上,我们今天要看的机器人,长这样↓它的学名是双足大仿人机器人。这是一种在形态、行为和思维层面类似于人的机器人,目标是完成人能完成的多种任...
- 新华视点
-
-
-
- 中国激光产业研究:6大应用市场发展情况
- 在上期《中国激光产业研究:产业政策篇》中,我们对中国激光产业的发展环境进行了综合分析,政策环境的持续向好,中国激光产业已经来到了技术不断向尖端突破、市场快速走向壮大的阶段。本篇我们将从应用的角度深...
- OFweek激光
-
-
-
- Wi-Fi列表总有TP-LINK?这个神秘品牌到底啥来路
- 家用路由器领域,思科和华为都不是它的对手。全文2752字,阅读约需8分钟文 | X科技实验室当你打开手机的Wi-Fi搜索页面,是不是经常会看到“TP-LINK”几个字?你是否和我一样好奇过,这几个英文字母是什么?肯定...
- 亿欧网
-