当前位置:首页 > 新闻动态 > 大模型训练 >

2022
05/18
大模型精准反哺小模型,知识蒸馏助力提高AI算法性能
知识蒸馏的诞生背景近年来,深度神经网络(DNN)在工业界和学术界都取得了巨大成功,尤其是在计算机视觉任务方面。深度学习的成功很大程度 大模型训练
大模型精准反哺小模型,知识蒸馏助力提高AI算法性能
2022
05/17
在个人电脑用单块 GPU 带动180亿参数 GPT!热门开源项目再添新特性
提到训练AI大模型,总能让人想起动辄几百上千块GPU、天价训练费用、只有几家大厂才玩得起,普通AI玩家看着铺天盖地的大模型新闻只能默默流 大模型训练
在个人电脑用单块 GPU 带动180亿参数 GPT!热门开源项目再添新特性
2022
05/09
国产人工智能操作系统 降低大模型训练架构编程门槛
除了芯片等硬件,人工智能操作系统也是人工智能领域需要自主可控的核心关键技术。日前,由科技部主办、科技部火炬高技术产业开发中心承办的 大模型训练
国产人工智能操作系统 降低大模型训练架构编程门槛
2022
05/07
突破百万亿参数规模:华人团队开源首个异构并行推荐系统训练框架
机器之心专栏机器之心编辑部Persia打破了前几代的推荐训练框架(同构的)设计思路,首次采用异构的设计思路,更合理地配置了CPU和GPU,实现 大模型训练
突破百万亿参数规模:华人团队开源首个异构并行推荐系统训练框架
2022
05/07
AI大时代下的创新,追一科技发布RoFormerV2模型
松果财经获悉,最近,追一科技发布了RoFormerV2模型,凭借追一独创的旋转位置编码技术(RoPE),全面超越了BERT、RoBERTa、Albert、Electra 大模型训练
AI大时代下的创新,追一科技发布RoFormerV2模型
2022
05/04
千亿参数大模型首次被撬开!Meta 复刻 GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布
千亿级参数 AI 大模型,竟然真的能获取代码了?!一觉醒来,AI 圈发生了一件轰动的事情:Meta AI 开放了一个重达1750 亿参数的大语言 大模型训练
千亿参数大模型首次被撬开!Meta 复刻 GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布
2022
04/29
“混元”AI大模型刷新CLUE分类榜历史记录
4月29日,腾讯混元AI大模型在CLUE(中文语言理解评测集合)分类榜中取得第一名,分数突破 80 888分,接近人类语言理解能力,刷新该榜单历 大模型训练
“混元”AI大模型刷新CLUE分类榜历史记录
2022
04/28
字节跳动开源 CowClip:推荐模型单卡训练最高加速72倍
在 NLP 和 CV 任务上,为了加速神经网络的训练,借助 32K 的批量大小(batch size)和 8 块 GPU,只需 14 分钟就完成 ImageNe 大模型训练
字节跳动开源 CowClip:推荐模型单卡训练最高加速72倍
2022
04/27
EasyNLP开源|中文NLP+大模型落地,EasyNLP is all you need
一 导读随着BERT、Megatron、GPT-3等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级 大模型训练
EasyNLP开源|中文NLP+大模型落地,EasyNLP is all you need
2022
04/22
大模型 GPT-4 预测长这样:比 GPT-3 略大、纯文本、更注重最优计算与对齐
不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 ——PaLM,具备标记因果关系、上下文理解、推理、 大模型训练
大模型 GPT-4 预测长这样:比 GPT-3 略大、纯文本、更注重最优计算与对齐
2022
04/21
智源研究院提出知识问答新方法,解决AI知识问答两大痛点
知识是支撑下一代人工智能(AI)的基石,AI知识问答能力是衡量机器表示和推理的标准之一。近日,智源研究院大模型研究中心提出知识问答新方 大模型训练
智源研究院提出知识问答新方法,解决AI知识问答两大痛点
2022
04/21
勇攀技术新高地 文心大模型驱动AI规模化落地应用
大规模预训练模型,人工智能技术新高地。在这一AI前沿领域,由百度公司打造的文心大模型家族,成为千行百业AI开发的基座大模型,降低了AI产 大模型训练
勇攀技术新高地 文心大模型驱动AI规模化落地应用
2022
04/18
参数跑分真那么重要?大模型评价标准该变变了
梦晨 发自 凹非寺量子位 | 公众号 QbitAI预训练大模型,自诞生以来不断刷新AI能力,成为业界竞争的焦点。参数规模突破千亿直奔万亿, 大模型训练
参数跑分真那么重要?大模型评价标准该变变了
2022
04/15
最硬核的AI活动来了,百度“技术天团”首次集体亮相开讲AI大模型
随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破。自2020年至今,越来越多的科技巨 大模型训练
最硬核的AI活动来了,百度“技术天团”首次集体亮相开讲AI大模型
2022
04/14
对话阿里巴巴副总裁贾扬清:追求大模型,并不是一件坏事
在六十年的发展史中,AI历经沉浮与枯荣。面对早期机器学习在80%的时间里解决80%的问题,但不知道哪个80%的时间解决了哪些80%的问题的挑战, 大模型训练
对话阿里巴巴副总裁贾扬清:追求大模型,并不是一件坏事
2022
04/14
总结机器学习3个时代的算力规律:大模型的出现改变了什么?
作者 |刘媛媛来源丨数据实战派图 1:1950 年至 2022 年间 118 个里程碑机器学习系统的趋势。我们区分了三个时代。注意大约 2010 大模型训练
总结机器学习3个时代的算力规律:大模型的出现改变了什么?
2022
04/10
7 Papers & Radios | 谷歌用Pathways训练5400亿参数大模型;费米实验室研究登《科学》封面
机器之心 & ArXiv Weekly Radiostation参与:杜伟、楚航、罗若天本周论文包括费米实验室发现,一种被称为 W 玻色子的基本粒子似乎比 大模型训练
7 Papers & Radios | 谷歌用Pathways训练5400亿参数大模型;费米实验室研究登《科学》封面
2022
04/08
DeepMind最新研究:如何将「大语言模型」 训练到最优?
作者丨维克多Transformer的提出距离我们已经有5年的时间,随着模型规模的不断增长,性能提升也逐渐出现边际效益递减的情况。如何训练出最优 大模型训练
DeepMind最新研究:如何将「大语言模型」 训练到最优?
2022
04/06
霸榜GitHub热门第一多日后,Colossal-AI正式版发布
大规模并行AI训练系统Colossal-AI,旨在作为深度学习框架的内核,帮助用户便捷实现最大化提升AI部署效率,同时最小化部署成本。开源地址:h 大模型训练
霸榜GitHub热门第一多日后,Colossal-AI正式版发布
2022
04/06
清华刘知远:大模型「十问」,寻找新范式下的研究方向
作者丨刘知远整理丨李梦佳大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现 大模型训练
清华刘知远:大模型「十问」,寻找新范式下的研究方向
2022
04/06
6144块TPU,5400亿参数,会改bug、解读笑话,谷歌刚刚用Pathways训练了一个大模型
机器之心报道机器之心编辑部谷歌的下一代架构 Pathways 已经用来训练大模型了。随着规模的增加,模型在处理多个任务时的性能逐渐提高,而 大模型训练
6144块TPU,5400亿参数,会改bug、解读笑话,谷歌刚刚用Pathways训练了一个大模型
2022
04/03
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
给定固定的 FLOPs 预算,应该如何权衡模型大小和训练 token 的数量?DeepMind 得出了与先前不同的结论。最近一系列大型语言模型 (LLM 大模型训练
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
2022
04/01
大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出
导读:随着以深度学习为代表的AI技术的快速发展,智能模型的训练应用模式逐渐由大炼模型向炼大模型转变。过去,人们根据不同的任务,利用特 大模型训练
大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出
2022
04/01
大模型「进厂」有多难?这个源自中国的AI框架整整用了2年
【新智元导读】AI热了这么多年,但框架还是「二人转」,国产框架真的一个能打的都没有吗?2020年末,DeepMind开发的第二代深度学习神经网络 大模型训练
大模型「进厂」有多难?这个源自中国的AI框架整整用了2年
2022
03/30
中国信通院召开第一次大模型测评及赛事研讨会,启动首批测评
2022年3月29日,中国信息通信研究院(以下简称中国信通院)召集的第一次大规模预训练模型标准测评研讨暨专家组成立会议召开,来自企业、科 大模型训练
中国信通院召开第一次大模型测评及赛事研讨会,启动首批测评