返回首页  设为首页  加入收藏  今天是:
网站首页科技手机智能科学时尚教育亲子艺术房产
相关文章
 中英文最大AI模型世界纪录产…
 研学路上丨“大挑”科普课堂…
 侯猛:“科学”在司法中的运…
 储著武:新中国“哲学社会科…
 中国青年歌手孙香简介
 梦鸽个人资料简历档案_歌手_…
 《声生不息》炎明熹引关注详…
 2018湖南特岗教师教育学简答…
 学习教育当好家长了解近现代…
 2016国家教师资格证考试每日…
 漂亮妈妈电影
 看完这10部高分片我决定对妈…
 以母亲和母爱为题材电影有哪…
 二手房价格依然很平稳 降幅超…
 多城楼市调查:炒房客梦碎二…
 石家庄二手房今年首次降价 短…
 “海风拾遗”实践团参观农民…
 学悟见创 团市委青年理论学习…
 南平一中300余名学生到万匠大…
 用做相机的思路来做手机影像…
 中关村手机对比
 中关村在线手机频道(中关村…
 艾特智能锁加盟费多少
 加盟智能家居行业需要多少钱…
 开个智能家居体验馆多少钱 -…
 中国十大顶级高新技术
 我国领先世界的十大科学技术
 2020中国十大科技进展出炉!…
 重实践 年味足 宜昌中小学寒…
 把爱带回家丨宁夏开展2024年…
 5大科学的冷知识: 我们看到…
 倪妮以其独特的个人风格和非…
 中国美业领军人物——造型师…
 时尚模特Lauren Rhoden
 全球英才教育的政策导向与实…
 2024-2029年中国民办教育行业…
 《开讲啦》教育学家朱永新:…
 夏日亲子观影指南10部成长电…
 电影市场繁荣发展(坚持“两…
 《欢乐家长群》定档2月1日温…
 邹城国有土地使用权挂牌出让…
 邹城一中附近成交一块住宅用…
 关于对2020年度第一批次符合…
 2024年新艺考:各地艺考改革…
 2024年普通高校招生艺术类专…
 山西:2024年起高考艺术类专…
 雷科技年度榜单·2022丨十佳…
 2022全球手机十佳
 ZAEKE知客2022年度榜单之十佳…
 领跑AI+IoT时代!米家6大智能…
专题栏目
网络
您现在的位置: tac新闻网 >> 科技 >> 正文
高级搜索
中英文最大AI模型世界纪录产生 大模型竞赛新阶段来了
作者:佚名 文章来源:本站原创 点击数: 更新时间:2024/2/7 12:25:48 | 【字体:

  hp重生之一错再错技术发展如此之快,“威震天-图灵”和“源1.0”还是没有达到指数规律的预期。

  要知道,从2018年开始,NLP模型参数近乎以每年一个数量级的速度在增长。

  而GPT-3出现后,虽然有Switch Transformer等万亿参数混合模型出现,但单体模型增长速度已经明显放缓。

  无论是国外的“威震天-图灵”,还是国内的“源1.0”,其规模和GPT-3没有数量级上的差异。即便“威震天-图灵”和“源1.0”都用上了各自最强大的硬件集群。

  如果从模型的开发者来看,超大规模NLP模型的研发随时间发展逐渐形成了三种模式。

  无论是开发ELMo的Allen研究所、还是开发GPT-2的OpenAI(当时还未引入微软投资)都不是以盈利为目标。

  ELMo有超过40个非官方实现,GPT-2也被国内开发者引入,用于中文处理。

  从2019年下半年开始,各家分别开发出大规模并行训练、模型扩展技术,以期开发出更大的NLP模型。英伟达Megatron-LM、谷歌T5、微软Turing-NLG相继出现。

  今年国内科技公司也开始了类似研究,中文AI模型“源1.0”便是国内硬件公司的一次突破——

  “源1.0”不仅有高达5TB的全球最大中文高质量数据集,在总计算量和训练效率优化上都是空前的。

  拥有技术的OpenAI由于难以承受高昂成本,引入了微软10亿美元投资。依靠海量的硬件与数据集资源,1750亿参数的GPT-3于去年问世。

  但是,今年万亿参数模型的GPT-4并没有如期出现,反而是微软与英伟达联手,推出了“威震天-图灵”。

  “威震天-图灵”发布之前,国内外涌现了了不少超大AI单体模型,国内就有阿里达摩院PLUG、“源1.0”等。

  像英伟达、微软、谷歌、华为、浪潮等公司加入,一方面是为AI研究提供大量的算力支持,另一方面是因为他们在大规模并行计算上具有丰富的经验。

  2、如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际。

  英伟达与微软合体正是为此,同样面对该问题,浪潮在“源1.0”中也用了前沿的技术路径解决训练效率问题。

  在对源的大规模分布式训练中,浪潮采用了张量并行、流水线并行和数据并行的三维并行策略。

  “威震天-图灵”和“源1.0”一样,在张量并行策略中,模型的层在节点内的设备之间进行划分。

  流水线并行将模型的层序列在多个节点之间进行分割,以解决存储空间不足的问题。

  三家公司运用各自的技术,将最先进的GPU与尖端的分布式学习软件堆栈进行融合,实现了前所未有的训练效率,最终分别打造出英文领域和中文领域的最大AI单体模型。

  训练超大规模自然语言模型成本升高,技术上殊途同归,形成研究机构与科技巨头协同发展,三种探索模式并驾齐驱的局面。

  去年发布的GPT-3不仅未开源,甚至连API都是限量提供,由于获得微软的投资,今后GPT-3将由微软独享知识产权,其他企业或个人想使用完整功能只能望洋兴叹。

  训练成本奇高、道德伦理问题以及为了保证行业领先地位,让微软不敢下放技术。其他科技公司也不可能将自己的命运交给微软,只能选择独自开发。

  尤其对于中国用户来说,以上一批超大模型都不是用中文数据集训练,无法使用在中文语境中。

  而中文需要对句子首先进行分词处理,如“南京市长江大桥”, 南京市长江大桥、南京市长江大桥,错误的分词会让AI产生歧义。

  相比于英文有空格作为分隔符,中文分词缺乏统一标准,同样一个词汇在不同语境、不同句子中的含义可能会相差甚远,加上各种网络新词汇参差不齐、中英文混合词汇等情况,要打造出一款出色的中文语言模型需要付出更多努力。

  据浪潮论文透露,“源1.0”硬件上使用了2128块GPU,浪潮共搜集了850TB数据,最终清洗得到5TB高质量中文数据集。

  其文字数据体积多于“威震天-图灵”(835GB),而且中文信息熵大大高于英文,信息量其实更大。

  在训练效率方面,“源1.0”训练用了16天,“图灵威-震天”用了一个多月,前者数据量是后者3倍有余,耗时却只有后者一半——

  大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI巨量模型既然不“闭门造车”,那如何走向合作?

  表面上“威震天-图灵”(Megatron-Turing NLG)是第一次由两家科技巨头合作推出超大AI模型。

  其背后,双方不仅组成了“超豪华”硬件阵容,在算法上也有融合。强强联合成为超大AI模型落地的一种新方式,

  国外巨头开启先例,那么国内公司的现状又是如何呢?其实有机构已经迈出合作的第一步。

  诸如浪潮的“源1.0”,和当初的“威震天”一样,也是由硬件厂商主导开发的超大规模自然语言模型。

  浪潮透露,实际上9月28日的发布会上,他们邀请了国内的学者和数家科技公司共同探讨未来“源1.0”合作的可能性。

  在产业界,浪潮早就提出了“元脑计划”的生态联盟,“源1.0”未来将向元脑生态社区内所有开发者开放API,所有加入生态的AI技术公司都可以利用“源1.0”进行二次开发,从而制造出更强大的功能。

  合作开发巨量模型能带来什么?李飞飞等知名学者已经给出答案:当数据规模和参数规模大到一定程度时,量变最终能产生质变,GPT-3就是先例。

  如今大模型越来越多,但未来关键还在于如何纵横捭阖,打造属于一套开放合作体系,让所有技术公司群策群力。

  而AI巨量模型在这样的生态体系下会带来怎样的变化,在“源1.0”等一大批模型开放后,应该很快就能看见。

科技录入:admin    责任编辑:admin 
  • 上一个科技:

  • 下一个科技: 没有了
  •  
     栏目文章
    普通科技 中英文最大AI模型世界纪录产生 大模型竞赛新阶… (02-07)
    普通科技 中国十大顶级高新技术 (02-06)
    普通科技 我国领先世界的十大科学技术 (02-06)
    普通科技 2020中国十大科技进展出炉!北斗嫦五量子计算… (02-06)
    普通科技 “科学大脑”背后的信息枢纽 (02-05)
    普通科技 神舟十七号载人飞船成功发射前沿科技助力飞船… (02-05)
    普通科技 中国科学院不再简称中科院!党和政府等机构准… (02-05)
    普通科技 中国十大功勋科学家 (02-04)
    普通科技 ChatGPT评价了对中国科技做出卓出贡献的十大人… (02-04)
    普通科技 中国当代最伟大的10位技术专家排行榜 (02-04)
    普通科技 年终盘点:2021中国科技的数字刻度 (02-03)
    普通科技 2021最新央企名录及其行政级别划分(值得收藏… (02-03)
    普通科技 对话中国科学技术信息研究所所长赵志耘:国内… (02-03)
    普通科技 我国领先于世界的30项黑科技! (02-02)
    普通科技 【正能量】这些中国“黑科技”集体亮相未来将… (02-02)
    普通科技 “中国黑科技百强名单”出炉 自有专利达95% (02-02)
    普通科技 【重磅】2021年SCI影响因子出炉(附完整版Exc… (02-01)
    普通科技 2022年版中国肿瘤学科技期刊核心影响因子排行… (02-01)
    普通科技 这十年我国科技“软实力”提升几何 (02-01)
    普通科技 《科学传播与科学教育》学术期刊创刊 (01-31)