当前位置:网站首页 > 编程语言 > 正文

预训练模型怎么使用(如何使用预训练模型)



640

大规模预训练模型是否是通向通用人工智能的可行方向?
2018年,大规模预训练技术极大提高了深度神经网络对大规模无标注数据的自监督学习能力,在GPU多机多卡算力和海量无标注文本数据的双重支持下,预训练模型打开了深度学习模型规模与性能齐飞的局面,成为人工智能和深度学习领域的又一革命性突破,引发了国际著名互联网企业和研究机构的激烈竞争,将模型规模和性能不断推向新的高度。
目前,大规模预训练模型已经在自然语言处理领域取得了巨大的成功。BERT、GPT-3等大规模预训练模型被看做是“暴力美学”的一次胜利,验证了“模型越大,性能越好”的逻辑,业界也普遍形成了一种炼大模型的竞赛趋势,国内也相继发布了ERNIE、盘古、悟道等大规模预训练模型,呈现百花齐放、百家争鸣的发展格局。
然而在这样的成功背后,是海量的数据需求与训练资源消耗。以GPT-3为例,GPT-3有1750亿个参数,预训练数据量高达45TB,在超大算力资源的加持下,GPT-3训练一次的费用是460万美元,训练时间为355个GPU年,这是一般的实验室难以承担的。
研究发现,虽然大规模预训练模型在自然语言生成等领域的能力已接近人类,但大规模预训练模型对语言的理解有限,只是一个“更大的黑盒子”,依然存在“缺乏常识”的缺陷。此外预训练模型的迁移能力仍待研究,另一方面,大规模预训练模型的落地场景一直是个很大的挑战,学术界与产业界对大规模预训练模型的关注点也有着很大的差异。
大规模预训练模型上述优势和不足,将 AI 研究者推到了一个十字路口:大规模预训练模型是否能成功从自然语言扩展到其他领域?又会带来哪些新的挑战?大规模预训练语言模型能否实现认知智能?业界的大模型竞赛现象反映了什么问题?业界进展是怎样的,产业应用所面临的主要难点是什么?
10月28-30日,计算机领域年度盛会CNCC 2021将在深圳召开。本届大会共开设了111个技术论坛,涉及32个研究方向。其中在大规模预训练模型领域,大会开设了 “产业共话:大规模预训练的商业应用及技术发展方向” 分论坛。
围绕着这个研究及产业的热点领域,深圳市人工智能与机器人研究院牵头,联合深圳市人工智能学会发起这次论坛。邀请北大、粤港澳大湾区数字经济研究院等领域著名学者及华为、腾讯、平安、百度等产业专家进行深度解析,探讨大型预训练模型当前现状及未来发展方向,提升大模型在产业的技术和应用。本论坛包括主旨演讲及Panel研讨环节,站在行业视角探讨大模型的技术背景、发展趋势,及在医疗、金融等多个领域的应用探讨。
该论坛由深圳市人工智能与机器人研究院首席科学家李世鹏担任主席(做主题报告),北京大学教授/深圳市人工智能学会秘书长邹月娴担任共同主席。
届时,华为云人工智能领域首席科学家田奇、百度杰出架构师、百度文心(ERNIE)语义理解技术与平台负责人孙宇,腾讯天衍实验室主任郑冶枫、平安科技前沿技术部负责人王磊、粤港澳大湾区数字经济研究院认知计算与自然语言讲席科学家张家兴等产学专家将发表主题报告,深入解读当前大规模预训练模型的产业发展趋势。
在论坛开始之前,AI科技评论采访了论坛主席、深圳市人工智能与机器人研究院首席科学家李世鹏,就大规模预训练的进展及本次论坛的准备情况进行了对话。
图片
李世鹏是国际欧亚科学院院士和国际电机电子工程师学会会士(IEEE Fellow)。他于1999年作为创始成员加入微软亚洲研究院,曾担任副院长、首席研究员及多媒体计算组主任研究员。2018年加入科大讯飞,曾任集团副总裁及研究院联合院长。李院士研究方向为多媒体、互联网、计算机视觉等。曾任《IEEE电路与系统视频技术学报》总编辑,在多媒体、物联网及人工智能等领域极具影响力,拥有200多项美国专利并发表了330多篇国际论文(H指数:82),培养出四位MIT TR35创新奖的获得者。

640


走向认知之路:大规模预训练的商业应用
Q:本届CNCC大会,除了您主持的“产业共话:大规模预训练的商业应用及技术发展方向”外,另外还有一个从学术角度讨论的“大规模预训练模型”论坛。学术界和产业界对大规模预训练模型的关注点有什么不一样?
A:大规模预训练模型自从GPT-3出来以后引起了包括学术界和工业界的很多反响。但大规模预训练是特别耗资源的一件事,现在国内能看到的大概只有ERNIE、盘古、悟道等几套,需要很大的财力和资源才能支持做这个事情,学术界基本做不了这事,基本上是跟着工业界合作,或者在别人的基础上做一些工作
那么工业界为什么做这个事情呢?工业界做这个事情还是要看大规模预训练会对他们的商业目的带来什么好处。有些人说过,大规模预训练模型可能也是通往通用人工智能之路,现在大概是有那点苗子,但还远远没到那个程度。所以我们这个论坛也是让大家再讨论一下,到底这些大规模预训练模型今天有什么应用?预训练带来的好处在哪?它的限制在哪里?怎么去突破?通过这个论坛让大家进行碰撞,找到未来关注的一些点。
Q:目前深圳市人工智能与机器人研究院在大规模预训练模型的研究进展如何?
A:我们现在主要是在跟一些企业合作,这东西还是比较耗费资源。
我们论坛的嘉宾中有一位宋彦教授,他在我们研究院有一个自然语言处理大规模预训练模型的项目,我们会结合产业的一些需求进行研究,毕竟产业界更注重具体的落地应用。他们会有很多实际的需求,比如说信息挖掘、信息搜索或者是一些客服问答。在得到这些需求后,我们主要考虑如何通过这种大规模预训练模型,结合语言、知识、理解能力等,把这些商业应用的东西做得更好。
Q:论坛在嘉宾邀请和主题设计上主要会有哪些考虑?
A:本次议程设计主要还是集中在业界关注的话题,以及大模型未来发展趋势的一些思考。我们想说的是现在的大模型其实是已经有一些基本的知识基础,那么接下来还有什么,如何引导其学习和归纳,“学而知之”,建立认知能力等等,如何去设想,如何去突破,我们的选择主题里面会考虑这方面的一些内容。
像邹月娴老师会说大模型在视觉推理里面的一个突破,百度的孙宇也会介绍基于认知的一个问答系统,华为的田奇老师也是带来了基于大模型的通用智能的一些探索。还有我们的粤港澳大湾区数字经济研究院的张家新老师,他的演讲主题也是从大模型走向认知科学。
所以说我们也在想现在的这个大模型之后的下一步,看看能不能引起一些这样的思考。比如现在的大模型不是所有人都能用得起的,下一步能否化繁为简赋能多数人?基于规则的模型通常意义上比基于数据的模型更简洁和稳定。我相信下一步不管是科研学术界以及业界可能都想对这个问题去了解及探讨。
我们这个论坛之所以叫做“产业共话”,就是希望探讨大家在实践中遇到的实际问题,而不是一味夸大大模型,我们想了解企业遇到过的瓶颈或者困难,这才是真正的有用的、有价值的东西,可以对我们后续的研究者有着启示。也能对大家共同去攻克这样的一些难题起到一个积极的作用。
Q:您提到大规模预训练模型可能是通向通用人工智能的道路,在您看来,人的认知过程对大规模训练模型研究有什么启发?
A:我们的思路是跟人的认知过程做一个对比。那人的认知过程是什么样子?我们现在机器又是什么样子?比如说我觉得大规模预训练模型对应的人的认知过程,可能就是一堆知识堆放在脑子里,死记硬背也许也会有点用。但是人真正的认知能力是可以举一反三,是有推理能力,是可以从未经历的事件中,推演出可能的结果。现在大规模预训练模型也许也可以举一反三,但是还是要需要人通过示例来引导才知道要做什么事。
人有些东西是生而知之的,生下来就有一些先验知识,那怎么通过这些知识进行推理?这就需要学而知之。人在学习的过程中不但学的是知识,而且还学习规则以及推理的能力。现在大规模预训练模型有一些往这个方向走的趋势,但还没有一个明确的路径。
所以我们现在也Push大家往这块去想,你有这样一个大规模预训练的模型,怎么更好去利用起来,或者有一些什么样的方法能让我们更好的去把它利用起来。就像我脑袋里灌了一堆知识,但是我不知道怎么去用它。如果能把人的认知过程,也就是人的学习的过程放进来,也许就会有一些新的发现。
比如说基于规则,我们在用大规模预训练模型的时候,它是需要你先给很多Example,从观察你的Example里面猜出来,你大概要想做这个事情。那么我们可以不可以把这个事情变得更显式,直接告诉它我的规则是什么?我们现在说Big Data,如果能从数据中找到规律,或者如果规则也像数据那么丰富且容易得到的话,我们就可以从Big Data到Big Rule,这可能就是向通用人工智能又接近了一步。

“大规模预训练模型的商业应用及技术发展方向”论坛日程安排
CNCC2021“产业共话:大规模预训练的商业应用及技术发展方向”技术论坛将于2021年10月28日16:00-19:00在深圳国际会展中心召开。齐聚华为、腾讯、百度、平安等行业龙头的大模型设计领军人物,联合科研机构专家共同探讨大型预训练模型产业化应用及新的发展方向。聚焦医疗和金融热门领域,把脉大模型技术发展方向。
本次论坛由深圳市人工智能于机器人研究院首席科学家李世鹏担任论坛主席。李世鹏是国际欧亚科学院院士和国际电机电子工程师学会会士(IEEE Fellow)。他于1999年作为创始成员加入微软亚洲研究院,曾担任副院长、首席研究员及多媒体计算组主任研究员。2018年加入科大讯飞,曾任集团副总裁及研究院联合院长。李院士研究方向为多媒体、互联网、计算机视觉等。曾任《IEEE电路与系统视频技术学报》总编辑,在多媒体、物联网及人工智能等领域极具影响力,拥有200+项美国专利并发表了330多篇国际论文(H指数:82),培养出四位MIT TR35创新奖的获得者。本次论坛李世鹏将发表《连接认知科学与认知智能:新人工智能发展之路?》的主题演讲。
北京大学教授、深圳市人工智能学会秘书长邹月娴担任论坛联合主席。邹月娴是北京大学深圳研究生院党委副书记,教授、博士生导师,ADSP实验室主任,CCF语音对话与听觉专委会委员。长期从事机器学习与模式识别、信号与信息处理领域科研与教学工作,先后主持国家级、地方级科研项目30多项,形成了一系列创新成果;曾获中国电子工业部科技进步三等奖,深圳市科学技术奖科技进步一等奖;在领域著名期刊(TIP、TSP等)和国际旗舰学术会议(NIPS、ACL、 AAAI 、CVPR等)上发表学术论文226篇,参与撰写中英文专著2本,授权发明专利10项。目前致力于跨媒体分析与理解、人机对话、深度学习理论方法与应用研究
(https://web.pkusz.edu.cn/adsp/)。

16:00-16:10

连接认知科学与认知智能:新人工智能发展之路?

李世鹏

深圳市人工智能与机器人研究院 首席科学家

16:10-16:30

预训练模型在视觉理解上的应用与发展

邹月娴

北京大学教授/深圳市人工智能学会秘书长

16:30-16:55

通用AI的探索和实践

田奇

华为云人工智能领域首席科学家

16:55-17:20

百度文心ERNIE预训练技术与平台

孙宇

百度杰出架构师、百度文心(ERNIE)语义理解技术与平台负责人

17:20-17:45

预训练模型在医学影像分析上的应用

郑冶枫

腾讯天衍实验室主任

17:45-18:10

大规模预训练模型在金融领域应用中面临的主要问题与应对技术探索

王磊

平安科技前沿技术部负责人

18:10-18:35

大模型时代的认知机器学习

张家兴

粤港澳大湾区数字经济研究院,认知计算与自然语言讲席科学家

18:35-19:05

圆桌论坛:

医疗大模型的应用及前景圆桌讨论

郑冶枫

陈杰

何径舟

宋彦

陈小军

张彤

腾讯

北京大学教授

百度NLP技术总监

香港中文大学(深圳)副教授

深圳大学 副教授

鹏城实验室 助理研究员

田奇

华为

图片

主题报告3:通用AI的探索和实践

随着数据的不断积累和算力算法的不断发展,人工智能模型正在变的更大更通用。为了实现普惠AI,华为云在2021年HDC大会发布了盘古预训练大模型,建立了一套通用、易用的人工智能工业化开发模式。在该报告中,将从数据高效、模型高效、知识高效三个方面深入介绍华为云盘古大模型,尤其是华为云视觉大模型背后的预训练技术。

张家兴

粤港澳大湾区数字经济研究院

图片

主题报告7:大模型时代的认知机器学习

让机器像人一样去学习,是机器学习领域一直在追求的目标。当下,大规模预训练模型展现出了在零样本和小样本学习、样本生成、先天支持后天等方面的强大潜力,而这些正是通往类人的认知机器学习道路上的重要基石。本次演讲,将和大家一起探讨大模型时代认知机器学习的实践之路。

圆桌论坛:医疗大模型的应用及前景圆桌讨论

嘉宾:

郑冶枫,腾讯天衍实验室

陈杰,北京大学

宋彦,香港中文大学(深圳)

何径舟,百度

陈小军,深圳大学

张彤,鹏城实验室

本文转载自AI科技评论

640

640

640

CNCC2021将于10月28-30日在深圳举行,今年大会主题是“计算赋能加速数字化转型”。CNCC是计算领域学术界、产业界、教育界的年度盛会,宏观探讨技术发展趋势,今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图灵奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家,豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。

今年的特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授,南加州大学计算机科学系和空间研究所Yolanda Gil教授,陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士,及众多深具业内影响力的专家。今年的技术论坛多达111个,无论从数量、质量还是覆盖,都开创了历史之最,将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。大会期间还将首次举办“会员之夜”大型主题狂欢活动,让参会者畅快交流。

CNCC2021将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。别缺席,等你来,欢迎参会报名!

图片

CNCC2021参会报名

到此这篇预训练模型怎么使用(如何使用预训练模型)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 配置ssh免密登录(配置ssh免密登录vm虚拟机)2025-02-21 17:00:05
  • tip 影响因子(tip影响因子2023)2025-02-21 17:00:05
  • 蓝牙的地址(蓝牙地址信息)2025-02-21 17:00:05
  • 程序员培训班一般多少钱(程序员培训班一般多少钱一年)2025-02-21 17:00:05
  • 动态库和静态库的优缺点(动态库与静态库的区别)2025-02-21 17:00:05
  • pass平台厂商(pass平台是做什么的)2025-02-21 17:00:05
  • 单片机程序的入口地址是,外部中断1的入口地址是(51单片机外部中断1的入口地址是什么?)2025-02-21 17:00:05
  • 怎样制作u启动启动盘win7(如何制作启动u盘安装win7)2025-02-21 17:00:05
  • 苹果15价格(苹果15价格还会降价吗)2025-02-21 17:00:05
  • ip11系列尺寸(iphong11尺寸)2025-02-21 17:00:05
  • 全屏图片