“百模”争舸:群雄逐鹿的野心和背后的冷思考 全球微速讯
在生成式AI的大浪潮下,各路AI大模型已然形成群雄逐鹿的局面。
(资料图)
今年以来,百度、阿里、华为、京东、360、网易等国内互联网厂商,争相公布了旗下的大模型布局。在众多厂商展开大模型“军备竞赛”,并纷纷落地应用之时,有哪些技术热点值得深入关注?国内大模型的未来发展趋势如何?
5月31日,依托中国人工智能产业发展联盟、人工智能关键技术和应用评测工信部重点实验室,由中国信通院联合人工智能工程化推进委员会大模型工作组、生成式人工智能工作组主办的“大模型技术应用”分论坛,于5月31日在杭州梦想小镇互联网村正式举办。
论坛中,多位产学界人士对目前国内大模型的现状进行了分析,聚焦大模型、生成式AI、对话式AI、知识计算、智能决策等多个热点技术,深入探讨相关技术、产品、生态等发展趋势。
高速发展下的新机遇
“百模”大战揭开帷幕,各领域AI大模型先后发布。大模型正从效率、质量、个性化等方面为内容生产带来改革,不断解放生产力。
其中,“涌现性”是生成式AI大模型的一大关键优势。“原本训练AI,可能需要人类‘手把手’去教学,机器才能学会某项技能。但在当下的发展阶段,在不与AI交互的前提下,这项技术也能够进行自主学习。AI技术所具备的‘涌现性’,也是它的一项突破性进展。”声智科技数智人产品副总裁黄赟贺在发言中指出。
据悉,目前AI大模型的架构主要分为两种,一种是Decoder-only(仅解码器),这一类架构的优势在于可以更容易完成文本生成任务,主流大模型如OpenAI开发的GPT系列、英伟达开发的Megatron-LM等均是采用此架构。另一种架构是Eecoder-Decoder(编码器-解码器),该架构可以更灵活地适应不同长度和不同类型的输入和输出序列,从而适应多种自然语言处理任务,谷歌研发的T5模型便属于此架构。
阿里达摩院机器智能技术创新业务中心负责人陈海青指出,许多大模型利用Decoder-only架构训练效率高的优势,使得底层数据量能够迅速扩展到庞大的规模。
以GPT为代表的大模型在近年来的快速演进和迭代,成为了该领域火热发展的缩影。在GPT1到GPT3的发展过程中,底层数据量从1亿飙升至万亿级别。“该模型每年平均有10倍的参数量变化,也成为了智能时代的‘摩尔定律’。”他说。
“大模型加速了通用人工智能时代的到来。而行业级大模型以及应用,其实是一个非常好的创业机会点。”百应科技技术负责人吴凯表示。他认为,一家科技型企业,技术和产品始终是企业的生命线,这就需要持续学习、不断加强人工智能的技术深挖。
因此,当一项新技术诞生并高速发展时,能否快速学习并深度应用,对于众多科技企业而言是一个“优胜劣汰”的过程。
拓尔思副总裁尹世杰指出,垂直场景落地正成为“百模大战”核心角力点。在垂直领域,模型基座、高质量数据、专业领域Know-How、真实场景闭环及用户反馈,是专业大模型成功的5大要素。
“百模”大战下的冷思考
“在我制定(今天的)演讲题目时,‘百模大战’的说法便已兴起。不难发现,在这过去的半年内,大模型领域的发展非常火热。但是我有一个问题要问一下在座的各位,这样的繁荣能够持续多久?”
在发言开头,拓尔思副总裁尹世杰便抛出了这样一个问题。
21世纪经济报道记者发现,在本次论坛中,与会嘉宾除了对国内大模型发展未来的作出展望,也分享了大模型在研发、升级过程中可能遇到的难点与迷思。
陈海青提到,虽然Decoder-only是多个主流大模型所采用的架构,但在进行训练的过程中,是对大量的未标注文本数据进行无监督预训练,因此较难找到高质量的数据,包括代码、人类的指令和反馈等等。
简言之,这类架构存在稳定性能的“先天不足”。因此,在ChatGPT正式发布之前,业内更偏向走Eecoder-Decoder路线。
此外,若定制大模型在专业领域中没有足够的切入度,也会失去实际应用的意义。尹世杰指出,若要做某个专业领域的大模型,就必须有专业领域的高手(参与研发)。以传媒、金融、安全领域的大模型为例,如果仅是套用泛化的、通用的功能,很有可能难以回答以上行业实际操作中遇到的专业问题。
除了训练因素,目前留给企业研发大模型的红利期和窗口期并不长,则是大模型发展面临的一大外部难点。黄赟贺便在发言中提到,目前B端客户(企业)最关心的点在于,在委托相关公司开发大模型后,需要多久才能够真正投入使用。“作为服务提供方,我们目前一般将大模型的交付周期控制在3个月,以求在短时间内进行交付,让企业快速体验和使用大模型。”
尹世杰也指出,无论是做toB或toC的大模型业务,能不能有实际的场景落地,以及落地以后能否给用户带来真实的价值,才是大模型发展过程中最关键的考验。
(文章来源:21世纪经济报道)
关键词: