公司新闻

田奇:智能终端驱动的工业智能化——赋予传统

作者: bat365在线平台官网   点击次数:    发布时间: 2025-11-10 10:11

田奇:智能终端驱动的工业智能化——赋予传统产业世界范式的新范式 国际欧亚科学院院士、华为终端BG首席科学家田奇发表主旨演讲。 11月8日上午,2025世界互联网大会乌镇峰会“人工智能引领科技与产业创新联动发展论坛”在浙江乌镇举行。论坛以“人工智能引领科技创新与产业创新共同发展”为主题,致力于探索推动人工智能与千行百业深度融合合作的方向和路径。本次论坛由浙江省人民政府主办,浙江省经济和信息化厅、浙江省信息化厅协办。互联网信息办公技术、西湖大学、浙江省数字联合会、浙江邮电职业技术学院。国际欧亚科学院院士、华为终端BG首席科学家田奇发表主旨演讲。 国际欧亚科学院院士、华为终端BG首席科学家 田奇 感谢您参加会议的邀请。我们很荣幸在这里与您分享我们的想法。 我自己从2020年开始在公司立一个项目,打造盘古模式,几年后,我从华为云转到终端。我们目前正在制作 Aitoc 的东西。 近两年,人工智能发展迅速。作为修炼者,我们也感受到了参与感,压力也很大。许多事物都是相互演化的。 如今,大规模人工智能模型正在重塑数千个行业,成为人工智能的标准e 在新时代。国内外各大厂商都开发了自己的大型机型和智能代理。矿山报告希望探讨两个主要问题。首先是做什么的问题。大模型是人工智能的最终形态吗?如果不是的话,未来是什么?第二个是我们在这里的终端应该做什么?未来形态如何推广大车型?当前最重要、最困难的问题是什么? 我们希望实现AGI通用人工智能甚至ASI超级人工智能,但什么是通用人工智能呢?传统的概念定义相当抽象,比如完成人类和动物可以完成的所有任务的计算机程序或系统,但这个概念非常抽象,很难实现。 另一个是正式的定义。例如,给定状态空间中的一组动作,定义一些奖励函数。人工智能实现AGI的目标就是找到一个使奖励函数最大化的策略函数。在这个定义下,我们看看近10年有哪些成功案例? 一共有三个,一个是AlPhago(下围棋),另一个是Alpha Star(游戏),还有将在2022年掀起新浪潮的Chatgpt,都是以正式的方式定义的。从他们的成功中我们可以看出,收购AGI有两个主要基础。一是营造良好的交付环境。这里我们讨论定义状态、动作、传递函数和奖励函数。 另外就是要有足够的Power Model和Base Model Training,所以建立良好的交付环境和强大的基础模型是AGI的两个基础。 在华为终端,我们目前正在与小蚁合作,希望按照这个正式的定义获得AGI。但目前实现AGI的条件还不具备。一是模型方面。语言模型的推理能力不足。它是多式联运的。为何采用多式联运?因为1+8终端的终端设备自然感知从文本到语音到图像到视频的所有模态信息。 目前对多模态和生成的理解仍然是独立的模型,范式并不统一。另外,在交付环境中不能考虑真实性和交付性。 因此,终端行业的人工智能也催生了一些新的设备,比如AI眼镜、爱品等可用设备。然而,这些设备具有实时在线功能。实时在线体现了对这些设备周围物理环境的了解,与Y模型的能力相匹配。 我们相信,下一代终端产业正在引领巨大的实体智能市场。具身智能是一个门槛高、缺口大、周期长的行业。但需要与大型AI模组结合els 创建烟花业务应用程序。 我认为具身智能适合华为,因为华为的终端战略是以代理为核心。去年我们还发布了勤奋白皮书,根据用户体验进行智能分类,比如智能驾驶。分为L1到L5。总的原则是,人工智能AI服务于人,与人合作,但主要决策仍然是人做出的。 然而,目前对于具身智能存在不同的看法。业界主要观点就像体智CEO。他认为,目前实体智能最大的瓶颈在于模型智能。 图灵奖获得者杨立坤也表示,真正的智能是基于世界模型的,所以我们需要唤起世界模型。 Word Model 的开放论文是 2018 年提出的,去年初大家都知道 Sora是一个视频生成模型,在国际上也被认为是模拟器。 今年 6 月,Meta 发布了 V-JEPA2,同样从视频中提取语义,重点关注机器人能力和转换。 8月和9月,谷歌DeepMind发布了Genie3。 Genie 也是一个基于视频生成的可交付虚拟环境,可以通过鼠标和键盘进行导航。 李菲菲的空间智能也属于这一类。与此同时,世界模型尚未达成统一的行业共识。不同的智力对于不同的应用也有不同的视角,比如是否与物理世界交互?我们应该关注一些抽象表示或因果关系,还是需要从模型中实现精确的预测? 因为我们在终端关注的是自动驾驶和体现智能,所以我觉得我们应该和物理世界进行交互,用更多的模型来让汽车变得更智能。策划预测。 当然,Openai的前首席科学家Ilya Sutskvi也有自己的一些看法,那么回到这个问题,在终端里怎么做呢?我们讲的都是1+8左右的终端设备,比如手机、平板、大脑、大屏、手表、手环、音箱、智能座舱等。 第二步是从过去简单的感知,比如二维图像分类,转向复杂的场景和高维世界,所以我们的第二步是自动交付复杂的场景。 对于核心模型,我们必须加强语言推理能力和多模态理解和生成的统一架构。复杂场景中,一是复杂任务的理解和长视频的理解。二是注重三维重建、生成和传输。只有在这两个方向上取得突破,才能建立统一的认识,构建大规模的多学科体系。-支持复杂交付的模态模型。到时候我们就会知道这是否就是我们所说的世界模式。 因此,我们重点关注基础模型和语言模型。当然,我们认为智能的核心仍然是语言的大模型。但就价格而言,变压器仍然是主要架构。还探索了其他架构,例如 Mamba 和 RWKV。虽然它们具有速度优势,但性能上存在差距,因此尚未在工业规模上得到采用。 在语言模型方面,扩散在语言模型中的运用已经开始。虽然这可以加快推理速度,但随着序列的增长,对计算能力的需求显着增加。因此,这里也存在挑战。如何利用代理准确理解用户的愿望并智能控制智能设备,如何开发合适的高性能终端模型,无论是手机的1B模型,3B型号,或者是PC、智能座舱等,满足功耗、内存、带宽的需求。 另外,对于基础模型来说,它是多模态理解和生成的统一架构。过去,多模态理解和多模态生成是独立的架构,区别在于编码器。这里,需要时间因素的统一。简单来说,简单才是最重要的,多模态融合的统一理解和生成让人们通过端侧设备在物理世界中得到更好的服务,这一点就用在小蚁正在看的AR眼镜上。 然而,统一架构面临着架构冲突、规模冲突等诸多挑战。多模态理解模型可能会超过1000亿,但多模态生成实际上在10B到20B之间。当然,优化目标不同,损失函数也不同,因为a的直接统一架构的概念有很多不同。首先有一个统一的分词器吗?能否先统一一下,进一步统一文本、音频、视频分词器?第二种是基于人工智能的隔离还是基于扩散的隔离,还是有其他有效的方法? MOE模型中共享了哪些参数,实现了哪些解?联轴器等。 这是复杂场景下基础模型交互的新视角。目前,我认为长视频理解将取代过去的静态图像的分类、检测和隔离等,成为多模态理解的下一个主要研究对象。 视频语义理解的上限取决于图像编码后上下文的上限。当然,它的理解存在很多问题,比如海量的数据、复杂的逻辑知识、如何在终端场景中发挥作用等。 后者是对场景的复杂理解。我们相信3D重建和生成是模拟真实物理世界的基础。挑战在于如何以更快的速度构建大型 3D 预测试模型。以前需要好几个小时,后来达到了几分钟的程度。现在我们希望达到第二个层次,并且可以实时开发。手机等终端设备可以以较低的门槛制作3D内容。 当然,如何构建物理意义明确、交互仿真、长期实际控制的3D环境,在终端也有很多应用。 最后,除了3D生成,实现无限3D场景的扩展,从城市到自然场景,去年还有DeepMind、谷歌、微软、Nvidia广泛使用的4D-GS方法。 最后还有一个最近的作品叫WorldGrow,刚刚发布给大家看。 (播放视频) 它是一个实验场景扩展的构建,从一个块到 9 × 9块,19 × 19 块,然后到任意大的长度。 例如,机器人可以在环境中导航,与未来环境交互,升级以完成某些任务,然后从室内扩展到室外进行下一步。这就是生成的过程。 我刚才提到,我们认为人工智能大模型的下一步是世界的G模型,但我们仍然面临很多重要的挑战,从以前的静态非传输环境到现在的4D、交互式、动态生成的。过去,我们专注于专有的视觉任务,例如图像分类、检测、隔离和识别,到现在的端到端统一的通用视觉任务。我们的重点是释放核心模型的能力,全力构建良好的交付环境,设计多模态统一架构,向下一代更强大的世界模型迈进。谢谢大家! WS690EC8A6A310CECA48B7BAC2 https://cn.chinadaily.com.cn/a/202511/08/ws690ec8a6a310ceca48b7bac2.html 版权保护:本网站刊登的内容(包括文字、图片、多媒体信息等)版权归中国日报网(中国日报国际文化传媒(北京)有限公司)独家使用。未经中国日报网事先同意和许可,禁止转载和使用。向中国日报提交评论:[email protected]