MEET2026 量子比特 |编辑部公众号QbitAI出现了,AI战场现已成为军事家们期待的“领域”。自从缩放定律给模型功能带来了令人难以置信的改进以来,几乎每个模型制作者都陷入了无尽的 FOMO 之中,似乎无人能阻止。我认为大型模型最吸引人的地方在于它们是非线性变化的,代表着很大的不确定性,但是一旦表现出来,它就远远超出了想象。在量子位MEET2026智能未来大会上,清华大学人工智能研究院副执行院长、欧洲科学院外籍学者孙墨松表达了这样的感悟。只要算力积累起来,参数能增加,钱就不会停。但是,如果这变成了一条没有出口的小巷,并且您所有的投资都被浪费了,因为扩展的边际成本增加了,该怎么办?英?孙茂松的建议是,可以“很广泛”,但一定要“微妙”。就商业界而言,小而强的团队可以沿着国际前沿,朝着“走向世界”的方向前进。但大多数人工智能公司应该专注于“抓住细微差别”。为了充分表达孙墨松的思想,量子比特在不改变原意的情况下对演讲内容进行了整理和编辑,希望能提供新的视角和思路。 MEET2026智慧未来大会是量子比特主办的行业峰会,近30位行业代表将参与讨论。线下参与人数近1500人,线上现场观看人数超350万,受到各大媒体的广泛关注和报道。个人总结中心观点随着模型和数据规模的不断增加,功能可能会出现。这种高度非线性变化引起的不确定性代表了 l 最具吸引力的方面大型模型。预计在未来几年,对于人类来说更困难且有标准答案的测试对于机器来说可能会变得不那么困难。这是思想。当今大规模模型和实体智能面临的本质挑战是如何纠正声音、知识和行动之间的关系,使机器真正实现知识和行动的统一。 “解决”这个问题难度极大,涉及人工智能重要的基础理论和方法创新。缩放方法能走多远存在相当大的不确定性。通常,信息系统一旦达到一定的发展阶段就会趋于饱和。然而,新现象的出现可以打破这种饱和状态。因此,仍需要少数国内顶级团队跟上全球前沿发展,探索规模极限。未来几年,人形机器人几乎不可能实现可以进入常见的开放环境并自主执行更复杂的任务。它应该基于在尽可能多的具体现实场景中开发“星火”式的人工智能应用程序。这是完全可能的(尽管机器人不必是人形的),并且是大多数公司应该投入大量精力的事情。以下为孙茂松先生讲座全文。过去八年我演讲的题目是“生成人工智能和大规模模型:前沿形势、核心挑战和发展路径”。坦白说,谈论这个话题并不容易。全世界都在谈论这个话题。我来分享一下我的一些粗浅的理解。基于深度学习的AI从2017年左右开始进入预训练模型和大规模模型时代,迄今为止也只有8年的时间。过去八年有几个重大的时间节点。 GPT-3 于大约五年前的 2020 年发布。GPT 大约在三年前发布。 DeepSeek 刚刚推出一年。在过去的八年里,发生了许多美好的事情。按照老话“日新月异,日新月异,日新月异”,这基本上是近年来大车型的惯常发展。特别是近年来,大模型解决复杂问题的能力通过长长的思维链条得到了显着的提升。我们现在可以看到数千支蜡烛相互竞争。为什么我们如此痴迷于伟大的模特?它最重要的特点是,随着模型变得越来越大、数据量越来越大,通常会出现以前模型中不具备的功能。当一项技能出现时,它是一种突然出现的非线性变化。如果你做的事情没有产生表面上的表现,那么它可能没什么特别的。但一旦出现,竞争对手可能会远远落后。而你无法知道不管它是否会发生,请提前告知。这是较大模型最令人着迷和令人困惑的方面。近年来发展迅速,文本模型很大,图形模型也很大,所有基准都近乎扁平化。有一套考试叫做“人类最后的考试”(俗称“人类最后的考试”)。为了测试我们的人工智能,我们从世界各地收集了以前从未被问过的棘手问题。这些问题已经发布,并且在互联网上没有答案。对于此类问题,顶级专家可以获得 5 分,但现在最大的模型可以获得 30 或 40 分。未来几年,所有标准答案考试对于机器来说预计都会变得不那么困难。这是大文本模型的开发。大规模代码模型的发展也在迅速发生。今年的世界大学编程大赛,第一名将不再能够创建大型模型。除此之外,大家都学到了很多东西关于大型多模态模型的优越性能。总而言之,文本、代码和多模态等大规模模型已经发展到非常高水平的基本功能,这构成了当前人工智能争论的“基本面”。 Daniel Kahneman 在他的《Thinking Fast and Slow》一书中提出了著名的Systemsto 1(快速系统)和System 2(慢速系统)。经过几年的发展,该机已经开发出非常强大的系统1和系统2能力。这将使人工智能脱离文本世界,进入具身智能。奠定了非常重要的基础,尤其是没有系统1的感知能力,机器进入现实世界后就变得“盲目”,什么也做不了。我们经常提到1950年的图灵测试,从语言层面上来说,可以认为是通过了图灵测试。然而,大约在同一时间,控制论之父维纳提出了“控制论”中同样重要的观点:如果机器想要变得智能,就必须能够到达现实世界。它能够感知世界、应对世界、接受奖励或惩罚作为反馈并采取相应的行动。自我调节和持续的自我学习。在这个过程中,真正的智慧就形成了。但目前看来,维纳的控制论将人工智能提升到更高水平似乎存在某些条件。古语云:“言而无信”,陆游曾有诗云:“纸上所见虽肤浅,但自知必须要做到”。语言模型在“言语”方面非常好,但在“行动”方面,就有质的差异。同时,有句老话:“知易行难”。虽然现在大模型“会说话”,看起来世界上所有的知识都被参数化并加载到模型中,但那个“知识”仍然是不完整的、不系统的、缺乏自我认识的。没有任何“知”,“行”才有意义较少的。不过,大模型的“知识”虽然并不完美,但毕竟知道了70%到80%的“知识”。因此,通过创造具身智能,才有可能寻求“知、意、行的统一”。当然,从“言语”走向“知识”的难度要大得多,这是人工智能今天面临的最大挑战。如何处理“言语、行动、知识”,实现“知行合一”?人工智能的巨额投资让华尔街惊出了一身冷汗,前进的道路充满了挑战。人工智能的发展是基于规模法则、大模型、大数据和大计算能力。近年来,在训练、训练之后,增加了新的改进,例如试用时间。但是,任何系统都有先决条件,一旦性能开始饱和,规模法则可能会变得无效,投入更多的资金可能会得不偿失。ney.a,花在上面的钱会很合适。然而,缩放方法可以在多大程度上使用是一个大问题。支持扩展的成本令人望而却步。使用更多的钱和电。法国《回声报》(法国商业报纸之一)11月3日报道称,“人工智能领域的巨额投资让华尔街惊出了一身冷汗”。华尔街向来都是大汗淋漓,但能够“惊出一身冷汗”就说明这笔投资其实太大了。报告中提到了几个数字。 OpenAI目前的算力约为2GW。计划到2033年增加125倍,达到250GW。相当于投资规模可能达到10万亿美元,这还不包括电力。你可以做一些转换。核反应堆的平均发电能力不足1吉瓦。 250吉瓦相当于250个核反应堆。这是一项非常激进的投资,涉及高风险。钍重点是我们现在必须遵守。不然一旦出现,我们又会被远远抛在后面。但如果你跟着它,你可能买不起。然后是具身智能。李飞飞提出空间智能,本质上就是上面的“动作”。这里还存在理论和实践问题。下一个代币的预测能走多远?文本完全由下一个令牌预测生成。随后的各种强化学习方法也是建立在这个基础上的。我们非常依赖这个策略,包括图像生成和视频包生成。这个策略实际上近乎完美。虽然我还有些妄想,但我已经是专家级别了。然而,当涉及到图像时,事情就没那么简单了,因此您需要将其与其他策略相协调。视频生成更加困难。生成逻辑连贯的 10 分钟视频非常困难。当谈到具身智能时,这是一个大问题埃斯特马克。这种语言之所以成功,是因为它是线性序列,并且具有“离散无穷大”的性质。例如,苹果有两个主要含义:被吃的苹果和特定的公司。其语义简洁,词界清晰,句序线性。预测下一块瓷砖非常有效。然而,图像的情况并非如此。我不知道图像中的清晰标记在哪里。唯一的选择是使其成为“补丁”,例如 3×3 的黑色块。它可以是一件衣服、桌面的一角或屏幕上的图标。语义方向非常不确定。而且并不存在整体性,这种黑色污渍可能由一群黑蚂蚁组成,也可能是衣服上污渍的一部分。说到视频,从2D到3D就更难了。困难的是身体是四维的,三维时空是一个无限变化的广阔世界。很难说如此复杂的场景能否真实存在基于对下一个标记的预测进行预测。我们不能指望人形机器人能够在未来五年内在现实世界中自主完成更复杂的开放式任务。例如,您会建造一个可以照顾家里老人的实体机器人吗?那太难了。图灵奖获得者 Hinton 最近在讨论人工智能和失业话题时表示:如果有人建议你成为一名水管工,不要只是拒绝他们的提议。这个建议是有道理的。人工智能距离水管工的能力还很远。什么是可能的?应该是一个相对简化的任务空间。例如,前面我们谈到灵巧的手可以执行相对简单和简单的任务。事实上,做好并不容易,但完全有可能。因此,嵌入式智能应该仅限于有限领域的有限应用。不过,还有很大的发展空间。我们要量力而行,知难而进,并小心翼翼地前进和挫折。今天我们经常讲建立一个世界模型,但这是极其困难的。目前尚无明确可行的技术路径。短期内,我们只能寄希望于对下一个代币的预测。然而,走这条路无疑会让计算能力和数据需求增加几个数量级。当然,重新出现的能力可能会让机器人在相对开放的工作空间中拥有更大的自由度。 “做大做细”至此,发展路径应该比较清晰了。关于美国,无需多言。中国也有DeepSeek、Qianwen等代表模型,做得非常好。从对比表来看,差别并不大。中国有句古话:“无边无际”。胸怀大志,行动宏大,既“精致”又“广泛”。这是当今美国的典型做法。它可以是10万张、100万张,未来是数亿张卡。即使是华尔街也发现很难完成如此规模的交易。但如果这条路径成功,出现在某个关键节点,就可以形成领先优势。如果要沿着这条路迎头走下去,可能只有业内一些主要的国内厂商具备必要的条件,但这也很难。因此,虽然目前中美在大型车型的性能方面没有太大差异,但未来几年仍存在很大的不确定性,直到它们“走向大众”。在此背景下,我认为中国当前重点将人工智能应用于垂直领域,或者说“能走多远”,是正确的战略选择。基础开源模型,如DeepSeek、Qianwen等,已经有了相当扎实的基础。完全有可能实现各个层面的深度垂直整合,成为全球性的基座上的领导者。但这也是非常困难的。我希望它真的能通过使用市场上的大型模型来发挥作用。这不现实。在某些情况下,垂直领域本身就可以催生新的人工智能算法。从这个意义上说,“做小事”本身也是一种“做大事”。因此,我们的路径应该是:少数非常强大的团队可以尝试沿着“到达广阔世界”的方向继续追寻国际边界。但大多数人工智能公司应该专注于“做微妙的事情”。垂直领域的应用难度很大,但是风险很小,我们比美国更有条件做得更好。我们的应用场景比较丰富,产业基础好,中国人民聪明勤劳,所以我们可以在“优秀”方面获得优势。至于“深入群众”,其实关系到整个教育体系能否培养出人才从0到1,这也包括了钱学森问题的答案,但这是一个更复杂的问题。让它独自呆几年。先做“微妙”,再做“广博”。不过,请大家密切关注。这些是我个人的观点和印象,可能不准确。谢谢大家!
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。