AI欧博进化关键之年,具身智能、自动驾驶迎来“拐点时刻”?

文章正文
发布时间:2025-02-27 05:42

特斯拉Optimus机器人完成工厂零件分拣、宇树机器人在春晚上精准完成舞蹈动作、比亚迪拉开智能驾驶全民普及序幕……这些标志性事件宣告了人工智能正在步入技术进化的关键之年。

近日,欧博阿里巴巴集团CEO吴泳铭宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI基础设施,总额超过去十年总和。这也创下中国民营企业在云和AI基础设施建设领域有史以来最大规模投资纪录。据IDC预测,到2030年,AI将为全球经济贡献19.9万亿美元,推动2030年全球GDP增长3.5%。

从工业革命到信息革命,每一次技术跃迁都伴随基础设施的颠覆。如果说AGI是一场星辰大海的远征,那么AI基础设施就是通往目的地的“阳关大道”。蒸汽机车需要铁路网、电力需要电网、互联网需要光纤与基站。AI的爆发,正在呼唤一张全新的基础设施网络——它不仅是数据传输的管道,更是连接实体与智能、协调全局与局部、平衡效率与安全的“神经中枢”,是一个能让机器智能与物理世界同频共振的新型网络。

在这个网络下,机器人、自动驾驶汽车、低空飞行器等各类智能体通过自主决策与协同控制,完成了一次又一次实时对话和人机交互,通往AGI新世界的大门也将由此开启。

AGI必然路径,从感知AI到物理AI

语音助手能准确识别方言指令、手机摄像头能自动捕捉最灿烂的笑容,这些感知AI的杰作构建了现代社会的数字感官。它们如同隐形的眼睛与耳朵,将光信号、声波转化为可计算的数据流。

但当自动驾驶汽车面对突发的道路塌陷,或服务机器人在凌乱的客厅里找不到充电接口时,单纯的环境感知能力立刻暴露出致命短板。

波士顿动力的人形机器人Atlas在平衡木上完成空翻时展现的不仅仅是动作精准度,更揭示了物理智能的本质:重力加速度计算需要与关节扭矩控制同步,摄像头捕捉的视觉信息必须即时转化为肌肉记忆般的机械响应。这种感知与行动的毫秒级闭环,远比AlphaGo战胜人类冠军更能体现智能的本质特征。

大模型的持续进化,如同蝴蝶振翅般颠覆了人们对人工智能的传统理解。从初次尝试新架构到发现新的普适定律,从能力泛化到模态无缝融合,这些突破性进展正在不断刷新机器智能的边界。

大模型实现了感知与认知能力的全面升级,让机器具备了更加细腻丰富的理解能力。与此同时,人工智能正在向着另一个关键维度挺进——对真实物理世界的模拟与适应。

从感知到决策再到控制执行,端到端的智能系统正在崛起,机器的适应性和灵活性持续突破,不仅能够自主感知和推理复杂场景,更能够主动规划行动、做出决策,而具身智能、自动驾驶的加速落地,又进一步塑造了机器的物理形态。

作为人工智能发展的初级阶段,感知式AI关注的是机器对环境的感知能力,使机器能够通过视觉、听觉等感官获取信息,并进行基本的理解和响应。感知式AI使机器能够与外界进行初步交互,为更复杂的智能行为提供了可能性。这一阶段的典型应用包括语音识别、图像处理以及推荐系统。

2012年,一个名为AlexNet的神经网络引爆了AI研究界,它的表现远远超过所有其他类型的模型,并赢得了当年的ImageNet竞赛。自那时起,神经网络开始腾飞。自ImageNet以来的13年里,计算机视觉研究者们掌握了物体识别,并转向图像和视频生成,为后续生成式AI奠定了基础。

在感知式AI的基础上,生成式AI通过进一步发展延伸,形成了机器生成内容的能力。这一阶段标志着人工智能不仅能够理解信息,还能创造文本、图像和音频等新的内容,被认为是“生产力放大器”,欧博娱乐为营销和创作领域提供了前所未有的工具和可能性。

今年,DeepSeek的火爆出圈将生成式AI再次推上了风口。不过,DeepSeek底层逻辑依然是统计机器学习——喂数据、训练、输出结果。这意味着生成式AI的技术天花板已经清晰可见,甚至因为它的“深度思考”过程透明化,反而更让人看清它的本质——一个被训练出的智能模型,而非真正的智能体。

一个有趣的例子:当被问“strawberry有几个r”时,DeepSeek需要反复思考50秒才能给出正确答案。它能解决复杂问题,却在简单场景中暴露局限性。这是因为其依赖统计相关性,而不是因果逻辑。就像超市发现“尿布和啤酒销量正相关”,AI能发现规律,却无法理解背后是“爸爸们顺手买酒”的因果链。”即便强如OpenAI,也在尝试反思式推理(如GPT-4o的多路径思考),但本质仍是数据驱动的优化。

近日,Meta首席AI科学家杨立昆(Yann LeCun)在2025年人工智能行动峰会上表示,AI需要理解物理世界,只有在这基础上,AI才能真正接近人类智慧。

尽管当前的大模型在诸如通过律师资格考试、解决数学问题等任务上表现出色,但它们无法执行日常生活中的基本任务,如做家务。对于人工智能而言,许多看似简单的动作,如洗碗或擦桌子,依然是无法解决的复杂问题。这些模型并未真正理解物理世界,只是通过模式识别和数据生成来模拟现象。

为进一步提升AI理解真实世界的能力,物理AI被提了出来,它使人工智能系统不仅能够理解信息,还能在物理世界中进行操作,它结合了对物理现象的理解与智能决策能力,使得智能系统能够灵活应对复杂情况。

物理AI赋予具身智能、自动驾驶更强的环境感知、理解和交互能力,使它们能够更好地理解周围环境,并根据物理规律做出相应的反应。例如,AI可以直接控制仓库中的机器人进行货物运输,或是优化自动驾驶汽车的行驶策略。

从感知式AI、生成式AI,最终迈向物理AI,这一演变过程反映了人工智能技术不断演进的轨迹。每个阶段都承袭了前一阶段人工智能发展的技术成果,使得机器不仅能够“看”和“听”,还能够“理解”和“行动”。这种逐步演进为实现更高级别的通用人工智能(AGI)奠定了基础,也为各行各业带来了深远影响。

AI与物理智能“双螺旋上升”

传统人工智能如同“缸中之脑”,虽能解方程、作诗词,却无法真正触碰现实。物理AI的颠覆性在于:它将智能注入物理实体,让机器具备“感知-决策-执行”的闭环能力。从自动驾驶车辆到智能电网,从柔性机器人到分子级制造设备,这些系统不再满足于“理解世界”,而是执着于“改变世界”。

相比生成式AI处理的是一维或二维信息的输入,如文字、图片、音频或视频,并输出相同类型的信息,物理AI需要从三维、甚至四维(包含时空)的角度理解信息,这与信息智能有本质的不同。

在输入层面,物理AI系统可以从许多工具中获取输入,比如摄像头、惯性传感器、雷达和激光雷达,处理的是感知和理解世界的数据,包括视觉和触觉等感官信息,并且能够直接从传感器数据中学习和理解环境,让人工智能从单纯的感知、生成,进阶到能够进行推理、规划与行动。

在输出层面,物理AI生成的是TSD数据,即时间(T)序列(S)数据,这种数据可以直接用于控制具身智能,赋予其一个能在现实物理规则下灵活运转的“大脑”。

此外,生成式AI和物理AI在产品形态和应用场景也有所不同。生成式AI不受时间影响,不需要实时反馈,例如ChatGPT中有些信息可能只更新到去年9月。而物理AI系统必须实时处理输入信息,需要实时感知和推理环境,以确保具身智能能够及时响应。

目前,大多数物理AI系统还只能处理特定任务或小环境,并且效果参差不齐。落地上,一个目前很火的例子是宇树科技的四足机器狗,可以爬山涉水,还可以用一连套高难度的体操动作亮相,包括原地旋转两周接倒立旋转三周半,以及一套流畅的托马斯全旋、侧空翻和360度跳跃转体等。

如同大模型革新了生成式AI一样,物理AI成为具身智能、自动驾驶等领域进入新阶段的“钥匙”。

首先,大模型“上车”难题将得到很好解决。

目前,大模型在汽车领域的应用主要体现在两个方面:一是智能座舱,二是自动驾驶。前者跟大模型技术有着天然的契合度,因为当前的智能座舱更侧重于娱乐和交互功能,这与大模型的语言处理能力非常相符,难点在于后者。

对于自动驾驶而言,如何在复杂动态的交通环境中实现高效、安全的车辆控制成为一大核心难题。现有的自动驾驶系统普遍缺乏多智能体协作能力、高效决策与解释能力,在面对复杂交通环境时,难以有效理解周围交通参与者的行为和意图。

第二是数据。在自动驾驶领域,大模型需要“喂”大量的真实世界数据进行训练,让它更拟人。所以如何让这些数据更好地服务大模型做训练,这是目前普遍车企面临的另一个难点。

其次,人形机器人加速迈向“ChatGPT时刻”。

去年,人工智能机器人初创公司Figure AI发布Figure 02时,就曾引发市场高度关注。Figure 02在大脑上,集成了OpenAI的GPT-4o多模态大模型,使其能够更好地理解和响应复杂指令。

多模态大模型不仅是技术的简单叠加,而是推动物理AI向前发展的重要技术支撑。大模型能力的本质是对信息的压缩与二次处理,多模态大模型扩大了信息输入模态,提升了模型能力天花板。

多模态大模型技术路径是从图像-语言模态融合再到三种以上模态的融合。语言模态的训练赋予了模型逻辑思维能力与信息生成能力;视觉模态的信息流密度较高,也与现实世界更贴切,可以大幅度拓展应用场景,因此成为多模态技术的首选信息载体。在此基础上,模型可以继续发展动作、声音、触觉等不同模态,以应对更加复杂的场景。

多模态大模型的核心优势在于卓越的信息融合能力。通过对不同模态数据的同步处理与深度整合,模型能够挖掘出跨模态信息之间的内在关联,从而生成更全面、准确且富有洞察力的理解与回应。

例如,在图像描述生成任务中,模型可以结合图像中的视觉元素与相关文本描述,生成精准且流畅的自然语言描述,让机器不仅能“看到”图像内容,更能以人类可理解的语言“讲述”其中的故事,因此更能满足机器在物理世界中广泛应用的需求。

通往AGI的新型网络基础设施

物理AI的崛起,正在将人工智能发展推向一个临界点:我们能否构建一张足够智慧、坚韧且包容的网络,既释放技术的全部潜力,又守护技术的核心价值?这不仅是工程师的挑战,更是全社会的共同课题。

物理世界的运行法则远比数字空间残酷:决策偏差导致的不是程序报错,而是血淋淋的交通事故;模型推理需要的不是概率优化,而是毫秒级的精准控制。车路云网络作为智能体与实体世界实时交互的AI网络,正是打破这层玻璃的关键钥匙,其通过大规模部署路侧感知单元、每秒处理海量数据的边缘计算节点,以及覆盖城市道路的网络,将数字智能注入物理世界的毛细血管。

这个庞大网络的技术内核在于“通感算一体化”架构的突破。通信光纤如同神经系统传递着每辆汽车0.1秒内的加速度变化,激光雷达阵列如同视觉神经捕捉着200米外行人的步态特征,云端超算集群则在时空维度编织着城市交通的数字孪生。

当暴雨导致某路口能见度骤降时,路侧基站能在百毫秒内完成对车道行驶轨迹的预测,并通过车路云网络向800米范围内的车辆发送分级制动指令,赋予自动驾驶车辆实现超越人类反应极限的群体决策能力。

虚实融合的AI网络正在重构技术演进的底层逻辑。车路云架构将70%的感知计算任务转移至路侧设备后,车辆只需保留基础算力模块,如同普通驾驶者借助智能交通系统获得“上帝视角”,相当于用市政设施的群体智能弥补了单车感知的物理局限。

更深层的变革发生在模型和算法层面。数字世界AI可以承受99%的准确率,但控制刹车系统的模型容错率必须是六个九。车路云网络通过数字孪生技术,将现实路网克隆为可无限试错的虚拟沙盘。这种虚实闭环的进化机制,让人工智能在应对电动自行车突然变道时,能像三十年驾龄的老司机般预判轨迹,却又不受人类驾驶员的情绪干扰。

在车路云网络中,车辆不仅仅是信息的接收者,它同时也是信息的生产者。每一辆车的传感器、摄像头和其他设备所收集到的数据,都会实时传输到云端。这些数据不仅帮助优化当前车辆的驾驶决策,还会反向影响整个智能交通系统的运行,通过共享信息,多个车辆和交通管理系统可以形成协同感知,从而提升整体道路的安全性和流畅度。

站在技术演进的维度观察,车路云网络的价值远不止于交通效率的提升。它证明了一个更具普适性的范式:当AI突破数字世界的边界,其进化轨迹必然要与物理实体深度融合。

这种融合不是简单的控制与被控制,而是通过持续的环境交互形成自主演化能力。就像生物神经系统的进化史,从单细胞生物的应激反应到人类大脑的复杂认知,智能的跃升永远伴随着与真实世界互动维度的拓展。

物理AI的觉醒,昭示着智能革命的拐点时刻已经到来。当城市化作流动的神经网络,每个机器人、每辆汽车都可以成为自主决策的智能体。就像DeepSeek创始人梁文峰所言:“AI 的未来不在于取代人类,而应该像水电一样成为基础设施,让每个人都能享受到科技带来的便利。”

实验室里的机械臂正在学习预测咖啡杯滑落前的震颤频率,气象AI系统同步调整着风力发电机的叶片角度。这些看似碎片化的技术突破,实则在编织覆盖全球的智能协同网络。当这个网络达到临界规模时,或许我们终将理解图灵在1950年提出的那个终极问题:机器能否思考?答案可能藏在机器与物理世界持续对话时产生的电光石火之中。

首页
评论
分享
Top