栏目分类

你的位置：九游体育(JIUYOU) 中国大陆官网-登录入口 > 资讯 >

资讯

你的位置：九游体育(JIUYOU) 中国大陆官网-登录入口 > 资讯 > 九游体育娱乐网真实作念到“知行合一”-九游体育(JIUYOU) 中国大陆官网-登录入口

九游体育娱乐网真实作念到“知行合一”-九游体育(JIUYOU) 中国大陆官网-登录入口

时间：2026-05-06 07:49 点击：89 次

田晏林发自凹非寺九游体育娱乐网

量子位 | 公众号 QbitAI

一家作念视频的公司，造了个机器东谈主通用大脑。

这不是段子，是真事。

区别于传统的专用机器东谈主大脑，这个“大脑”既具备天下模子的臆度推演才调，又能输出举止指示，真实作念到“知行合一”。

大脑模子名叫MotuBrain，4月中旬偷偷登顶两个外洋benchmark，却无东谈主领会来历，让具身圈大佬们猜了三周。

刚刚，生数科技主动认领了。

没错，是阿谁作念了Vidu、让央视动漫用AI拍西游的公司。

两个外洋benchmark，一个测试“能不可看懂物理天下”，一个磨真金不怕火“能不可确实脱手干活”。

就像一个东谈主一边进入物理竞赛，一边考叉车实操证，4月中旬，MotuBrain两门齐拿了全场最高分。

收成单亮出来，照旧实打实的登顶：

在WorldArena上，MotuBrain开通质料第一、动作平滑度第一；

在RoboTwin2.0上，它亦然独一一个在当场环境下，平平分超越95的模子。

这是什么想法？当年几年，能把其中一个测试作念到极致已属不易。

同期登顶？之前还没东谈主作念到过。

但目前，生数科技告诉你：一个MotuBrAIn模子就够了。

视频公司跨界调换机器东谈主，听起来蛮意旨。

推行内里亦然大有乾坤：具身智能的畴昔需要World Action Model（天下动作模子），此后者必须建树在视频模子对物理天下的分解之上。

一段汽车漂移的视频，模子要看懂车为什么拐弯、轮胎为什么冒烟、下一秒会往哪走。

这也不难分解视频公司闯入具身天下背后的逻辑了。

双榜吊打，这个机器东谈主大脑有多强？

MotuBrain悄无声气地同期登顶WorldArena和RoboTwin2.0，不少具身大佬齐被这个巧妙模子勾起有趣心，随性探问到底是谁家作念的。

有媒体扒出X平台上倒是有个账号，但刚注册，简介空空。

“枪弹”飞了快三周，4月29日，生数科技主动跑出来认领：是我。

回头来看，陈迹其实早就埋下了。

2025年12月，生数科技精致开源通用基座天下模子Motus，这是其在物理天下智能标的的一次试水。

四个月时辰不到，生数又进化了。

MotuBrain看玉成面升级的买卖模子版块，领受了Motus完好意思中枢技艺架构，并完成要道才调冲突。

考据实力的第一站：WorldArena。这是业界公认的World Model才调测试场。

它不看你模子生成的视频好不颜面，而是看你的模子能不可真实分解物理天下：

一个物体被推一下会朝哪个标的开通？两个物体碰撞后会发生什么？一语气动作的轨迹是否平滑、是否得当真什物理规矩？

EWM Score是这个榜单的轮廓评分，Motion Quality、Flow Score、Motion Smoothness这些维度辞别考试动作的真实性、一语气性和平滑度。

△数据统计扫尾4月21日

在这三个径直对应“动作质料”的维度上，MotuBrain全部拿劣等一。

这意味着它不是靠某个单项方针刷分，而是在物理规矩的分解和模拟上作念到了全面率先。

RoboTwin2.0则是Action Model的硬核科场。

它给模子诞生了50个不同的任务，秘密抓取、遗弃、推、拉、旋转等多种操作类型，还分两种环境进行测试：

一是Clean场景，圭臬实验室环境，物体位置、色泽、布景齐是固定的；

二是Randomized场景，会引入当场的扰动，比如物体位置当场偏移，灯光神采当场变化，致使桌子角度齐可能微调。这磨真金不怕火的是模子能不可泛化到没见过的条款。

MotuBrain在两个场景下，辞别达到95.8和96.1，均名次序一。

它亦然该榜单上独一一个在当场环境下，平平分超越95的模子。

辩别50个具体任务看，MotuBrain九成任务超越90分，一半任务更是拿到了满分100分。这依然不是率先了，这叫断崖式率先。

两个顶级榜单，一个测“分解天下”，一个测“谢天下中举止”。

想要同期获取收成，业内默许这是“长入场”级别的坚苦。

因为双方的技艺栈和评估神态完全不同，能把其中一个作念到极致就依然是顶级水平。

但MotuBrain双榜吊打，至少在benchmark层面考据了一件事：

把臆度天下和驱动举止长入在并吞个模子里，这条路是走得通的。

真机演示：AI干活起首“带脑子”了

从榜单收成看，MotuBrain领有更接近通用机器东谈主大脑的才调特征，它不是单项任务的“或然强”，而是跨任务、跨场景的泛化才调齐强。

一段真机演示足以直不雅印证。

从生数科技发布的Demo看，莫得复杂的表层VLM加持，也莫得预设动作剧本，却将MotuBrain的4个中枢才调完好意思呈现，看完只剩震憾！

这段不足3分钟视频，用3台不同型号的仿东谈主形机器东谈主，演示了5种任务：插花、整理沙发、劳动一场暖锅局、调酒、整理洗漱台。

没错，MotuBrain的第一个才调便是一脑多型，它不是为某一种机器东谈主量身定制，而是面向多机器东谈主推行想象的长入智能底座。

它在不同方法、不同开脱度、不同传感器的机器东谈主上齐能跑，并且接入的机器东谈主种类越多，数据和场景越丰富，模子弘扬越好。

仅从Demo展示的这三台机器东谈主身上，咱们也能看到一个模子是怎样拿捏全场景任务的。

插花、整理沙发，别看在这几项任务里算“浅陋”的，恰正是最磨真金不怕火长程任务建模才调的操作。

咱们能看到，机器东谈主精确抓取三支花，辞别稳稳插入花瓶后，趁势提起浇水壶，对开花枝均匀喷洒净水，扫数这个词进程非常丝滑，莫得停顿。

也能看到它精确识别出洒落的衣物和错位的靠枕，先将衣物逐个拾起、规整放入洗衣篮，再将歪七扭八的靠枕摆回原位。

全程动作柔软且高效，莫得出现衣物掉落、靠枕摆放倾斜的情况。

这便是MotuBrain一脑领会才调的体现。

不同于传统机器东谈主仅能完成2-3个原子动作的Demo展示，MotuBrain的一个World Action Model可完成10个原子动作级别的复杂长程任务。

岂论是插花照旧整理沙发，机器东谈主濒临的不再是一个个伶仃动作，而是一项需要络续鼓吹的完好意思任务。

如果你以为这就够了，先别急着叫好，大招还在背面。

最让东谈主咫尺一亮的，当属劳动一场暖锅局。机器东谈主被要求从锅中舀取一份丸子放入碗中，同期倒一杯果汁。

这一次，它附近手同期“开工”，互不干扰、配合默契。

一个小细节是，起始勺子放在锅里，机器东谈主用左手捏住勺柄，莫得坐窝捞取，而是先判断了一下漏勺中有莫得物体，然后再行伸向锅中舀取丸子，盛入眼前的碗中。

别轻佻这个不起眼的动作，需要机器东谈主「分解」勺子是空的，同期能自主「臆度」并再行实践捞取动作。

多数机器东谈主是“看到什么就作念什么”。而在这个取丸子场景里，如果换成传统指示式机器东谈主，它只会按剧本实践“舀→放”的动作。

一朝勺子启动是空的，它要么卡住，要么盲目重迭，却不知谈“为什么空”。

但MotuBrain能作念到：像东谈主相通“鉴貌辨色”，捏住勺柄的须臾就通过视觉判断出“勺里没东西”，紧接着自主计较新旅途，再行伸回锅中精确舀取丸子。

直到阐发勺子里有食材，它再稳稳端起，送入碗中，全程洋洋洒洒，无需东谈主工打扰或再行下指示。

分解天下、臆度变化，并据此驱动更合理的举止，这便是MotuBrain的一脑意象才调。

不外此时，真机演示还未到抖擞。

调配饮料的任务，才是细节拉满。

只见「硅基调酒师」右手提起饮料，精确倒入盎司杯中定容，放下饮料瓶后，左手速即提起牛奶瓶，将牛奶缓缓注入中间的玻璃空杯，动作柔软且精确，全程莫得一滴洒漏。

待牛奶倒完，右手再次提起盎司杯，将内部的饮料缓缓倒入牛奶杯中，终末还不忘取一派薄荷叶，轻轻放在饮品名义作念点缀。

完成造型后，它还俏皮地捏了一下身边的塑料小黄鸭，仿佛在向围不雅者“报喜”：鸡尾酒作念好啦！

一系列操作，展现了MotuBrain的一脑多能。

这一才调让模子好像在多任务场景中保持雄厚弘扬，不依赖单一任务教授。

比拟于传统作念法，比如搬箱子用一个模子、开门用一个，叠穿戴又一个……任务越多越肥美。

MotuBrain径直把多数不同类型任务混在全部学，从抓取到多步操作全扔进去。

这么作念的公正是，跟着任务数目络续增多，任务之间的分享天下常识越多，MotuBrain的平均任务奏效能也会同步进步。

因为它学到的是“操作的本质”，不是肌肉挂念。

这四个才调叠在全部，MotuBrain就有了为一语气、智能、真实天下的举止而想象的机器东谈主通用大脑。

把推演和举止揉进并吞个模子

为什么MotuBrain能让机器东谈主有这么的干活才调？谜底藏在底层技艺想象里。

当年一年，围绕World Model和Action Model，行业已渐渐变成几条有代表性的技艺门道：

一是径直举止派，也便是教授一个VLA径直进行感知分解和实践。

二是先看后动派，先教授一个视频臆度模子用来想象畴昔，再把想象的扫尾看成有狡计依据。听起来有点像东谈主类先在大脑里模拟一遍再脱手。

MotuBrain走的是第三条门道——边看边动派，也便是World Action Model。

它把推演和举止交融在并吞个模子里，莫得先后法子，有狡计的同期就在推演，推演的扫尾径直影响有狡计。

这三条门道莫得完好意思的对错，但World Action Model有两个要道上风：

它不需要恭候机器东谈主“想象”后再举止，响应速率更快；同期因为推演和举止分享并吞个表征空间，臆度的偏差和实践的偏差不会彼此放大。

打个无为的比喻。东谈主类司机开车，不是靠肌肉挂念去踩刹车。

你看到前车刹车灯亮起的那一一瞬，大脑依然在臆度“0.5秒后我离前车还有多远”“目前踩刹车重了会不会追尾”“轻了会不会刹不住”。

这个臆度和有狡计是同期发生的，不是反复谈判路况，再踩刹车（那就来不足了……）

MotuBrain作念的便是这件事。如果只用一个词描摹它，那便是：为举止而生。

传统AI模子更像是“不雅看者”或“分析者”，给它一张小猫的图片，它能认出来；给它一段视频，它能态状发生了什么。

但这类模子从不真实“举止”，也不需要对我方的判断负责。

MotuBrain要惩处的，也不是“机器东谈主会不会作念一个动作”，而是“机器东谈主能不可一语气完成一个任务”。

而想要作念到这点，要求机器东谈主必须真实分解真实天下中的开通和物理变化。它的举止必须是一语气的、能妥当变化的、不错跨推行、跨任务的。

在WorldArena评测中，MotuBrain在三个与“开通”径直连络的维度上全部拿劣等一：

Motion Quality：动作真实，不是“摆姿势”。

Flow Score：一语气动作丝滑衔尾，分解轨迹变化。

Motion Smoothness：得当物理规矩，无突兀跳变、急加快或抖动。

从技艺层面看，MotuBrain的想象并不复杂，却很有章法。每一步齐像在给机器东谈主“换脑子、塑领路”。

其技艺根基源自Motus在昨年12月诞生的World Action Models。

中枢想路很浅陋：先给机器东谈主的“视觉”（视频）和“动作”（机械开通）作念一套“长入翻译系统”，透顶买通多模态信息壁垒。

也便是用UniDiffuser结束Video和Action的长入建模与治疗。

一朝谈话长入了，机器东谈主只需教授一次，就能自动学会五种身手：

举个最直不雅的例子，让机器东谈主取桌边水杯。

VLA模态：视觉识别方针+解析谈话指示，完成感知到动作的启动触发；

天下模子模态：不雅测水杯旯旮位置与姿态，团结机器东谈主动作输入，预判物体位移、滑落等环境动态演化趋势；

视频生成模态：基于手部围聚水杯的前置帧，自主补全扫数这个词抓取动作的时序进程；

逆能源学模态：由“水杯从桌面蜿蜒至手中”的扫尾，反向推演机械臂最优开通轨迹；

视频动作合股臆度模态：实践抓取的同期，及时预判水杯下一时刻位置，动态微调手部姿态与发力逻辑。

这五种身手齐来自并吞套底层逻辑，毋庸分开教授。

并且，比拟传统VLA只可吃特定推行上的纯任务数据，Motus「不忌口」，能同期消化各式数据（纯视频、无标签数据、机器东谈主开通轨迹）。

它吃的数据越杂越多，机器东谈主对真实天下的分解会越深，举止也就更靠谱。

因为它掌捏的是跨任务的通用规矩，不是单一动作的“模板”。

在此基础上，MotuBrain作念了更实用的升级，惩处了机器东谈主落地的核肉痛点：

不挑相机：不管机器东谈主装了若干个录像头、角度怎样，齐能平日识别；

听懂东谈主话：把“指示”融入动作生成的中枢，不是浅陋“凑活实践”，而是确实分解指示意图；

跨机器东谈主通用：学会的身手能挪动到不同机器东谈主身上，毋庸换一台机器东谈主就再行教授；

能作念复杂任务：它搭了一个视频−动作−谈话三流MoT架构，毋庸拆分才能，让模子不错完成10个以上连贯动作；

从左图不错看出，跟着任务数目增多，Pi-0.5奏效能络续下落，而MotuBrain奏效能络续飞腾。

这诠释它学到了跨任务的通用天下常识，这是VLA不具有的才调。

右图呢？是MotuBrain在数据量上的Scaling Law弧线。

比拟其他模子更笔陡，诠释其数据效能非常高，仅用少许数据就不错获取很好的扫尾。

此外，任务数目的scaling law弧线比数据量更为笔陡，诠释关于MotuBrain这种数据效能极高的模子来说，比拟于增多数据量，增多任务的万般性对奏效能的进步扫尾更为权贵。

真机演示里，咱们也能看出来，该模子已在多款仿东谈主形机器东谈主上考据过，大模子运行不卡顿，毋庸荒芜扶持器具，仅凭自己才调，就能高奏效能完成长程任务，还能附近手同期作念不共事。

回来下来，MotuBrain真实是非之处，不在于多复杂的技艺堆砌，而在于用“长入建模”买通了机器东谈主的“感知、分解、举止”，让机器东谈主真实从“机械实践”，走向“智能有狡计”。

左手Vidu，右手MotuBrain

如果只看MotuBrain这一个点，可能会合计生数科技是倏地杀进了具身智能赛谈。

但如果把视野拉远，会发现这是一条早有预谋的暗线。

本年4月，阿里领投，生数科技完成了近20亿元东谈主民币的B轮融资。

这不是一笔小钱，投资机构看中的不是“又一家作念视频模子的公司”，而是一个更大的叙事：买通数字天下与物理天下的通用天下模子。

生数科技的布局是双轨并行。模子的底层是其全球创始的U-ViT架构。

这个架构亦然该公司扫数这个词战术的技艺基座，它作念的事情很底层，也很要道：长入处理视觉、听觉、触觉等多模态信息。

不同类型的感知数据被塞进并吞个模子框架里教授，模子渐渐建树起对天下的长入领路：什么是物体，什么是开通，什么是因果相干。

就像东谈主类婴儿的大脑，不是辞别长出一个视觉皮层和一个开通皮层，而是两者协同发育、彼此促进。

在这个基座之上，生数科技兵分两路。

一条通往数字天下，另一条路通往物理天下。

先看第一条路，生数科技走的是天下生成模子（WGM）门道，居品便是环球持重的视频大模子Vidu。

Vidu的才调不仅仅在给定指示词青年景一段颜面的视频。在生成视频的进程中，模子必须学会物理规矩：水怎样流、光怎样反射、物体怎样碰撞。

一个生成“水点落下”视频的模子，如果它连重力加快度齐不懂，生成的画面就会很假。

是以，Vidu本质上是一个被教授来“分解并生成物理天下”的模子。

△Vidu布局

它依然在买卖化上解说了这一丝：漫威《毒液3》的水墨立场宣传片，完全基于Vidu生成；AI漫剧《明日周一》10东谈主团队45天产出50集，上线5天播放量破500万。

而通往物理天下的路，MotuBrain正在铺。

Vidu和MotuBrain，一个是数字空间的产出，一个是物理空间的实践，两套居品，并吞条根。

这套双轨结构有一个自然的护城河：

绝大多数作念机器东谈主大脑的公司莫得视频大模子的基础，数据来源主若是仿真环境和真实机器东谈主收集的数据，成本高、边界小。

而绝大多数作念视频模子的公司莫得机器东谈主动作数据的累积，输出不错很好意思，但无法驱动实体。

生数科技是极少数同期领有这两块拼图的玩家。

也因此，这些技艺累积会径直反应在前述MotuBrain的收成单上。

虽然，光少见据还不够，模子层面的冲突还需要场景考据。目前，生数科技依然与无界能源、深朴智能、星尘智能达成战术调解。

这些调解伙伴有的主攻工业制造与买卖劳动场景，有些对准类家庭买卖场景与调解住宿场景。

调解内容不仅仅“把MotuBrain装上去试试”，而是技艺层面的合股优化、数据层面的双向飞轮、诓骗层面的边界化落地。

除了上述买卖伙伴，更多战术调解已在路上。

One more thing

具身智能行业的共鸣变了，环球依然不珍爱谁造出更贤达的机器东谈主，更存眷谁先作念出真实通用的机器东谈主大脑。

本钱正在密集涌向作念“大脑”的公司，这便是最佳的诠释。

他们争夺的不是一两个爆款诓骗，而是下一代的操作系统进口，致使更底层——通用物理天下的进口。

这个节骨眼上，刚完成近20亿元B轮融资的生数科技，带着双榜第一的MotuBrain出现了。

当别东谈主还在纠结该走World Model照旧VLA时，生数科技用并吞个模子同期作念到了行业第一。

这至少诠释了一件事：通用物默默能这条路，有东谈主依然起首跑通了。

如果说视频是分解天下的启程点，那么让AI真实走进物理天下才是扫数玩家的尽头。

Vidu画出了一个造谣天下，而MotuBrain正在奔向后者。

官网蚁集：https://www.shengshu.com/zh/motubrain九游体育娱乐网

九游体育app娱乐其后嫁给了其后成为中国科学院院士的冶金学家叶渚沛-九游体育(JIUYOU) 中国大陆官网-登录入口 26-06-21

九游体育app娱乐因为你不仅有贯通的更新-九游体育(JIUYOU) 中国大陆官网-登录入口 26-06-20

九游体育app官网全面鼓吹AI诈欺从“请托功能”走向“请托遵守”-九游体育(JIUYOU) 中国大陆官网-登录入口 26-06-19

九游体育app娱乐对应缱绻市值37亿好意思元-九游体育(JIUYOU) 中国大陆官网-登录入口 26-06-18

现金九游体育app平台智欣集团控股(02187)：叶志杰将获委任为计策委员会主席-九游体育(JIUYOU) 中国大陆官网-登录入口 26-06-12

九游体育app娱乐芝商所“好意思联储不雅察用具”涌现-九游体育(JIUYOU) 中国大陆官网-登录入口 26-06-11

服务热线: 官方网站：www.weilude.com; 工作时间：周一至周六（09：00-18：00）

联系我们: QQ：75028559598; 邮箱：1214c982@outlook.com; 地址：资讯科技园2054号

关注公众号

友情链接：

九游体育(JIUYOU) 中国大陆官网-登录入口-九游体育娱乐网真实作念到“知行合一”-九游体育(JIUYOU) 中国大陆官网-登录入口