百家乐IOS/安卓通用版/手机APP下载 老黄吹的Cosmos 3,在一个北大团队作念的榜单上拿了第一
刚刚畴昔的 GTC Taipei 上,最备受暄和的,莫过于Cosmos 3。

这是一个悉数开源的物理 AI 全模态模子。老黄默示,Cosmos 3 谢寰宇生成这项上,在 Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench 四个开源榜单上均列第一。

前三个 bench 都算业界比较眼熟的,而R-bench——我稀奇查了查,这个让 Cosmos 3 霸榜的榜单,竟出自一支北大团队。
这篇职责已被 ICML 2026 接纳,名字叫《Rethinking Video Generation Model for the Embodied World》,来自北京大学、字节超越 Seed 等机构的盘考团队。
他们提倡了面向具身寰宇的视频生成评测与数据基础设施:R-Bench+RoVid-X。

值得在意的是,在作家列内外,字节 Seedance 2.0 的预进修讲求东谈主曾妍,也赫然在列。
R-Bench:专门给机器东谈主视频生成请的"考官"
Cosmos 3 是英伟达此次 GTC Taipei 的主角之一。
按老黄的说法,它是人人首个悉数开源的物理 AI 全模态模子,基于一种 mixture-of-transformers 架构,能在一个模子里同期通晓和生成文本、图像、视频、环境声息,乃至机器东谈主的动作。
Nano 和 Super 两个尺寸,都也曾挂上了 Hugging Face。

换句话说,Cosmos 3 要作念的不是"拍出顺眼的视频",而是给机器东谈主、自动驾驶这些要在的确寰宇里干活的系统,生成"物理上说得通"的数据。
但问题它就来了。
一个模子生成的机器东谈主视频,到底是不是"物理上说得通",该用什么来猜度?
畴昔一年,视频生成的故事险些都绕着归并个问题张开:谁能拍得更了了、更结识、更有电影感。
但在机器东谈主场景里,画质顺眼是一趟事,能不可用又是另一趟事。
要是一个模子能生成传神的机械臂,却让夹爪穿过物体;能让机器东谈主看起来"动起来",却无法完成抓取、摈弃、回身、互助等任务,那么它距离 Physical AI 需要的"寰宇模子",仍然隔着一条领域。
R-Bench的中枢起点,即是把视频生成模子从"视觉生成器"放到"物理寰宇模拟器"的语境下再行评估。
它不单看画面是否传神,而是系统性猜度模子是否能生成顺应具身任务逻辑和物理管制的视频。

具体而言,R-Bench 是一个以机器东谈主为中心的视频生成评测基准,包含650 个图像 - 文本评测样本,从5 类任务才能和4 类机器东谈主花样两个维度构建。
在职务维度上,R-Bench 障翳操作奉行、空间联系、多主体互助、永劫谋划和视觉推理;在机器东谈主花样维度上,障翳单臂、双臂、四足和东谈主形机器东谈主。

这么的假想让 R-Bench 不再只问"视频像不像",而是进一步追问:
机器东谈主有莫得的确斗争到见识物体?
任务枢纽法子是否齐全出现?
多个物体或多个主体之间的联系是否合理?
机器东谈主花样在通顺历程中是否保持结识?
永劫序动作是否顺应任务逻辑?
因此,R-Bench 不仅仅一个名次榜,更可以看成机器东谈主视频生成数据的"物理质地过滤器":
它能够评估生成视频是否振作斗争联系、动作门径、花样结识性和任务完成度等物理管制,从而匡助筛选出更顺应物理法例、可用于具身智能进修的数据。
为了捕捉这些问题,R-Bench 假想了一套可复现的自动化评测谋划体系,能够识别机器东谈主花样畸变、物体属性漂移、部件飘摇或穿模、无斗争抓取、虚拟出现物体、枢纽动作缺失等常见失败模式。
值得在意的是,R-Bench 的自动打分,和东谈主工评测的 Spearman 研究悉数达到0.96。

这意味着它不仅仅个自动跑分用具,在很猛进程上对都了东谈主类对"物理合不对理""任务完没完成"的判断。
亚搏体育中国一站式服务官网榜单上还能看到什么?
在最新 R-Bench Leaderboard 中,Cosmos 3 系列也曾成为开源社区最亮眼的模子之一。
Cosmos3-Nano 以0.584的轮廓得分位列 RBench 开源模子第一,Cosmos3-Super 紧随其后,拿到0.581。

放到通盘榜单里看,这传递出两个信号。
一所以物理 AI 为见识进修的视频寰宇模子,也曾初始在机器东谈主图像到视频生成上展现竞争。
比较传统通用视频模子,它的上风不单在画质,更在于更接近具身智能需要的物理模拟与动作延展才能。
二是闭源交易模子轮廓才能仍然率先,但开源正在快速追逐。
对盘考社区来说,百家乐2026世界杯中国官方下载这种"开源能打"的信号,比单个模子更强更蹙迫。

而比排名更有价值的,是 RBench 照出来的几处共性短板:
考究操作照旧老浩劫。移动、回身这类大幅动作模子也曾作念得可以,但抓、执、拧、插、摈弃这些对斗争建模条件高的动作,最容易出错。
永劫谋划仍是弱项。视频看起来连贯,不代表任务逻辑正确,模子可能动作领悟却漏掉枢纽法子,或者把门径搞反。
通用学问和机器东谈主数据没"合上"。纯通用视频有丰富的寰宇学问但缺机器东谈主交互,纯机器东谈主数据又时时范围有限、花样单一。
从这个角度看,R-Bench 更像一面镜子,把视频模子在物理寰宇里的的确软肋照了出来。
RoVid-X:400 万条机器东谈主视频,开源了
发现了问题,下一步即是喂数据。这恰是RoVid-X要治理的事。
团队也曾在 Hugging Face 上开源了 RoVid-X 的蹙迫子集(300 万条机器东谈主视频),上线后热度攀升很快——它在 Datasets Trending 的 Video 模态大范围数据围聚排名第一,在沿途 6.5 万多个 Video 模态数据集的合座 Trending 里也位列第九。
这反应了 RoVid-X 看成面向机器东谈主视觉 / 视频通晓的大范围数据资源,在开源社区中的快速影响力。
数据集的齐全版范围达到400 万条机器东谈主视频片断、1300+ 细粒度妙技、1 万 + 小时本体,划分率 720P,并附带 RGB、深度、光流等多模态物理标注。

和通用互联网视频不同,RoVid-X 要让模子斗争的是更接近的确的机器东谈主交互历程:物体何如被抓取、机械臂何如接近见识、任务何如被明白、动作和环境何如共同造成物理管制。
这种数据关于视频寰宇模子尤其枢纽。因为物理通晓不是神圣靠请示词补出来的,而需要模子在广泛交互数据中学习斗争、门径、力学联系和结构结识性。
推行限定也清楚,引入 RoVid-X 数据后,模子在具身任务中的进展能够取得结识栽种。
举例在 Wan 系列模子上,经过 RoVid-X 微调后,模子在操作奉行、永劫谋划和空间通晓等维度均有显著改善。

这评释高质地、结构化的机器东谈主视频数据,如实能够栽种视频生成模子面向具身场景的可奉行性与结识性。
这项职责的意思,不单在于多了一个 benchmark 和一个 dataset,而是把视频生成放进了物理 AI 的语境里再行注释。
畴昔视频生成更多处事于本体创作:告白、短片、殊效。往后,它可能成为机器东谈主进修、仿真环境构建和具身智能数据闭环的基础设施。
当模子初始通晓斗争、门径、结构结识性和动作后果,"生成一段看起来合理的视频"就在向"可用于物理寰宇推演的寰宇模拟引擎"逼近。
R-Bench 和 RoVid-X 是在这个转向中补上两块枢纽拼图:一个薪金"怎样评估",一个薪金"怎样进修"。
跟着 Cosmos 3 等 Physical AI 视频寰宇模子干涉 R-Bench 榜单并取得开源 Top-1,具身视频生成的竞争也正在从单纯比拼视觉效用,转向更接近的确寰宇的物理通晓和任务奉行才能。
关于开源社区而言,这不详是一个更蹙迫的信号:Physical AI 的进展,不单属于闭源模子和交易系统,也可以确立在敞开评测、敞开数据和敞开模子共同演化的基础之上。
按团队的谋划,下一步还会去作念从生成视频反推可奉行径作的 Inverse Dynamics Model,进一步买通视频生成、战术学习和真机部署之间的闭环。
视频生成模子的下一站,不详的确不仅仅拍电影,而是模拟、通晓,并参与的确的物理寰宇。
团队配景
这支团队叫DAGroup,来自北京大学,讲求东谈主是周大权。

周大权的阅历,正值踩在此次职责的题眼上。
他从 2022 年就初始作念视频生成,是最早一批入场的东谈主之一——
代表作 MagicVideo 是业界最早的隐空间扩散视频模子之一,自后还有 MagicVideo-V2、StoryDiffusion、Magic-Me 等一系列职责。

在腾讯混元视频模子 HunyuanVideo 中,他领导了模子预进修与扩散算法假想团队。
更早之前,他在模子与硬件效用标的也颇有蓄积,Coordinate Attention 曾被列为 CVPR 2020 最具影响力论文第 2 名。

如今回到北大作念助理造就,他把盘考要点放到了机器东谈主、AIGC 和 VLA 上。
他自述,我方的盘考持久带着一条"用最少的算力和内存,跑最强的算法"的干线。
除 R-Bench/RoVid-X 外,DAGroup 还在激动 HumanNet、StableVLA 等多个具身与寰宇模子标的的开源名目。
论文地址:
https://arxiv.org/abs/2601.15282
Project Page:
https://dagroup-pku.github.io/ReVidgen.github.io/
GitHub 地址:
https://github.com/DAGroup-PKU/HumanNet
R-Bench Leaderboard:https://huggingface.co/spaces/DAGroup-PKU/Leaderboard
RoVid-X Dataset:https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/
— 迎接 AI 产物从业者共建 —
� �「AI 产物学问库」是量子位智库基于持久产物库跟踪和用户步履数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、盘考者的中枢信息要道与方案搭救平台。

一键暄和 � � 点亮星标
科技前沿进展逐日见百家乐IOS/安卓通用版/手机APP下载