金鼎娱乐(中国)棋牌老黄吹的Cosmos 3, 在一个北大团队作念的榜单上拿了第一

发布日期：2026-06-07 09:45 来源：未知作者：admin 浏览次数：

金鼎娱乐(中国)棋牌老黄吹的Cosmos 3，在一个北大团队作念的榜单上拿了第一

刚刚曩昔的GTC Taipei上，最备受关心的，莫过于Cosmos 3。

这是一个总共开源的物理AI全模态模子。老黄暗示，Cosmos 3活着界生成这项上，在Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench四个开源榜单上均列第一。

前三个bench都算业界比较眼熟的，而R-bench——我有益查了查，这个让Cosmos 3霸榜的榜单，竟出自一支北大团队。

这篇职责已被ICML 2026领受，名字叫《Rethinking Video Generation Model for the Embodied World》，来自北京大学、字节相当Seed等机构的盘考团队。

他们提议了面向具身寰宇的视频生成评测与数据基础设施：R-Bench+RoVid-X。

值得留意的是，在作家列内外，字节Seedance 2.0的预覆按庄重东说念主曾妍，也赫然在列。

R-Bench：专门给机器东说念主视频生成请的“考官”

Cosmos 3是英伟达此次GTC Taipei的主角之一。

按老黄的说法，它是环球首个总共开源的物理AI全模态模子，基于一种mixture-of-transformers架构，能在一个模子里同期证据和生成文本、图像、视频、环境声息，乃至机器东说念主的动作。

Nano和Super两个尺寸，都也曾挂上了Hugging Face。

天博体育(TBSports)官方网站

换句话说，Cosmos 3要作念的不是“拍出顺眼的视频”，而是给机器东说念主、自动驾驶这些要在真实寰宇里干活的系统，生成“物理上说得通”的数据。

但问题它就来了。

一个模子生成的机器东说念主视频，到底是不是“物理上说得通”，该用什么来预计？

曩昔一年，视频生成的故事简直都绕着兼并个问题伸开：谁能拍得更显豁、更相识、更有电影感。

但在机器东说念主场景里，画质顺眼是一趟事，能不行用又是另一趟事。

淌若一个模子能生成传神的机械臂，却让夹爪穿过物体；能让机器东说念主看起来“动起来”，却无法完成抓取、摈弃、回身、相助等任务，那么它距离Physical AI需要的“寰宇模子”，仍然隔着一条界限。

R-Bench的中枢起点，便是把视频生成模子从“视觉生成器”放到“物理寰宇模拟器”的语境下再行评估。

它不单看画面是否传神，而是系统性预计模子是否能生成适合具身任务逻辑和物理抑止的视频。

具体而言，R-Bench是一个以机器东说念主为中心的视频生成评测基准，包含650个图像-文本评测样本，从5类任务智商和4类机器东说念主格式两个维度构建。

在职务维度上，R-Bench遮蔽操作奉行、空间相关、多主体相助、万古计较和视觉推理；在机器东说念主格式维度上，遮蔽单臂、双臂、四足和东说念主形机器东说念主。

这么的策画让R-Bench不再只问“视频像不像”，而是进一步追问：

机器东说念主有莫得着实战斗到目的物体？

任务枢纽方法是否好意思满出现？

多个物体或多个主体之间的相关是否合理？

机器东说念主格式在通顺经由中是否保持相识？

万古序动作是否适合任务逻辑？

因此，R-Bench不仅仅一个名次榜，更可以行为机器东说念主视频生成数据的“物理质料过滤器”：

它能够评估生成视频是否欢快战斗相关、动作措施、格式相识性和任务完成度等物理抑止，从而匡助筛选出更适合物理法例、可用于具身智能覆按的数据。

为了捕捉这些问题，R-Bench策画了一套可复现的自动化评测目的体系，能够识别机器东说念主格式畸变、物体属性漂移、部件漂流或穿模、无战斗抓取、虚拟出现物体、枢纽动作缺失等常见失败模式。

值得留意的是，R-Bench的自动打分，和东说念主工评测的Spearman磋磨通盘达到0.96。

这意味着它不仅仅个自动跑分器用，在很猛进度上对皆了东说念主类对“物理合分歧理”“任务完没完成”的判断。

榜单上还能看到什么？

在最新R-Bench Leaderboard中，Cosmos 3系列也曾成为开源社区最亮眼的模子之一。

Cosmos3-Nano以0.584的详尽得分位列RBench开源模子第一，Cosmos3-Super紧随其后，拿到0.581。

放到通盘榜单里看，这传递出两个信号。

一所以物理AI为目的覆按的视频寰宇模子，也曾初始在机器东说念主图像到视频生成上展现竞争。

比较传统通用视频模子，它的上风不单在画质，更在于更接近具身智能需要的物理模拟与动作延展智商。

二是闭源贸易模子详尽智商仍然起原，金鼎娱乐中国最新官方网址但开源正在快速追逐。

对盘考社区来说，这种“开源能打”的信号，比单个模子更强更伏击。

而比排名更有价值的，是RBench照出来的几处共性短板：

清雅操作照旧老浩劫。出动、回身这类大幅动作模子也曾作念得可以，但抓、持、拧、插、摈弃这些对战斗建模条目高的动作，最容易出错。

万古计较仍是弱项。视频看起来连贯，不代表任务逻辑正确，模子可能动作流通却漏掉枢纽方法，或者把措施搞反。

通用学问和机器东说念主数据没“合上”。纯通用视频有丰富的寰宇学问但缺机器东说念主交互，纯机器东说念主数据又经常范畴有限、格式单一。

从这个角度看，R-Bench更像一面镜子，把视频模子在物理寰宇里的真实软肋照了出来。

RoVid-X：400万条机器东说念主视频，开源了

发现了问题，下一步便是喂数据。这恰是RoVid-X要责罚的事。

团队也曾在Hugging Face上开源了RoVid-X的伏击子集（300万条机器东说念主视频），上线后热度攀升很快——它在Datasets Trending 的Video模态大范畴数据聚拢排名第一，在一说念6.5万多个Video模态数据集的全体Trending里也位列第九。

这反应了RoVid-X行为面向机器东说念主视觉/视频证据的大范畴数据资源，在开源社区中的快速影响力。

数据集的好意思满版范畴达到400万条机器东说念主视频片断、1300+细粒度妙技、1万+小时实验，区分率720P，并附带RGB、深度、光流等多模态物理标注。

和通用互联网视频不同，RoVid-X要让模子战斗的是更接近真实的机器东说念主交互经由：物体如何被抓取、机械臂如何接近目的、任务如何被解析、动作和环境如何共同变成物理抑止。

这种数据关于视频寰宇模子尤其枢纽。因为物理证据不是通俗靠教唆词补出来的，而需要模子在大都交互数据中学习战斗、措施、力学相关和结构相识性。

实验杀青也露馅，引入RoVid-X数据后，模子在具身任务中的施展能够赢得相识普及。

举例在Wan系列模子上，经过RoVid-X微调后，模子在操作奉行、万古计较和空间证据等维度均有彰着改善。

这讲明高质料、结构化的机器东说念主视频数据，如实能够普及视频生成模子面向具身场景的可奉行性与相识性。

这项职责的酷好，不单在于多了一个benchmark和一个dataset，而是把视频生成放进了物理AI的语境里再行注视。

曩昔视频生成更多办事于实验创作：告白、短片、殊效。往后，它可能成为机器东说念主覆按、仿真环境构建和具身智能数据闭环的基础设施。

当模子初始证据战斗、措施、结构相识性和动作后果，“生成一段看起来合理的视频”就在向“可用于物理寰宇推演的寰宇模拟引擎”集中。

R-Bench和RoVid-X是在这个转向中补上两块枢纽拼图：一个修起“如何评估”，一个修起“如何覆按”。

跟着Cosmos 3等Physical AI视频寰宇模子干预R-Bench榜单并取得开源Top-1，具身视频生成的竞争也正在从单纯比拼视觉杀青，转向更接近真实寰宇的物理证据和任务奉行智商。

关于开源社区而言，这能够是一个更伏击的信号：Physical AI的进展，不单属于闭源模子和贸易系统，也可以建立在通达评测、通达数据和通达模子共同演化的基础之上。

按团队的计较，下一步还会去作念从生成视频反推可奉行为作的Inverse Dynamics Model，进一步买通视频生成、战略学习和真机部署之间的闭环。

视频生成模子的下一站，能够真实不仅仅拍电影，而是模拟、证据，并参与真实的物理寰宇。

团队布景

这支团队叫DAGroup，来自北京大学，庄重东说念主是周大权。

周大权的阅历，碰巧踩在此次职责的题眼上。

他从2022年就初始作念视频生成，是最早一批入场的东说念主之一——

代表作MagicVideo是业界最早的隐空间扩散视频模子之一，其后还有MagicVideo-V2、StoryDiffusion、Magic-Me等一系列职责。

在腾讯混元视频模子HunyuanVideo中，他领导了模子预覆按与扩散算法策画团队。

更早之前，他在模子与硬件效力目的也颇有积聚，Coordinate Attention曾被列为CVPR 2020最具影响力论文第2名。

如今回到北大作念助理教师，他把盘考要点放到了机器东说念主、AIGC和VLA上。

他自述，我方的盘考恒久带着一条“用最少的算力和内存，跑最强的算法”的干线。

除R-Bench/RoVid-X外，DAGroup还在鼓励HumanNet、StableVLA等多个具身与寰宇模子目的的开源样式。

论文地址：https://arxiv.org/abs/2601.15282

Project Page：https://dagroup-pku.github.io/ReVidgen.github.io/

GitHub地址：https://github.com/DAGroup-PKU/HumanNet

R-Bench Leaderboard：https://huggingface.co/spaces/DAGroup-PKU/Leaderboard

RoVid-X Dataset：https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/金鼎娱乐(中国)棋牌

金鼎百家乐

金鼎娱乐(中国)棋牌 老黄吹的Cosmos 3, 在一个北大团队作念的榜单上拿了第一

金鼎娱乐(中国)棋牌老黄吹的Cosmos 3, 在一个北大团队作念的榜单上拿了第一