
研究小组讨论了Videoworld模型的开发。 ■该记者王·鲁克西亚(Wang Ruixia)在《黑白世界》中的记者温·凯蒂(Wen Caifei),在北京北京大学计算机科学技术学院实验室进行了非常颠覆性的竞赛。在屏幕上,黑白国际象棋碎片是替代的。黑色手式人工智能(AI)国际象棋参与者在整个过程中没有使用任何语言说明。他通过观看数千片视频播放大师的视频,最终在他的5阶段击败了他的男人的对手,从而自由地理解了Go的政策。令人惊叹的“成功”是一个很棒的VideoWorld首次亮相,它是由北京Jiotong University和Doubao Big Model团队开发的实验性视频公司的视频。自然界传统AI模型的Insperationn,例如依靠词典孩子的孩子,他们应该使用语言标签或奖励机制来实现缠绕世界。有一个教会的榜样,有必要用文本说明仔细地决定这一动作,例如“将左手握在左侧,并用右手握住右手右手”。面对复杂的任务时,语言描述的局限通常会成为不一致的障碍,导致AI不执行任务。 Videoworld的出现将新的研究思想带入了视觉推理。该模型仅依靠视频数据,允许机器独立学习并掌握复杂功能,例如推理,计划和决策。与传统程序不同,无需依靠常见的搜索算法或奖励机制,而在行业中,它首次实现了对不依赖语言模型的世界的认识。 “我们的灵感来自自然。” Videoworld项目负责人兼北京Jiaotong Unive教授Wei Yunchaorsity's School of Computer Science and Technology, is introduced, "Primes such as gorillas get safety skills by observing similar species of species and imitating social behavior. Based on the above concept, the team has developed a potentially dynamic model to compress dynamic changes between video frames in great features. This allows AI to master the complex kasResist like a baby person by spinning "observation, imitation, and training" and greatly improving the efficiency and effectiveness of learning knowledge. Experimental结果表明,带有300MB参数的视频在机器人控制场景中达到了5个职业生涯,录像带成功地完成了诸如机器人ARM操作和项目分类之类的任务。发现很难为了加快语言模型轨迹,我们选择返回视觉的本质,并探索有关涉及复杂活动的视频生成模型的可能性。 "This choice comes from the team's deep perspective on industrial illnesses - Language is difficult to cover massive information in the real world, and video, as the main bearer for people to get information, contains more rich knowledge. The way to R&D is not smooth. Wei Yunchao says that first, nothing is ahead of Recognition, and the lack of reference methods, the performance of the baseline model is difficult to accurately accurately, and the team will have to take the effective features from the videoIn fact, the团队最终选择了国际象棋游戏作为实验场景,因为他们已经在AI领域拥有广泛的应用基础。绩效评估。受到大语言模型的成功体验的启发,项目团队决定使用类似于语言模型的“下一个标记预测”方法来训练该模型。但是,在对基线模型的培训和评估中,团队发现了许多瓶颈,并且该项目以前被卡住了。在接下来的几个月中,团队提出了各种改进。在重复重复尝试和摘要之后,他们发现有效的压缩视频变化是理解开发模型的能力的关键。这一发现最终建立了VideoWorld的技术路线:潜在的动态模型通过动态压缩功能和时空关系建模提高了40%的视频学习效率,并为模型解释开辟了新的途径。 “从2024年2月的项目启动到2025年2月,CVPR被国际会议的CVPR接受电机和电子工程师协会(IEEE)的计算机视觉和模式识别。今年,我们的研究开发了大约10TB的工作数据和模型文件,并进行了1,000多次验证实验。每个失败都是成功的基础。我们需要保持耐心和韧性,培养独立的思维和独立的验证能力,并学习契据本质,问题的本质。这些基本经验已成为他未来在科学生涯中的重要主人。在广泛的AI研究领域中,VideoWorld在广泛的领域中使用了“视觉之眼”,为探索带来了独特的途径。Wei Yunchao介绍了该模型致力于从视频中挖掘知识,而无需标记并实现从特定任务策略到高级观察和计划的LeapFrog研究。与传统方法(例如增强研究,基于文本的研究和研究)相比,VideoWorld显示了三个主要好处:首先,具有统一的视觉表示,它显示出更强的一般能力,用于不同的活动和交互式接口,并且可以轻松地将知识应用于不同的情况;其次,它忽略了乏味的手机批准过程,从而大大减轻了预处理数据的负担,从而使研究人员能够集中更多的研究能量和主要算法的发展;第三,与依靠文本描述的研究方法相比,VideoWorld可以捕获更丰富和三维现实世界的信息,这就是Ginaai认知更接近人类对世界的理解的真实规模。目前,viDeoworld的代码,数据和模型是在IEE国际计算机愿景和模式识别协会提案中提出的,以发布CVPR 2025,并在学术界全力以赴地发出激烈的讨论。 “尽管Videoworld证明了纯视觉认知的可行性,但它仍然可以证明概念。” Wei Yunchao指出:“收到论文后,我们开始了下一个研究阶段。我们研究了如何使用VideoWorld的想法来解决更实用和复杂的问题,例如烹饪,通过视频安排,甚至了解幽默或隐喻。”从希望“拐杖”到“视觉眼”,Videoworld向AI认知范式注射了新的动力。正如团队在纸上写道的那样,“当机器学会用眼睛读取'世界时,它们可能更接近真正的通用智能。”