
资料来源:DeepTech认为,使用DeepSeek-R1模型的人在给出答案之前在思考过程中并不陌生。这也是高度尊重包括DeepSeek-R1在内的巨大推理模型(LRM,大型推理)的原因之一。但是,一支由六名苹果研究人员组成的团队对此提出了要求。通过让模型解决各种难题,研究团队发现,DeepSeek-R1,O3-Mini和Claude-3.7-NON Thinky是大量认识的主要模型,在超过特定的复杂阈值之后,其准确性将完全下降。值得注意的是,机器学习研究机器学习研究高级总监Samy Bengio是本文的合着者。他不仅是Turing Award Yoshua Bengio的获奖者的弟弟,而且还是Google Brain Group的MGA第一成员之一。照片|六张纸,萨米·本格奥(Samy Bengio),第二右是(来源:数据)x网民,总结了苹果是Gary Marcus一次,实际上,加里·马库斯(Gary Marcus)本人已被派往LinkedIn,以确认苹果的角色。他写道:“苹果在大语言模型中的'识别能力中的最新角色有些惊人。我解释了周末发表长篇文章的原因(并探讨了可能的异议),以描述为什么人们不应该感到惊讶。”他在加里·马库斯(Gary Marcus)的“周末文章”中写道:“这个新论文苹果进一步证实了我自己的关键点:即使是最新的所谓的“推理模式”简单规模扩展,但失败了,但反复失败(始终无法在'gpt-5'中获得技术可比性的成功,值得'gpt-5')。 https://garymarcus.substack.com/p/a-knockout-flow-for-clms),那么这个“坏消息”还是“好消息”吗?让我们从Apple中的本文的详细信息开始。最多可以完成100个正确的操作,但可以提供不超过5个步骤。苹果研究来自三种不同模式的RECOGNITION:在低复杂的任务中,平均大型语言模型的性能要比大型概念模型更好;复杂的,推理所需的努力已减少到违反直觉,这表明对大型理解模型的计算量表的大小可能存在自然的上限。研究小组说,这些观点对大型理解模式的能力提出了基本假设的挑战,并建议当前的方法可能存在实现整体理解的关键障碍。最值得注意的是,研究团队观察到了了解准确计算的性能的大型模型的局限性。例如,当为模型提供了数学拼图游戏Hanno Tower的解决方案时,他们在此问题上的性能并没有改善。此外,对模型的第一个伪造的深入回顾显示出意外的行为模式。例如,该模型最多可以完成100在汉诺威塔中正确的动作,但它不能为穿越河拼图的逻辑推理游戏提供正确的5个步骤。总的来说,研究小组认为,这一角色不仅具有现有的大型理解模式的好处,而且表达了其局限性。研究的主要结论如下:首先,研究团队质疑当前大型理解已建立数学基准的大型模型的回顾范式,并使用算法拼图环境设计了一个对照试验平台。其次,研究团队实验表明,即使是最先进的大型理解模型(例如O3-Mini,DeepSeek-R1,Claude-3.7-Connet Inkining Inkinging)仍然无法开发一般的解决问题能力。在不同的环境中,当问题的复杂性超过一定阈值时,其准确性最终会降低到零。第三,研究茶M发现,大量的理解模型的扩展有限,与问题的复杂性与识别能力的复杂性有关,这可以通过达到一定复杂性的思维令牌数量的下降过程来证实。第四,研究团队根据最终准确性对范式的当前评估进行了质疑,审查表明,随着问题的复杂性的增加,与错误的解决方案相比,正确的解决方案将在理解过程中进一步落后。第五,研究团队宣布了大型模型的惊人范围,了解准确的计算能力实践,包括无法从显式算法中受益,以及了解不同类型的难题的不一致之处。纠正大型理解模型的自我纠正的能力是有限的。据了解,大型理解模式 - 一种新的变体D从专门针对识别任务进行了专门优化的大型语言模型。这些模型是新技术的产品,其关键特征是独特的“思考”机制,例如具有自我反射能力的思想链,并且在许多理解的基准上都具有出色的性能。这些模型的发生标志着大语言模型与复杂的推理和解决问题的方式的范式转变。一些研究人员认为,这是迈向更一般人工智能能力的重要一步。尽管这些观点和性能已经存在,但大量理解限制的主要优势和设置仍未完全理解。未回答的一个基本问题是:大型理解模式是否能够概括?还是他们仅使用不同的模式匹配表格?随着问题的复杂性的增加,他们的绩效如何改变?提供的相同的计算预算的推理令牌,与标准大型模式语言相比,它们的执行方式没有“思考”机制?最重要的是,当前推理方法的自然局限性是什么?实现更强大的推理能力可能需要进行哪些改进?研究小组认为,当前范式分析的局限性导致对这些问题缺乏系统分析。现有测试主要集中在既定的数学基准和编码基准上。尽管这些基准具有一定的价值,但它们通常存在数据污染问题,并且在各种情况和复杂性下可能无法提供受控的实验条件。为了严格了解这些模型的推理,研究小组认为,需要具有岩浆控制实验的环境。直到今天,他们没有使用常见的基准(例如数学问题),而是采用了受控的拼图氛围,即通过在保持基本逻辑的同时调整拼图元素,以便可以系统地更改复杂性,并可以评估过程和内部过程。 (来源:数据图)这些难题具有以下特征:(1)可以良好的复杂性控制; (2)防止使用现有基准的常见污染; (3)您只需要清楚地提供政策,并强调算法的推理功能; (4)支持基于模拟器的强烈检查,该检查可以实现准确的解决方案检查和故障的详细评估。通过实证研究,他们宣布了有关当前大规模模型的一些主要发现:首先,尽管大型志向模型可以通过研究加强来学习复杂的自浪费机制,但他们未能开发解决问题计划任务的一般问题,并且在超过一定的复杂性之后的零绩效下降。第二,大R的研究团队的比较在识别识别的同等计算下,生态认知模型和标准大型模型揭示了三种不同的理解机制。第一种机制是为了简单,更少的组合问题,常见的大型模型显示出更高的效率和准确性。第二种机制是:虽然成为问题的问题逐渐增加,但大型理解模式正在获得优势。第三个机制是,当问题随着组成深度的增加而变得复杂时,两种类型的模型都会出现总体性能崩溃。 。 。此外,通过评估中间推理轨迹,研究团队发现了与问题复杂性有关的规律性现象,也就是说,在简单的问题中,推理模型通常很快找到正确的解决方案,但它仍然继续探索错误的选择,通常称为“”。在复杂性的介质中,需要通过大量探索模型E找到正确的解决方案之前,误差路径的数量。如果阈值的复杂性超过一定的复杂性,则该模型将找不到正确的解决方案。北京邮政与电信大学副教授Bai Ting告诉DeepTech,它与人类思维相同。尽管我不知道对于复杂问题的正确答案是什么,但我经常知道什么是不对的。具体而言,它与解决方案空间的大小相关联。简单问题的解决方案空间是由于逻辑链短和高功能。正确的解决方案通常在思维路径的前端很自然。由于多维变量的耦合和逻辑级别的巢穴,用于复杂问题的解决方案空间被指数扩展。解决方案空间是压倒性的,在PAG中,客观地证明是相对儿童的后期。 (来源:数据图)识别模型的“思考”中会发生什么?在研究中,大多数实验都是在理解模型和相应的非居住模型的模型上进行的,例如Claude 3.7十四行诗(带有推理/不合理)和DeepSeek-R1/V3。研究团队之所以选择这些模型,是因为与O Openai或系列不同,它们允许使用令牌。对于每个难题示例,研究团队开发了25个样本,并报告了每个模型的平均性能。为了更深入地了解思维模型的思维过程,研究团队对他们的理解痕迹进行了详细的审查。在这段时间里,他们通过构建环境不经验的难题,在模型的最终答案中实现了 - 深度分析,以便他们可以对所产生的理解轨迹(即“思维过程”)进行更详细的观察结果和评估。具体而言,他们使用拼图模拟器来提取和研究探索模型思维过程的中间解决方案SS。然后,他们回顾了这些解决方案的模式和特征,在理解过程中顺序位置的准确性以及随着问题的复杂性的增加,这些模式如何出现。对于本综述,研究团队致力于拼图组实验中克劳德3.7十四行诗推理模型产生的推理痕迹。对于痕迹中提到的每个中间解决方案,研究团队记录了以下内容:(1)其在推理轨迹中的相对位置(即使后悔的总长度正常化),(2)研究小组模拟器已证明其准确性,以及(3)相应问题的复杂性。它允许研究团队描述在整个理解过程中开发解决方案的发展和准确性。照片|位置之间的关系,中间解决方案与“思维”的准确性以及所有难题环境中问题的复杂性ENTS(资源:数据照片)研究团队发现,对于更简单的问题,理解模型通常会提前找到正确的解决方案,然后继续探索错误的解决方案。与正确的解决方案(绿色)相比,错误解决方案(红色)的分布明显移至思维链的末端。虽然问题的复杂性中度升高,但这是一种趋势逆转:AOF首先探讨了错误的解决方案,并且大多数解决方案都有正确的解决方案。目前,错误解(红色)的分布小于正确的解决方案(绿色)。最后,对于更复杂的问题,该模型开始崩溃,这意味着该模型在思维过程中无法提出任何适当的解决方案。下图提出了对采用段(间隔)中解决方案准确性的进一步评估 - 遵循汉诺威塔环境的思维。 。但是,对于更复杂的问题,S趋势变化 - 随着思维的出现,解决方案的准确性会增加,直到达到一定的阈值。除了这个复杂的阈值以外,在“崩溃模式”中,模型的准确性为零。 Bai Ting告诉DeepTech说,该模型需要许多提及复杂问题。在没有正确解决方案的前提下,模型的理解机制可能会采用效率代方法来产生许多迭代,这可能是避免如此多迭代的资源保护策略。因此,本文的发现需要从模型的实现级别进行详细的分析和验证。 Bai Ting指出,大型模型推理的过程可能是对内存模式的重要呼吁。对于诸如DeepSeek-R1和O3-Mini之类的模型,它们的性能高度依赖于训练数据上的记忆模式的发生率。当问题的复杂性破坏了范围记忆模式的范围(例如目前研究的P TeamApple设计的受控拼图环境),该模型属于“零精度”状态。虽然这种拼图环境可以通过对问题的复杂性进行细粒度控制的受控实验,但它们仅代表了推理任务的一小部分,并且可能无法获得现实世界中的问题或强化知识的变化。应当指出的是,这项研究基于黑匣子API对封闭的剪裁大型理解模型的主要访问,该限制阻止了研究团队分析内部状态或建筑组件。此外,在使用确定性的拼图模拟器时,研究团队假设其推理可以是一个完美证明的步骤。但是,在不太概述的域中,这种准确的验证是难以实现,从而将这种分析方法的转移限制为对理解的广泛理解。通常,研究团队通过受控的拼图解决环境从问题的复杂性的角度研究了大型羞耻模型。该结果显示了当前模型的局限性:尽管它们具有复杂的自我反射机制,但这些模型在超过一定的复杂性后仍无法发展一般的推理能力。研究小组认为,这一结果可能为理解这些模型的能力提供了一种方法。参考文献:https://ml-site.cdn-pple.com/papers/the-clusion-of-trinking.pdf操作/类型:He Chenlong