
一个可以“认为”的目标发现模型在这里!想法推荐rex-thinker:基于思维链对象检测的模型参考,在准确性方面取得了双重成功 +解释
标题:雷克斯 - 思想家在日常生活中的思维过程,我们经常通过语言描述找到特定的物体:“穿着蓝色衬衫的人”和“桌子左侧的杯子”。 AI将如何准确理解说明和位置目标一直是计算机视觉的主要挑战。现有方法通常受到两个主要问题的干扰:制定过程(“黑匣子”预测)和识别能力不足(未存在的对象的输出错误结果)。图1:发现此类应用方案的示例,想法提出了一种新的解决方案Rex-Inker,该解决方案首次将“逻辑推理链”引入了人类思想中的“逻辑推理链”,这是第一次在视觉转介活动中,允许AI思考并证明证据作为步骤作为一个步骤。一个人。在权威分析中,不仅准确性有显着提高,而且还表现出强大的“知道您知道的知识”的能力!项目主页:https://rexthininker.github.io/在线演示:https://huggingface.co/spaces/mountchicken/rex-dinkerdemo纸质地址:https://arxiv.org/abs/2506.04034开放式代码:让AI知道“考虑到“ 13个步骤”的传统模型直接输出对象检测框架,而雷克斯 - 思考器是可解释的推理框架的创新构造:1。计划(计划)将拆卸语言说明:“找到乌龟为每个目标候选人(例如“人1”和“ persone 1”和“人类”的特定步骤,该方面的特定步骤与人类的特定步骤相匹配。图)(摘要验证,输出坐标或符合目标“未找到”的陈述图2:REX-THINKER推理示例模型模型:基于基于检索的检测多峰模型设计 + COTER刺激结构:Resival检测检测检测多模型模型设计 +图3:3。REX-THENINGER采用了基于模型的设计搜索的策略,首先是通过“ Discovery of Discovery”候选框来挑选所有候选框,然后将所有候选框用于候选框,然后将候选框输入候选框,并插入候选框,并将其输入候选框,并将其插入候选框,并将其输入候选框,并将其插入候选框。理解,最后输入答案。具体来说,每个步骤均为:1。候选候选人:使用开放的词汇探测器(例如接地Dino),以提前将所有可能的目标区域视为拳击; 2. COT推理:给定一个候选框,分别比较模型和因素,并生成一个结构化的思维过程...以及最终的答案。...整个过程的输入提示如下:图4。Rex-Inkinker的输入提示。 3。输出格式:TARG的最终输出ET坐标的标准化JSON格式。该设计不仅会阻止直接恢复坐标的困难,而且还可以使推理的每个步骤都具有图像基础,从而提高了推理的解释性和凭据。培训过程:SFT冷启动 + GRPO后培训。为了创造强大的推理能力,为了创造人类推理的能力,关键是要教会它如何逐步思考。直到今天,Rex-Thinker一直采用两阶段的培训策略,从开发高质量倾斜数据集开始。图5:HumanRef-Cot构建过程1。首先,基于现有的HumanRef数据集(集中于许多角色参考),首先使DataNet HumanRef-Cot识别识别,该团队会自动使用GPT-4O和开发的HumanRef-Cot开发90,000个链条理解示例。主要特征包括:完整的趋势Kadena:每个样本都是根据Wi严格形成的识别“计划(绩效) - 填充(摘要)的过程。不同的推理情况:涵盖复杂的描述,例如单口项,多用途,特征的组合,空间关系,交互性行为,交互式行为等。学习“如何思考”。认识“子集。下降标记增加了13.8个百分比TS,表明链链的引入显着增强了模型识别“无目标”的能力。另外,GRPO中的补充会在COT的基础上带来额外的性能改进,平均DF1提升为83.5。与单个路径的管理研究相比,GRPO引导的模型通过奖励机制探索了更好的推理路径,从而显着提高了复杂情况下判断的稳定性和准确性。表2 REX思维器的概括在Refcocog数据集中导致REX-THENINGER在Refcocog数据集中的跨类别检查中还显示出很大的传输功能。没有任何针对性的微调,该模型仍然可以准确降低目标位置并反映出色的慷慨能力。通过调整少量的recocog grpo,该模型的性能是附加方法,甚至超过现有的基本方法,这证实了过程的可伸缩性在新类别和新活动中。可视化结果让下一个显示REX-INGINGER认知过程的纪念,以及条件验证和最终决策输出的每个步骤。该图清楚地表明了该模型如何逐渐寻找图像中的目标,如何确定是否满足条件以及结果最终输出或拒绝预测。这些可视化不仅反映了对模型的出色理解,还突出了其理解道路的清晰度和解释性。尤其是在存在许多干扰术语或不存在目标的情况下,雷克斯思维器可以提供详细的负面推理,并显示“知道您所知道的,但不知道您不知道的内容”的能力。在传统的视觉模型中,这种功能非常罕见,具有应用程序应用的实用机制。