热门搜索：

知识图谱强化DRS：WebSailor智能导航与推理探索

作者：佚名|分类：百科常识|浏览：89|发布时间：2025-08-20

知识强化 DRS：WebSailor 的航行之道

WebSailor：超越人类推理的网页智能代理

知识图谱强化DRS：WebSailor智能导航与推理探索

【核心亮点】

个人认为，样本构建与DSPO是这篇论文的核心所在。

【样本构建】

如图-1所示，该论文旨在让DRS解决L3级别的任务（见图-2），这类任务通常缺乏明确的推理路径，需要逐步获取信息、进行比较，甚至可能包含多条推理路径。论文提出利用知识图谱来引导生成难题的思路。

问题和答案

知识图谱强化DRS：WebSailor智能导航与推理探索

从维基数据出发，结合互联网中的数据，进一步丰富知识图谱的信息（通过搜索、访问再用LLM见图-3）。
采集子图样本，这些子图中不仅包含线性推理结构，还包含复杂的分支和循环信息。
利用强模型对图谱信息进行并生成问题和答案。
构建混淆问题，隐藏掉问题中的关键信息或添加干扰信息，以提高鲁棒性。

路径

知识图谱强化DRS：WebSailor智能导航与推理探索

利用LRM逐步生成调用工具和cot。
为了防止cot过长，使用另一个模型进行压缩和但根据论文，并没有使用LRM的CoT。
过滤掉结果不正确的路径和过于简单的问题（8条路径都正确）。

【DUPO】

如图-4所示，这可以看作是DAPO的扩展。之前未曾了解过DAPO，学习后会回来补充。

【讨论】

利用知识图谱构建样本的思路确实巧妙，但仅仅如此就能使LLM具备多个信息源头交叉对比的能力吗？
感觉这个思路可以进一步扩展，比如结合私域的知识图谱，再通过公网搜索增强图谱的信息，最后基于此生成样本。
不明白为何要使用LRM生成next-action？

(责任编辑：佚名)