知识图谱强化DRS:WebSailor智能导航与推理探索
作者:佚名|分类:百科常识|浏览:89|发布时间:2025-08-20
知识强化 DRS:WebSailor 的航行之道
WebSailor:超越人类推理的网页智能代理

【核心亮点】
个人认为,样本构建与DSPO是这篇论文的核心所在。
【样本构建】
如图-1所示,该论文旨在让DRS解决L3级别的任务(见图-2),这类任务通常缺乏明确的推理路径,需要逐步获取信息、进行比较,甚至可能包含多条推理路径。论文提出利用知识图谱来引导生成难题的思路。
问题和答案

- 从维基数据出发,结合互联网中的数据,进一步丰富知识图谱的信息(通过搜索、访问再用LLM见图-3)。
- 采集子图样本,这些子图中不仅包含线性推理结构,还包含复杂的分支和循环信息。
- 利用强模型对图谱信息进行并生成问题和答案。
- 构建混淆问题,隐藏掉问题中的关键信息或添加干扰信息,以提高鲁棒性。
路径

- 利用LRM逐步生成调用工具和cot。
- 为了防止cot过长,使用另一个模型进行压缩和但根据论文,并没有使用LRM的CoT。
- 过滤掉结果不正确的路径和过于简单的问题(8条路径都正确)。
【DUPO】
如图-4所示,这可以看作是DAPO的扩展。之前未曾了解过DAPO,学习后会回来补充。
【讨论】
- 利用知识图谱构建样本的思路确实巧妙,但仅仅如此就能使LLM具备多个信息源头交叉对比的能力吗?
- 感觉这个思路可以进一步扩展,比如结合私域的知识图谱,再通过公网搜索增强图谱的信息,最后基于此生成样本。
- 不明白为何要使用LRM生成next-action?
(责任编辑:佚名)