当前位置:首页 / 百科常识

知识图谱强化DRS:WebSailor智能导航与推理探索

作者:佚名|分类:百科常识|浏览:89|发布时间:2025-08-20

知识强化 DRS:WebSailor 的航行之道

WebSailor:超越人类推理的网页智能代理

知识图谱强化DRS:WebSailor智能导航与推理探索

【核心亮点】

个人认为,样本构建与DSPO是这篇论文的核心所在。

【样本构建】

如图-1所示,该论文旨在让DRS解决L3级别的任务(见图-2),这类任务通常缺乏明确的推理路径,需要逐步获取信息、进行比较,甚至可能包含多条推理路径。论文提出利用知识图谱来引导生成难题的思路。

问题和答案

知识图谱强化DRS:WebSailor智能导航与推理探索
  1. 从维基数据出发,结合互联网中的数据,进一步丰富知识图谱的信息(通过搜索、访问再用LLM见图-3)。
  2. 采集子图样本,这些子图中不仅包含线性推理结构,还包含复杂的分支和循环信息。
  3. 利用强模型对图谱信息进行并生成问题和答案。
  4. 构建混淆问题,隐藏掉问题中的关键信息或添加干扰信息,以提高鲁棒性。

路径

知识图谱强化DRS:WebSailor智能导航与推理探索
  1. 利用LRM逐步生成调用工具和cot。
  2. 为了防止cot过长,使用另一个模型进行压缩和但根据论文,并没有使用LRM的CoT。
  3. 过滤掉结果不正确的路径和过于简单的问题(8条路径都正确)。

【DUPO】

如图-4所示,这可以看作是DAPO的扩展。之前未曾了解过DAPO,学习后会回来补充。

【讨论】

  1. 利用知识图谱构建样本的思路确实巧妙,但仅仅如此就能使LLM具备多个信息源头交叉对比的能力吗?
  2. 感觉这个思路可以进一步扩展,比如结合私域的知识图谱,再通过公网搜索增强图谱的信息,最后基于此生成样本。
  3. 不明白为何要使用LRM生成next-action?

(责任编辑:佚名)