Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
REPO 726 STARS 约 1 分钟

网页操作搬进页面内:Page Agent 用自然语言接管 GUI

Page Agent 把浏览器 Agent 嵌进网页,用一句话完成点击、输入等操作。

IMAGE — GitHub Trending(全语言·日榜)

网页自动化通常要靠扩展、Python 或无头浏览器从外部“遥控”。Page Agent 换了条路线:把 GUI Agent——能听懂目标并代替用户点击、输入的代理——直接装进网页,用自然语言接管界面。项目单日新增 726 星,值得关注之处正是浏览器 Agent 开始从外部工具变成产品内置能力。

它只需页内 JavaScript,不要求截图、多模态模型或特殊权限。模型读取并操作 DOM——浏览器对 HTML 页面生成的树状对象结构——按文本化的元素和属性寻找控件。开发者可以自带 LLM;官方还给出表单填写、SaaS Copilot 和无障碍交互等用途。多页面任务可选 Chrome 扩展,也提供 Beta 版 MCP Server,供外部 Agent 客户端控制浏览器。

边界也很明确:作者将 Page Agent 定位为客户端网页增强,而非服务端自动化;免费 Demo LLM 与 CDN 仅供技术评估,材料未披露成功率、延迟或复杂网站上的稳定性。


供稿材料 SOURCES — 1
01
alibaba/page-agent GitHub Trending(全语言·日榜) · REPO
原文 ↗

← 返回 2026-07-05 · 开源板块