alibaba

alibaba / page-agent

#3
23,0932,006+742 todayTypeScript

基于JavaScript的页面内图形用户界面代理。

alibaba/page-agent 是一个基于TypeScript开发的页面内图形用户界面代理工具,通过自然语言控制网页界面。它无需浏览器扩展、Python环境或无头浏览器,仅通过页面内JavaScript实现所有操作。核心功能包括:基于文本的DOM操作(不依赖截图或多模态大模型)、支持自带大语言模型、提供美观的用户界面并支持人工介入。适用于SaaS AI助手(数行代码即可集成)、智能表单填写(将复杂工作流简化为一句话)、无障碍访问(通过语音命令或屏幕阅读器操作网页)以及多页面任务(配合可选的Chrome扩展)。该项目简化了网页自动化流程,降低开发门槛。

💡 应用场景

最适合为现有网页应用快速添加自然语言交互能力,无需后端改造或复杂部署。

SaaS产品AI助手

问题:SaaS产品开发者想为现有产品添加AI助手功能,但不想重构后端或依赖复杂的浏览器扩展。

方案:只需在前端页面中引入page-agent,用户就能用自然语言操作界面,无需后端改动或额外权限。

示例:在CRM系统中,用户可以说“将上个月销售额超过10万的客户标记为重点客户”,AI助手自动完成筛选和标记操作。

复杂表单智能填充

问题:企业ERP/CRM系统中有大量多步骤表单,用户需要反复点击和填写,操作繁琐易出错。

方案:通过page-agent将多步操作转化为一句话指令,自动完成表单填写和提交流程。

示例:用户输入“为新客户张三创建订单,产品A数量2,产品B数量1,使用公司标准合同模板”,系统自动完成客户创建、订单生成、合同配置等所有步骤。

无障碍网页操作

问题:视障用户或行动不便者难以通过传统鼠标操作复杂的网页应用。

方案:集成page-agent后,用户可以通过语音或文本指令直接操作网页元素,无需依赖屏幕阅读器的繁琐导航。

示例:用户说“打开收件箱,找到王经理的邮件,回复‘会议改到明天下午三点’并发送”,系统自动执行所有操作。

跨页面数据收集

问题:需要从多个网页收集数据时,传统方法需要编写复杂的爬虫脚本或手动复制粘贴。

方案:配合chrome扩展,page-agent可以在多个标签页间协调工作,自动完成跨页面的数据提取和汇总。

示例:在电商竞品分析时,指令“收集前3个竞品页面上的价格、评分和评论数”,agent自动在多个标签页中提取数据并整理成表格。

📊 项目信息

语言
TypeScript
Stars
23,093
Forks
2,006
今日新增
+742
排名
#3
收录
总榜
趋势日期
2026年7月4日
最后推送
2026/7/3

🏷️ 标签

TypeScript浏览器自动化自然语言控制轻量级易集成前端开发者AI代理

📸 截图

page-agent screenshot 1page-agent screenshot 2