用多模态模型,写新一代爬虫

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
用多模态模型,写新一代爬虫
7956点击    2025-04-02 16:09

字节有一个很实用但不怎么火的项目,叫 Midscene.js,Chrome 商店上的安装数仅有 1 万,它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到,但我发现它特别适合用来写爬虫……


Midscene.js 一共就三大 API:Action、Query、Assert


Action 交互


描述步骤并执行交互。例如,在 GitHub 上交互:查找 GitHub 上的 Twikoo 项目,点进详情页,点个 Star——


用多模态模型,写新一代爬虫


Query 提取


从 UI 中“理解”并提取数据,返回值是 JSON 格式,想要什么数据结构,它都可以给你。例如,在面试题宝典网站上提取:string[],所有面试题目——


用多模态模型,写新一代爬虫


Assert 断言


判断是否符合指定条件。例如,在智能家庭页面断言:电脑是关着的——


用多模态模型,写新一代爬虫


大模型支持情况


项目最初仅支持 GPT-4o 模型,跑一行用例的成本在 ¥0.1 左右,还挺贵的,后来支持了 Qwen-2.5-VL 和 UI-TARS,成本就大幅降低了。以下就以千问模型为例,带领大家上手这个神奇的插件。


安装


可以直接从 Chrome 商店安装:

https://chromewebstore.google.com/detail/midscene/gbldofcpkknbggpkmbdaefngejllnief


配置


从浏览器右上角的插件菜单中打开 Midscene.js 的侧边栏,会提示 No config,点击按钮会弹出 Env Config 的设置框,在里面配置以下变量


OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"

OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

MIDSCENE_MODEL_NAME="qwen-vl-max-latest"

MIDSCENE_USE_QWEN_VL=1


其中的 OPENAI_API_KEY 需要你自己申请,申请的地址是:

https://bailian.console.aliyun.com/?apiKey=1#/api-key


以上链接不包含推广,如果你是首次开通阿里云百炼,新用户是有免费额度的,请注意额度的有效期,避免浪费~


测试


接下来用自然语言随便写一条指令,点击 Run 按钮,见证 AI 开始接管你的浏览器……


代码集成


接下来我们尝试编写爬虫,组合这三大 API,完成复杂的自动化任务。


建一个新的 Node.js 项目,安装所需的依赖——


pnpm install @midscene/web tsx --save-dev


编写脚本 main.ts,执行你想要进行的操作,例如,打开必应,输入 iMaeGoo 点击搜索,并输出搜索结果——


import { AgentOverChromeBridge } from"@midscene/web/bridge-mode";


functionsleep(ms: number) {

returnnewPromise((r) =>setTimeout(r, ms));

}


asyncfunctionmain() {

process.env.OPENAI_BASE_URL =

"https://dashscope.aliyuncs.com/compatible-mode/v1";

process.env.OPENAI_API_KEY = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";

process.env.MIDSCENE_MODEL_NAME = "qwen-vl-max-latest";

process.env.MIDSCENE_USE_QWEN_VL = 1;

const agent = newAgentOverChromeBridge();

// 这个方法将连接到你的桌面 Chrome 的新标签页

// 记得启动你的 Chrome 插件,并点击 'allow connection' 按钮。否则你会得到一个 timeout 错误

await agent.connectNewTabWithUrl("https://www.bing.com");

// 这些方法与普通 Midscene agent 相同

await agent.ai("输入 iMaeGoo 点击搜索");

const result = await agent.aiQuery(

"{title: string, url: string}[], 搜索结果"

);

console.log("搜索结果", result);

awaitsleep(3000);

await agent.destroy();

}


main();


启动你的 Chrome 插件,点击 Bridge Mode,再点击 'Allow connection' 按钮——


用多模态模型,写新一代爬虫


随后运行脚本——


pnpx tsx main.ts


可以看到脚本成功打印出了搜索结果——


用多模态模型,写新一代爬虫


文章来自于“虹墨iMaeGoo”,作者“iMaeGoo”。


用多模态模型,写新一代爬虫

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/