大家好!我是舰长🙏. 最近在舰长扣子Coze交流群中最新组织了一次快闪活动,邀请了影刀RPA晴岚老师,技术讲解如何搭建《通过关键词批量抓取小红书涨粉吸睛情报》的影刀RPA工作流.效果十分不错,这不舰长将RPA和Coze进行了一次结合,并撰写了这篇文章。
咱们今天就来讲讲《通过行业热词,批量抓取小红书涨粉吸睛数据的RPA结合扣子全自动导入飞书在线文档》那咱话不多说,来我们直接看效果:
整个流程消耗时间非常的可观,2分钟之内就完成全流程跑动。小红书内容都被抓取到飞书表格中了。
那来看一下整个流程运行概括:
本次流程可以分为两个板块:(影刀RPA获取内容以及Coze工作流进行内容提取的处理)
1.借助文件处理插件读取Excel表格中的数据
2.再用代码转换输出格式(为了循环批量处理使用,用超简单代码来处理输出)
3.循环节点是重点:内置小红书内容提取插件→视频内容分析插件→飞书表格插件
设置一个变量名后修改变量类型为“File-Default”
引用开始节点的变量“shuru”
输入需要引用前置插件节点的输出
输出:变量名设置为“result”变量类型选择“Array”(一定!)
import re # 导入正则表达式模块
async def main(args: Args) -> Output:
# 提取输入参数
input_string = args.params.get('input', '') # 从 'input' 键获取用户输入,默认为空字符串
# 定义一个用于匹配URL的正则表达式模式
url_pattern = r'https?://[^\s]+'
# 使用正则表达式查找所有匹配的URL,保持原始大小写
http_or_https_links = [
match.group(0) for match in re.finditer(url_pattern, input_string)
]
# 构建输出字典
output = {
"result": http_or_https_links # 返回原始大小写的HTTP或HTTPS链接列表
}
return output
超简单的代码块复制粘贴即可
选择使用数组循环,设置循环数组引用代码节点的输出即可,中间变量和输出需要把参数变量全部删除
插件节点:提取小红书内容插件引用循环的item(in input)
选择器:目的是判读提取的的内容是视频还是图文类小红书作品
只需要判断输出中“video”是否是空值;这个值就是视频的下载链接。当图文类作品是“video”是空值,所以这里我们只需要判断“video”是否为空值即可。
空值走上面支线,也就是图文存储支线;不是控制走下面支线,也就是提取视频内容。
文本处理节点(图中名字为图文类):这里是为了修改存储表格字段而准备的
Srting1:这个是分类,手动填写一个图文即可
Srting2:这个是作品URL,引用循环的item(in input)
Srting3:作品的内容,引用前面小红书内容提取插件的“content”
Srting4:图片的下载链接,引用前面小红书插件的输出“bannerList”
[["{{String1}}", "{{String2}}", "{{String3}}", "{{String4}}"]]
表格需要提取去飞书上创建好,并复制URL链接粘贴到对应的参数后面
回到视频类分支;视频类分支多一个插件目的就是将视频的文案提取的插件
输入:URL参数进行引用,引用小红书提取插件的“video”
文本处理节点:舰长这里修改了名字为视频类
Srting1:这个是作品URL,引用循环的item(in input)
Srting2:作品的视频下载链接,这里引用小红书提取插件的“video”
Srting3:作品的内容,引用前面小红书内容提取插件的“content”
Srting4:视频的文案,引用前面视频文案提取插件的“content”
Srting5:这个是分类,手动填写一个视频即可
[["{{String5}}", "{{String1}}", "{{String2}}", "{{String3}}", "{{String4}}"]]
引用一下视频类文本处理的输出即可
结束节点(循环节点没有输入,内容和处理都已经到飞书表格中,所以不需要再设置什么内容)
舰长这里使用文本返回,并将表格的URL粘贴,目的是提醒自己
到这里工作流的搭建已经完成,试运行发布即可
创建一个智能体并添加工作流,发布看个人情况就可以
1.打卡网页
2.清楚数据表格
3.使用For循环
-批量抓取数据
-鼠标滚动网页
-等待2秒
4.数据表格导出
5.打开coze智能体的网页
6.上传文件
看似流程颇多,但是非常简单不需要去修改或记录一些内容,只需要和搭建Coze一样拖拽即可。未使用过的可以需要时间久一点。
另外,实操搭建前需要准备好好影刀RPA软件
可以先去官网下载电脑对应版本的影刀RPA(免费的):https://www.yingdao.com/client-download/
下载完,根据操作说明安装对应的浏览器插件,推荐安装在谷歌或者edge浏览器,不要用360
插件操作文档:https://www.yingdao.com/yddoc/rpa/710819897938788352?
1.找到获取已打开网页,并添加到中间栏中
设置内容,由于舰长插件是放在自带的Microsoft Edge浏览器,所以选择这个浏览器各位自行选择就行。再修改一下指令输出的名字,方便后续查找(小红书网页)
2.清空数据表格:
流程不是运行一次所以放置出错,将下面的数据表格(不是Excel)清空(只需要拖拽不需要设置)
3.For次数循环:按图中进行设置
批量数据抓取:下面将使用视频操作介绍
鼠标滚动网页:
等待
4.数据表格导出到桌面
5.打开Coze网页
Coze网址就是文章上面的智能体搭建后编排页面上面的地址
6.上传文件
需要捕捉元素,同视频操作一致:捕捉搭建好的智能体的编排页面的“+”
本次搭建注意点:
1.使用前需要将前一次使用的表格进行改名或者删除
2.先去小红书网页设置好需要抓取的内容
3.第一次使用智能体先自行跑一遍,需要授权飞书
4.代码不难,但是要注意输入和输出,务必和舰长的保持一致
5.表格抓取如果是空的,是因为小红书中的内容带有插件不能反应的内容,解决办法需要将内容是输入给删除/或者使用模型转换输出/用代码进行内容清洗(去除不能识别的内容)。
文章来自微信公众号“杰克船长的AIGC”,作者“杰克船长的AIGC”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md