输入主域名时,开启下方「深度爬取」可自动采集该域名下所有页面的图片
图片按 路径/域名/原始URL路径 层级保存,并生成 metadata.json
pip install oss2,确保 Bucket 已创建且可读写pip install boto3。腾讯COS / MinIO / 华为OBS 填写对应 Endpoint 即可延迟过低可能被目标服务器封禁 IP;深度爬取建议保持 1 秒以上
输入域名,自动深度爬取整站图片 · 还原目录结构 · 支持本地 & 云端存储
输入主域名时,开启下方「深度爬取」可自动采集该域名下所有页面的图片
图片按 路径/域名/原始URL路径 层级保存,并生成 metadata.json
pip install oss2,确保 Bucket 已创建且可读写pip install boto3。腾讯COS / MinIO / 华为OBS 填写对应 Endpoint 即可延迟过低可能被目标服务器封禁 IP;深度爬取建议保持 1 秒以上
全面了解工具能力,快速上手批量采集
输入主域名,自动采用 BFS 广度优先策略递归遍历该域名下所有子页面,支持设置最大页面数和爬取深度,轻松采集整站图片。
解析 <img src>、srcset(多分辨率)、CSS background-image、懒加载属性(data-src、data-original 等)及 Base64 内嵌图片,全面覆盖各类图片来源。
本地保存时按原始 URL 路径层级建立目录,每个目录自动生成 metadata.json,记录文件名、原始 URL、Alt 描述、采集时间,方便追溯。
支持阿里云 OSS 和 AWS S3(兼容腾讯 COS、MinIO、华为 OBS 等),下载后直接上传云端,无需本地中转,节省磁盘空间。
ThreadPoolExecutor 线程池最高 20 并发下载,每张图片失败后自动重试 3 次,网络波动不丢任务,大幅提升采集效率。
随机切换 6 种真实 User-Agent,自动携带 Referer 头部绕过防盗链,可自定义请求间隔(0~10 秒),降低被目标服务器封禁的风险。
在左侧「目标 URL」框中输入网址,每行一个。可输入主域名(如 https://www.example.com),也可输入具体页面地址。
开启「深度爬取整个域名」后,工具自动发现并爬取该域名所有子页面。设置「最大页面数」(推荐 100~500)和「最大深度」(推荐 2~4)防止无限循环。
「本地存储」可指定服务器路径;「阿里云 OSS」或「AWS S3」填写 AccessKey、Bucket 信息,图片直传云端(需提前 pip install oss2 / boto3)。
「并发线程数」默认 5,可调至 10~20 提速。「请求间隔」默认 1 秒,对严格防爬的网站建议调到 2~3 秒避免封 IP。
右侧实时显示「总图片 / 成功 / 失败 / 跳过」统计及逐行滚动日志。任务运行中可随时「暂停」或「停止」,安全退出。