🖼️ 网页图片批量采集工具

输入域名,自动深度爬取整站图片 · 还原目录结构 · 支持本地 & 云端存储

🕷️ 深度爬取整域名 ⚡ 多线程并发下载 ☁️ 阿里云OSS / AWS S3 🛡️ 防反爬保护 📂 路径结构还原 📊 实时日志监控
🔗目标 URL

输入主域名时,开启下方「深度爬取」可自动采集该域名下所有页面的图片

🕷️深度爬取
🌐深度爬取整个域名
自动跟踪所有子页面链接,采集该域名下全部图片

推荐 100~500

推荐 2~4 层

💾存储方式

图片按 路径/域名/原始URL路径 层级保存,并生成 metadata.json

⚠️ 需安装 pip install oss2,确保 Bucket 已创建且可读写
⚠️ 需安装 pip install boto3。腾讯COS / MinIO / 华为OBS 填写对应 Endpoint 即可
⚙️性能设置

延迟过低可能被目标服务器封禁 IP;深度爬取建议保持 1 秒以上

📊任务状态 空闲
下载进度0 / 0
0
总图片
0
成功
0
失败
0
跳过
📄 已爬取页面:0 页  |  💾 存储方式:本地
实时日志

✨ 功能特点 & 使用指南

全面了解工具能力,快速上手批量采集

🕷️

深度域名爬取

输入主域名,自动采用 BFS 广度优先策略递归遍历该域名下所有子页面,支持设置最大页面数和爬取深度,轻松采集整站图片。

🔍

多维度图片解析

解析 <img src>srcset(多分辨率)、CSS background-image、懒加载属性(data-srcdata-original 等)及 Base64 内嵌图片,全面覆盖各类图片来源。

📂

路径结构还原

本地保存时按原始 URL 路径层级建立目录,每个目录自动生成 metadata.json,记录文件名、原始 URL、Alt 描述、采集时间,方便追溯。

☁️

云端存储直传

支持阿里云 OSS 和 AWS S3(兼容腾讯 COS、MinIO、华为 OBS 等),下载后直接上传云端,无需本地中转,节省磁盘空间。

多线程并发 + 自动重试

ThreadPoolExecutor 线程池最高 20 并发下载,每张图片失败后自动重试 3 次,网络波动不丢任务,大幅提升采集效率。

🛡️

防反爬保护

随机切换 6 种真实 User-Agent,自动携带 Referer 头部绕过防盗链,可自定义请求间隔(0~10 秒),降低被目标服务器封禁的风险。

📋 快速上手步骤

1

输入目标网址

在左侧「目标 URL」框中输入网址,每行一个。可输入主域名(如 https://www.example.com),也可输入具体页面地址。

2

选择深度爬取(可选)

开启「深度爬取整个域名」后,工具自动发现并爬取该域名所有子页面。设置「最大页面数」(推荐 100~500)和「最大深度」(推荐 2~4)防止无限循环。

3

配置存储方式

「本地存储」可指定服务器路径;「阿里云 OSS」或「AWS S3」填写 AccessKey、Bucket 信息,图片直传云端(需提前 pip install oss2 / boto3)。

4

调整性能参数

「并发线程数」默认 5,可调至 10~20 提速。「请求间隔」默认 1 秒,对严格防爬的网站建议调到 2~3 秒避免封 IP。

5

点击「开始执行」并监控进度

右侧实时显示「总图片 / 成功 / 失败 / 跳过」统计及逐行滚动日志。任务运行中可随时「暂停」或「停止」,安全退出。

📊 功能一览

功能说明状态
深度域名爬取BFS 广度优先,自动发现同域名所有子页面✓ 支持
img src / srcset解析标准图片标签,含多分辨率 srcset✓ 支持
CSS background-image解析 style 标签和内联样式中的背景图✓ 支持
懒加载图片识别 data-src / data-original / data-lazy 等属性✓ 支持
Base64 图片自动解码并保存 data:image/... 内嵌图片✓ 支持
本地路径还原按原始 URL 路径建立目录层级 + metadata.json✓ 支持
阿里云 OSS 上传直传 OSS,需安装 oss2⚙ 可选
AWS S3 / 兼容存储支持腾讯COS、MinIO等,需安装 boto3⚙ 可选
多线程并发下载最高 20 线程,ThreadPoolExecutor✓ 支持
失败自动重试每张图片失败后重试 3 次,指数退避✓ 支持
随机 User-Agent内置 6 种真实 UA 随机切换✓ 支持
Referer 防盗链绕过自动设置来源页面作为 Referer✓ 支持
命名冲突处理时间戳重命名,保留原始元数据✓ 支持
实时日志 SSE 推送Server-Sent Events 长连接,0.4s 心跳✓ 支持
暂停 / 恢复 / 停止任务全生命周期控制✓ 支持