网页图片批量采集工具

✨ 功能特点 & 使用指南

全面了解工具能力，快速上手批量采集

🕷️

输入主域名，自动采用 BFS 广度优先策略递归遍历该域名下所有子页面，支持设置最大页面数和爬取深度，轻松采集整站图片。

🔍

解析 <img src>、srcset（多分辨率）、CSS background-image、懒加载属性（data-src、data-original 等）及 Base64 内嵌图片，全面覆盖各类图片来源。

📂

本地保存时按原始 URL 路径层级建立目录，每个目录自动生成 metadata.json，记录文件名、原始 URL、Alt 描述、采集时间，方便追溯。

☁️

支持阿里云 OSS 和 AWS S3（兼容腾讯 COS、MinIO、华为 OBS 等），下载后直接上传云端，无需本地中转，节省磁盘空间。

⚡

ThreadPoolExecutor 线程池最高 20 并发下载，每张图片失败后自动重试 3 次，网络波动不丢任务，大幅提升采集效率。

🛡️

随机切换 6 种真实 User-Agent，自动携带 Referer 头部绕过防盗链，可自定义请求间隔（0~10 秒），降低被目标服务器封禁的风险。

在左侧「目标 URL」框中输入网址，每行一个。可输入主域名（如 https://www.example.com），也可输入具体页面地址。

开启「深度爬取整个域名」后，工具自动发现并爬取该域名所有子页面。设置「最大页面数」（推荐 100~500）和「最大深度」（推荐 2~4）防止无限循环。

「本地存储」可指定服务器路径；「阿里云 OSS」或「AWS S3」填写 AccessKey、Bucket 信息，图片直传云端（需提前 pip install oss2 / boto3）。

「并发线程数」默认 5，可调至 10~20 提速。「请求间隔」默认 1 秒，对严格防爬的网站建议调到 2~3 秒避免封 IP。

右侧实时显示「总图片 / 成功 / 失败 / 跳过」统计及逐行滚动日志。任务运行中可随时「暂停」或「停止」，安全退出。

功能	说明	状态
深度域名爬取	BFS 广度优先，自动发现同域名所有子页面	✓ 支持
img src / srcset	解析标准图片标签，含多分辨率 srcset	✓ 支持
CSS background-image	解析 style 标签和内联样式中的背景图	✓ 支持
懒加载图片	识别 data-src / data-original / data-lazy 等属性	✓ 支持
Base64 图片	自动解码并保存 data:image/... 内嵌图片	✓ 支持
本地路径还原	按原始 URL 路径建立目录层级 + metadata.json	✓ 支持
阿里云 OSS 上传	直传 OSS，需安装 oss2	⚙ 可选
AWS S3 / 兼容存储	支持腾讯COS、MinIO等，需安装 boto3	⚙ 可选
多线程并发下载	最高 20 线程，ThreadPoolExecutor	✓ 支持
失败自动重试	每张图片失败后重试 3 次，指数退避	✓ 支持
随机 User-Agent	内置 6 种真实 UA 随机切换	✓ 支持
Referer 防盗链绕过	自动设置来源页面作为 Referer	✓ 支持
命名冲突处理	时间戳重命名，保留原始元数据	✓ 支持
实时日志 SSE 推送	Server-Sent Events 长连接，0.4s 心跳	✓ 支持
暂停 / 恢复 / 停止	任务全生命周期控制	✓ 支持