Python爬虫
本文最后更新于 2024-07-09,文章内容可能已经过时。
免责声明:如使用本脚本对目标服务器造成严重影响,本人概不负责!
以下内容包“AI 创作”,请注意辨别!
什么是Python爬虫?
Python爬虫是使用Python编程语言编写的网络爬虫程序。Python具有简洁易读的语法和丰富的第三方库支持,使其成为开发爬虫的热门选择。开发者可以利用Python的库(如Requests、Beautiful Soup、Scrapy等)来编写爬虫程序,实现自动化地访问网页、提取信息并进行数据处理的功能。Python爬虫在网络数据采集、信息监测、搜索引擎优化等领域有着广泛的应用。
本脚本仅用于检测速率请求限制或其他限制是否已生效或启用!
如何安装Python?
访问Python官方网站:Welcome to Python.org
下载Python的最新版本,安装
在安装的过程中,最好选择添加环境变量
安装Visual Studio Code
您可以在官方网站 下载 Visual Studio Code - Mac, Linux, Windows 中选择适合您的版本进行下载。
创建第一个Python文件
您可以在电脑上的任意位置创建一个.txt文件,然后将文件的扩展名改为.py。
在弹出的选择框里选择是。
然后右键,在菜单中选择打开方式
设置为“记事本”或者"Visual Studio Code"
Visual Studio Code需要安装Python插件,你可以在网上找到相关教程进行安装,这里不提供演示。
在弹出的文本编辑框里,输入以下内容:
import os
import requests
from concurrent.futures import ThreadPoolExecutor, as_completed
import turtle
import time
import tkinter as tk
from tkinter import simpledialog, messagebox
import threading
def download_image_chunked(url, image_dir, image_name):
response = requests.get(url, stream=True)
if response.status_code == 200:
file_path = os.path.join(image_dir, image_name)
with open(file_path, 'wb') as f:
for chunk in response.iter_content(chunk_size=8192): # 8192 bytes per chunk
if chunk:
f.write(chunk)
print(f"Image saved as {file_path}")
else:
print("Failed to download the image.")
def submit_tasks_with_delay(executor, url, image_dir, count, interval):
for i in range(count):
image_name = f'image_{i}.png'
# 使用一个单独的线程来等待,并在等待后提交任务
threading.Timer(interval * i, executor.submit, args=(download_image_chunked, url, image_dir, image_name)).start()
def main(url, image_dir, count, interval):
if not os.path.exists(image_dir):
os.makedirs(image_dir)
# 显示开始消息
messagebox.showinfo("开始", "开始拉取,将保存在Image文件夹中")
# 初始化线程池
with ThreadPoolExecutor(max_workers=64) as executor:
# 使用一个单独的线程来逐个提交任务,并添加间隔
submit_tasks_with_delay(executor, url, image_dir, count, interval)
# 等待所有任务完成(由于我们使用了Timer,这里没有直接的方式等待所有任务)
# 但我们可以等待足够长的时间,或者添加其他逻辑来检查任务是否完成
time.sleep(interval * count) # 这只是一个示例,可能并不准确
# 显示结束消息(注意:这可能会提前显示,因为不能保证所有任务都已完成)
def delayed_download(url, image_dir, image_name, interval): # 添加一个带延迟的下载函数
time.sleep(interval) # 等待指定的时间间隔
download_image_chunked(url, image_dir, image_name)
def get_input():
root = tk.Tk()
root.withdraw() # 隐藏主窗口
url = simpledialog.askstring("输入", "请输入要爬取的链接:", parent=root)
count = simpledialog.askinteger("输入", "请输入要爬取图片的数量:", parent=root)
interval = simpledialog.askfloat("输入", "请输入图片下载间隔(秒):", parent=root) # 添加间隔输入
if url and count > 0 and interval >= 0: # 确保间隔是非负的
main(url, 'Image', count, interval) # 调用main函数时传入interval参数
else:
messagebox.showerror("错误", "无效的输入,请重新输入。")
if __name__ == "__main__":
get_input()
安装必要的库
在Cmd窗口中依次输入
pip install requests
pip install turtle
pip install tk
等待命令执行完成.......
运行脚本
在弹出的白色框中输入内容,即可开始爬取图片。
如果你不想安装Python,那么可以下载打包好的Python文件:点我下载main.exe