分享74个Python爬虫源码总有一个是你想要的

2023-12-27 14:40:45

分享74个Python爬虫源码总有一个是你想要的

学习知识费力气,收集整理更不易。

知识付费甚欢喜,为咱码农谋福利。

链接:https://pan.baidu.com/s/1GHl3518e3tq8TOe-LwLm4g?pwd=6666?

提取码:6666

项目名称

1024爬虫小说下载

163严选爬虫

58同城 zhilian hao123 163云课堂 中国大学排名 等的python的一些爬虫

A web crawlerfor Sina, search and retrieve microblogs that contain certain keywords 一个简单的python爬虫实践,爬取包含关键词的新浪微博

apple_python 官网自动监控爬虫

BaiduSpider,一个爬取某度搜索结果的爬虫,目前支持某度网页搜索,某度图片搜索,某度知道搜索,某度视频搜索,某度资讯搜索,某度文库搜索,某度经验搜索和某度百科搜索

B站弹幕、评论爬虫+词云生成

EroCool 漫画图集网站爬虫

mt爬虫Python程序,用于爬取美tuan网站上的商铺及用户信息

python django 美女图片爬虫站

Python 关于期货数据爬虫

Python 爬虫基金

python+Selenium爬虫:模拟登录+自动点击

Python-jmtt爬虫,可下载每个分类下的所有漫画,已经打包成EXE文件并放入Releases里,喜欢就点个Watched和Star

Python实现的LeetCode爬虫

python实现的数据爬虫和数据接口

python某度文库爬虫

Python爬虫实战:将网页转换为pdf电子书

Python爬虫框架:PySpider,既简单易用又功能强大且带图形界面

python爬虫模拟zhihu登录

python爬虫爬取某度百科页面

python爬虫获取双色球和大乐透数据,并做数据分析与统计

Python爬虫,抓取“mzitu.com”网站上的美女图片

Python爬虫,某东自动登录,指定商品自动加购物车,自动下单,指定时间抢购商品

python编写的爬虫代理ip池

Python队列+多线程爬虫(起点小说网、豆瓣、某东订单、某度贴吧、某宝优惠券6W数据、糗事百科)

Selenium×Firefox自动化爬虫模板

Simple And EasyPython Crawler Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块

Tcat爬虫(大量注释,readme有思路分析)

zhihu爬虫和v2ex爬虫的实现

zhihu用户公开个人信息爬虫, 能够爬取用户关注关系,基于Python、使用代理、多线程

一个基于Scrapy的数据采集爬虫代码库

一个用PYQT5写的图形化的多功能电商爬虫小工具

一个简单的 Python 爬虫系统示例

import os
import shutil
import sys
import threading
import time
import pyperclip

import tkinter
from tkinter import messagebox

import requests
from apscheduler.schedulers.blocking import BlockingScheduler
from bs4 import BeautifulSoup

from framework.base.BaseWindow import BaseWindow
from sprider.control.AdenButton import AdenButton
from sprider.control.AdenEntry import AdenEntry
from sprider.control.AdenLabel import AdenLabel
from sprider.control.AdenTkPlugin import TkPlugin
from sprider.business.DownLoad import DownLoad
from sprider.business.SpiderTools import SpiderTools
from sprider.business.UserAgent import UserAgent
from time import sleep
from selenium import webdriver
from selenium.webdriver.common.by import By

from sprider.business.ZipTools import ZipTools


class GitHubCoder:
    base_path = "D:\\Spider\\Code\\Github"
    down_path = base_path + os.sep + "Temp"
    file_filter = "zip|rar|pptx|ppt"
    tempFileList = []
    browser = None
    is_spider = False
    spider_url=""

    def __init__(self):
        import tkinter as tk
        # 调用Tk()创建主窗口Ctrl+Alt+L ??????🍌

        self.root = tk.Tk()
        self.root.wm_attributes('-topmost', 1)
        self.root.configure(background="#00B7FD")
        self.root.columnconfigure(0, weight=1)  # 设置第1列自动适应root 需要sitcky布局配合+
        self.root.rowconfigure(7, weight=1)  # 第四行高度自适应

        self.root.title("亚丁号采集辅助")

        # 第1行
        self.lable_message = AdenLabel(self.root, text="采集的网址", font='Helvetica -30 bold')
        self.lable_message.grid(row=0, column=0, sticky=TkPlugin.sticky_all())
        # 第2行
        self.txt_spider_url = AdenEntry(self.root, font=('Arial 18 bold'), fg='red')
        self.txt_spider_url.grid(row=1, column=0, sticky=TkPlugin.sticky_all(), padx="12", pady="10")
        # 第3行
        lable_smtp_user = AdenLabel(self.root, text="下载路径:" + self.down_path, font='Helvetica -20 bold',
                                    bg=TkPlugin.background())
        lable_smtp_user.grid(row=2, column=0, sticky=tkinter.W, padx="12")
        # 第4行
        files = os.listdir(self.base_path)
        self.down_number = str(len(files) - 1)
        self.lable_smtp_user = AdenLabel(self.root, text="下载文件数量:" + self.down_number, font='Helvetica -20 bold',
                                         bg=TkPlugin.background())
        self.lable_smtp_user.grid(row=3, column=0, sticky=tkinter.W, padx="12")

        # 第5行
        # btn_open_folder = tkinter.Button(self.root, text="打开文件夹", bg="#FF1493", command=lambda: self.spider())
        # btn_open_folder.grid(row=8, column=0, sticky=tkinter.E, padx="282")
        btn_spider = AdenButton(self.root, text="采集", width=8, bg="#FF1493", command=lambda: self.spider())
        btn_spider.grid(row=8, column=0, sticky=tkinter.E, padx="210")
        btn_copy_url = AdenButton(self.root, text="粘贴", width=8, command=lambda: self.copy())
        btn_copy_url.grid(row=8, column=0, sticky=tkinter.E, padx="140")
        btn_void_url = AdenButton(self.root, text="打开文件夹", bg="#FFA500", width=8, command=lambda: self.open())
        btn_void_url.grid(row=8, column=0, sticky=tkinter.E, padx="70")
        btn_close_window = AdenButton(self.root, text="停止采集", bg="#D9534F", width=8, command=lambda: self.forget())
        btn_close_window.grid(row=8, column=0, sticky=tkinter.E)
        task = threading.Thread(target=self.builder_aps_task)  # builder_aps_task自动采集
        task.start()

        w = 620
        h = 260

        screenWidth = self.root.winfo_screenwidth()  # 屏幕宽度
        screenHeight = self.root.winfo_screenheight()  # 屏幕高度

        x = (screenWidth - w) / 2
        y = (screenHeight - h) / 2
        # 设置窗口大小和位置:窗口的宽与高,窗口距离屏幕的左边距和上边距
        self.root.geometry("%dx%d+%d+%d" % (w, h, x, y))
        # 开启主循环,让窗口处于显示状态
        self.root.mainloop()

一个获取163云音乐歌手、专辑、歌曲、评论、歌词等数据的Python爬虫

下载搜狗、某度、企鹅输入法的词库文件的 python 爬虫,可用于构建不同行业的词汇库

中华人民共和国行政区划爬虫,分为省级、地级、县级、乡级、村级,最多五级连动,可通过本项目自行爬取数据也可使用本项目在线接口直接调用

中国银行外汇牌价爬虫 & API (Bank of China - Foreign Exchange - Spider& API)

今日头疼Python虫

企鹅 空间动态爬虫,利用cookie登录获取所有可访问好友空间的动态保存到本地

使用asyncio和aiohttp开发的轻量级异步协程web爬虫框架

使用python 3实现的一个zhihu内容的爬虫,依赖requests、BeautifulSoup4

利用Python爬虫+高德api选择租房

卷积神经网络&&爬虫 实现163新闻自动爬取并分类

图书馆座位自动预约(Python爬虫)

图文详解 python爬虫实战——5分钟做个图片自动下载器

基于HTML爬虫的豆瓣小组API(Python版本)

基于python+appium的android微信自动添加好友及爬取其朋友圈的爬虫

基于python的scrapy爬虫,爬取链家网成都地区新房源,并用高德api在地图上可视化显示

基于Python的天眼查爬虫,爬取完整的公司数据(可爬需要VIP才能用的邮箱和电话等)

基于Scrapy框架的豆瓣电影爬虫

增强版Python+wordpress爬虫

多线程美团酒店爬虫,python模拟美团_token

天眼查 Python爬虫

对Bangumi.tv进行爬虫

某东商品价格监控:自定义商品价格,降价邮件&微信提醒

某宝、某东、拼多多商品店铺基础信息爬虫 Selenium+Python技术栈

某度贴吧Scrapy爬虫,附简单可视化分析

爬取妹子图(python):爬虫(bs+rq)+ gevent多线程

爬虫 python前端canvas展现某度地图

爬虫-知网

爬虫demo, 爬取小红书无水印图片等

爱奇艺视频信息的爬虫

由Python编写的全异步实现的动漫之家(dmzj)漫画批量下载器(爬虫)

电音爬虫——采集账号主页、喜欢、收藏、音乐原声、搜索、关注、粉丝、合集、单作品

电音用户分享页数据爬虫

石墨文档爬虫

简单但绝不简陋的 Python3 爬虫项目,集合 HelloGitHub 所有平台的账号信息

简单的python爬虫爬取图片【注意身体】

网络爬虫模拟登陆bilibili 滑动验证码的破解 弹幕发送

苏宁爬虫(大量注释,对刚入门爬虫者极度友好)

虎扑步行街爬虫

超星尔雅爬虫,通过courseId,爬取完整的题目

通过Python爬虫自建豆瓣电影API

好了就写到这吧

你有时间常去我家看看我在这里谢谢你啦...

我家地址:亚丁号

最后送大家一首诗:

山高路远坑深,大军纵横驰奔,谁敢横刀立马?惟有点赞加关注大军。

感谢您的支持

文章来源:https://blog.csdn.net/weixin_47730343/article/details/135242754
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。