代码见lizilong1993/python_spider: learn python spider (github.com)

APIs

parameters 意义 example 备注
url 爬取的视频目录地址 http://www.jl1.cn/EWeb/product2.aspx?id=21&tid=30 image-20230312135819209
pageNumClass 底部总页数的标签名的Class ‘list_right3a’ image-20230312140055040
videoClass 每个视频详情页的a标签的href前缀 ‘product_view.aspx’ image-20230312140440683
titleClass 视频详情页的标题的Class ‘col-md-10 col-md-push-1 ej_title’ image-20230312140556497

这是一个简单的小demo,主要是我在搜集数据的时候发现自己一个一个下载改名太麻烦了,就干脆自己学着写了个python的爬虫来代替自己干活,主要是多线程(其实是多进程🤣)还挺快。