手机端
当前位置:主页 > 星闻 >

爬虫-获得草榴论坛-达盖尔帖子列表和图片

  进修Python有段时间了,也依据网上的指导写过了爬取壁纸网站壁纸的爬虫。比来又手痒想尝尝爬取论坛,尝尝从获得帖子列表,进一步获得帖子称号和帖子链接。再进一步跳转到帖子中,获得帖子内容。

  1、此次和前次一样应用requests库来获得网站内容。应用BeautifulSoup来解析获得到的html文件。从html中掉掉落有效的,帖子链接或许图片链接。

  2、创立一个获得网站内容的函数,该函数的感化是应用url,获得内容。

  此处的header可以从浏览器的开辟者对象中摘出来。

  3、此次爬虫分为,两步,第一步是获得帖子列表和帖子对应的url链接,第二步是获得帖子内的图片列表和图片对应的图床url链接。这两步因为网页的结构纷歧样所以我用了两个函数来完成辨别的功用。

  获得帖子列表的功用以下:

  获得图片链接的函数以下:

  4、接上去就该下载图片了,此处需求留心因为帖子中通俗含有的图片数量比拟大年夜,所以下载图片的时分要留心一下频率频率太高会被图床网站发明而遭到封杀。我临时应用sleep的方法强制中缀几秒再继续往下下载。然则后果通俗,下载数量较大年夜的时分照样会被图床发明招致被限流。正在思考换一种下载方法

  5、接上去就是依照依次逐次调用以上的各个函数了

  以上就是这几天改出来的论坛爬虫。地道是为了验证一下自己的编程思路。特地省下一点点鼠标的时间(笑~~)

  这个爬虫写的还比拟粗陋,应当还有很大年夜的改良空间。假设有大年夜神看到这篇博客,请不惜赐教。小弟在此先行谢过了!!!

分享至:

相关阅读