听说杜佬的博客更新了,尤其是django教程,本渣渣由于没有钱充值网络,所以一直是断网状态下,本身也是有搜集教程进文件夹吃灰的通病,因此就有了这样一篇渣渣文,应用python爬取杜赛博客教程内容,同时应用pdfkit打印pdf文件,快进本渣渣的收藏夹吃灰吧!
一个比较简单的文库爬虫,所以带来的后遗症也很多明显,比较low比,只能爬取word,txt,ppt别想了,同时不能有折叠的内容,当然vip的内容也不要妄想了,百度吃相还是真难看,有钱真的可以为所欲为!
现在很多网站都是异步加载的方式加载数据,大部分都是json数据,如果不知道数据的传递过程,一些参数理不清头绪的话,又想要获取数据,那就比较难搞了,尤其是对于本渣渣级选手而言。
一个简单的Python资讯采集案例,列表页到详情页,到数据保存,保存为txt文档,网站网页结构算是比较规整,简单清晰明了,资讯新闻内容的采集和保存!
虽然一直说逼乎比较水,大概是由于我这种渣渣太多了,但不可否认,还是存在质量度比较高文章,专栏,毕竟逼乎有着比较高质量的韭菜,收割起来尤其畅快,反复收割都不是问题,这可是人人月入十万的比乎。
头榜,一个集合主播信息及资讯的网站,内容比较齐全,现今直播火热,想要找寻各种播主信息,这类网站可以搜集到相关热门主播信息。
随着地摊经济的火热,炒热,各种地摊相关的东西也开始出现,也愈发流行,比如地摊秘笈,地摊叫卖语音,而各种在线ai语音转换也开始出现,不太清楚是调用的哪个接口,比如下面这个网站,文本内容在线语音合成,高大上的ai转换,哈哈,其实是一个简单POST方式提交数据。
堆糖网,图片壁纸网站,存在反爬,发现返回的json数据错乱严重,只能爬取部分数据,图片数据缺失很厉害,应用python进行图片抓取采集下载,一个多进程及多线程的使用例子。
亚马逊还是一个不错,挺有意思的网站,相对于国内电商平台,淘宝而言,它对于你爬的容忍度似乎更高?不知道反爬频率是多大,而不同的国家与地区有不同的网站,最关键的就是域名后缀,比如国内是cn,国际美国亚马逊是com,不过大部分国外站点是需要翻墙,而法国亚马逊恰好是一个国内可以访问的站点。
一个非常简单的图片爬虫,通过一个页面的链接采集,然后访问单页面获取想要的大图,实现采集下载的目的,比较简单,由于是国外网站,访问会比较慢,推荐使用代理工具来实现。
一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可以算是一个半成品,供大家参考和学习,有更好的多线程解决方案也可以交流!
一个国外海报欣赏站点,typographicposters.com,比较有意思(头秃)的json数据传递,分类也比较有意思,采用的是点击rgb颜色参数获取分类,以海报的颜色为分类,看了下数据还是比较多,直接requests数据是不行的。
大作——找灵感,用大作,一个比较知名的素材类网站,里面涵盖多行业图片素材,类似于花瓣网,发现这种类型的素材网站还是比较多的,Python大作网图片采集下载,多线程图片爬虫,多线程的方式是以前最早玩的线程池的方式实现的,但是发现好像容易出错。
花瓣是一个图片集合网站,也是设计师必备网站,不少设计师没有了花瓣的话,基本没有干活技能,哈哈,设计天下一大抄,其实花瓣的版权存在很大争议,不断被和谐,整改,就能够看出来,现在还有不少采集资源(图片)没有被公开。
很多人都有看电影、电视剧的爱好,打发时间,放松身心,现今基本上很多视频都需要开通vip才能观看,尤其是热门剧集,电影,当然有条件最好还是支持一下,开通vip会员,虽然国内各种付费vip比较坑,套路不少。