Python爬虫入门day06

2022-10-09 17:37:41 460

摘要：第五章动态网页的挑战很多网站的数据，比如电商网站商品的价格，评论等等会采用动态加载的方式来加载，这样可能在爬虫程序刚刚访问时无法直接获取到相关数据。那么怎么应对这样的问题呢？5.1 动态网页的使用场景先看下面一个例子：这是京东上看一本书的...

第五章动态网页的挑战

很多网站的数据，比如电商网站商品的价格，评论等等会采用动态加载的方式来加载，这样可能在爬虫程序刚刚访问时无法直接获取到相关数据。那么怎么应对这样的问题呢？

5.1 动态网页的使用场景

先看下面一个例子：

这是京东上看一本书的场景。我们发现打开一本书之后，书的价格，排名等信息及书的评论信息不是在我们第一次打开网站时就立即加载进来的。而是通过二次请求或多次的异步请求获取的。这样的页面就是动态页面。

关于动态页面使用的场景：

希望异步刷新的场景。有些网页内容很多，一次加载完对服务器压力很大，而且有的用户不会去查看所有内容；

5.2 回到与HTTP服务器发送请求数据的原始方法

5.2.1 GET方法

GET把参数数据队列添加到URL中，Key和Value的各个字段一一对应；在URL中可以看到。

浏览器的URL中有些符号，字符不能被很好的识别。那么我们需要有一套编码的方式来传递信息。所以发送端需要做urlencode；接收端需要做urldecode;1.https://www.baidu.com/s?wd=DNS

?xxx=yyy&time=zzz get 请求的标识

2.http://acb.com/login?name=zhangsan&password=123

示例代码：SpiderCodesaiduSearchp2.py

SpiderCodesaiduSearchp3.

5.2.2 POST方法

通过一个例子来看POST方法的使用：

这是有道翻译的页面，仔细观察会发现，当用户每次输入一个想要翻译的词语时，页面的URL信息并不发生任何改变。这是一个典型的异步使用Ajax的技术，用JSON格式进行数据的传递。

我们如何利用爬虫程序来实现一个自己的翻译器呢？

来看代码示例：SpiderCodesyoudaofanyip2.py5.3 更加难以对付的动态网站

5.3.1 应对需要多次数据的交互模拟的网站

我们有时会遇到像淘宝这样的大型网站，对数据版权看得特别重的，它们的网站有大量的工程师和技术人员去维护，它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂，难度较高。那么，有没有一劳永逸的方法，来解决此类问题呢？

我们的解决方案是：Selenium + PhantomJS。

我们的爬虫其实就是在做模拟浏览器的行为。

5.3.2 Selenium

一个Web自动化测试工具，最初是为了网站自动化测试而开发的；我们玩游戏有按键精灵；Selenium也可以做类似的事情，但是它是在浏览器中做这样的事情。

安装： sudo pip install selenium(pip install selenium)

在Python中 from selenium import webdriver 来测试是否装好

说明：想要用Python做自动化测试的童鞋们可以好好研究一下Selenium的使用。

5.3.3 PhantomJS

一个基于webkit无界面(headless)的浏览器,它可以把网站加载到内存中并执行页面上的JS，但它没有图形用户界面，所以耗费的资源比较少；

安装： sudo apt install phantomjs （此方法可能安装不完整,导致部分功能无法使用）

Linux Ubuntu下完全安装的方法(参看
http://blog.csdn.net/m0_38124502/article/details/79276499

)

Wget

https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2

cd 下载

tar -xvf phantomjs-2.1.1-linux-x86_64.tar.bz2

cd phantomjs-2.1.1-linux-x86_64/

cd bin/

sudo cp phantomjs /usr/bin

python -启动-> 浏览器进程phantomjs，

测试：

SpiderCodesPhantomjs.. 对其中的例子helloworld.js， pageload.js

进行测试；

注意： ****有可能造成资源泄漏；为了避免这种事的发生，需要有个策略适当的时候去kill phantomjs进程。

5.3.4 Selenium + PhantomJS

双剑合璧利用二者同时完成某个任务，示例代码如下：

SpiderCodes estPhantomJS.py

5.4 关于动态网站信息抓取的总结

总的来说，我们的爬虫要尽量模拟的看起来就像是真正的用户在浏览器上访问服务器网站的行为。如果我们使用GET或POST的方式来模拟浏览器与服务器间通信的行为，成本比较低，但是应对复杂的网站或者服务器精心防御的网站来说是很难骗过服务器的。Selenim+PhantomJS的方案则会让我们的程序看起来更像是普通的用户，但是它的效率相对而言会降低很多，速度也会慢很多。在大规模爬去数据时可能遇到许多新的挑战。（比如网站尺寸的设置，等待时间的设定等）

练习：抓取猫眼电影 http://maoyan.com/board/4?offset 中TOP100的电影榜单；

本文地址：http://www.dadeji.cn/176602.html

欧易(OKX)

火币(HTX )

币安(Binance)

Python爬虫入门day06

第五章动态网页的挑战

先看下面一个例子：

SpiderCodesaiduSearchp3.

通过一个例子来看POST方法的使用：

相关推荐

零基础学Python：Python五种Python解释器分享给你

Python之父：Python4.0可能不会来了

python入门之python简介

最新的python，整整16个G，附零基础入门Python思维导图

什么是Python？为什么要学习Python？

Python：是！“用Python的，全是假程序员”！HR：太真实……

封神级Python开发核心知识点笔记！一篇带你学透Python

明年至少令Python提速2倍?Python之父给出爆料

Python入门教程：超详细1小时学会Python

想学习Python不知从何学起？一份超详细Python入门资料，干货满满

python入门基础教学，再不学python就晚了

学习Python你一定要知道的知识Python解释器的作用和分类有哪些

如何在PythonIDLE中查看Python中turtle库中所有方法及用法

7步搞定Python数据可视化，大牛出品教程，Jupyter、Colab版都有

分析Python3中的bytes和str类型

欧易(OKX)

火币(HTX )

币安(Binance)

Python爬虫入门day06

第五章 动态网页的挑战

先看下面一个例子：

SpiderCodesaiduSearchp3.

通过一个例子来看POST方法的使用：

相关推荐

第五章动态网页的挑战

SpiderCodesaiduSearchp3.