1.1 Request
Scrapy 使用 Request和 Request 对象爬取 web 站点。
一般来说,Request 对象在 spider 中被生成并且最终传递到下载器(Downloader),下载器对其进行处理并返回一个 Response 对象,Response 对象还会返回到生成 request 的 spider 中。
22.1.1 Request 对象
一个 Request 对象代表一个 HTTP 请求,一般来讲,HTTP请求是由 Spider 产生并被 Downloader处理进而生成一个 Response。
22.1.2 Request 模块的位置
C:\Python34\Lib\site-packages\scrapy\http\request
22.1.3 Request 源码
class Request(object_ref):
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None):
self._encoding = encoding # this one has to be set first
self.method = str(method).upper()
self._set_url(url)
self._set_body(body)
assert isinstance(priority, int), "Request priority not an integer: %r" % priority
self.priority = priority
if callback is not None and not callable(callback):
raise TypeError('callback must be a callable, got %s' % type(callback).__name__)
if errback is not None and not callable(errback):
raise TypeError('errback must be a callable, got %s' % type(errback).__name__)
assert callback or not errback, "Cannot use errback without a callback"
self.callback = callback
self.errback = errback
self.cookies = cookies or {}
self.headers = Headers(headers or {}, encoding=encoding)
self.dont_filter = dont_filter
self._meta = dict(meta) if meta else None
self.flags = [] if flags is None else list(flags)
@property
def meta(self):
if self._meta is None:
self._meta = {}
return self._meta
def _get_url(self):
return self._url
def _set_url(self, url):
if not isinstance(url, six.string_types):
raise TypeError('Request url must be str or unicode, got %s:' % type(url).__name__)
s = safe_url_string(url, self.encoding)
self._url = escape_ajax(s)
if ':' not in self._url:
raise ValueError('Missing scheme in request url: %s' % self._url)
url = property(_get_url, obsolete_setter(_set_url, 'url'))
def _get_body(self):
return self._body
def _set_body(self, body):
if body is None:
self._body = b''
else:
self._body = to_bytes(body, self.encoding)
body = property(_get_body, obsolete_setter(_set_body, 'body'))
@property
def encoding(self):
return self._encoding
def __str__(self):
return "<%s %s>" % (self.method, self.url)
__repr__ = __str__
def copy(self):
"""Return a copy of this Request"""
return self.replace()
def replace(self, *args, **kwargs):
"""Create a new Request with the same attributes except for those
given new values.
"""
for x in ['url', 'method', 'headers', 'body', 'cookies', 'meta',
'encoding', 'priority', 'dont_filter', 'callback', 'errback']:
kwargs.setdefault(x, getattr(self, x))
cls = kwargs.pop('cls', self.__class__)
return cls(*args, **kwargs)
22.1.4 Request的初始化构造方法
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None)
项目中使用的例子:
scrapy.Request(self.url + str(self.offset), callback = self.parse)
常用的参数:
【url】: 参数类型 string,请求的 url。
【callback】 :处理响应数据的回调方法(指定该请求返回的 Response,由那个函数来处理),用来解析响应数据,如果没有指定,则 spider 的 parse 方法。如果在处理期间引发异常,则会调用 errback。
【method】: 参数类型 string ,HTTP 的请求方法,请求一般不需要指定,默认 GET 方法,可设置为"GET", "POST", "PUT"等,且保证字符串大写
【headers】: 参数类型 dict,请求时,包含的头文件。一般不需要。内容一般如下:
Host: media.readthedocs.org
User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
Accept: text/css,*/*;q=0.1
Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
Cookie: _ga=GA1.2.1612165614.1415584110;
Connection: keep-alive
【meta】: 参数类型 dict,比较常用,在不同的请求之间传递数据使用的,Request.meta 是属性的初始值。一旦此参数被设置,通过参数传递的字典将会被浅拷贝。
request_with_cookies = Request(
url="http://www.example.com",
cookies={'currency': 'USD', 'country': 'UY'},
meta={'dont_merge_cookies': True}
)
【encoding】: 参数类型 string,编码方式,默认 utf-8。
【dont_filter】: 参数类型 bool,请求不应该被调度器过滤。False 表示过滤,True 表示不过滤。默认 False(当你想使用多次执行相同的请求,忽略重复的过滤器。默认为 False)。
【priority】:参数类型 int,优先级,调度程序使用优先级来定义用于处理请求的顺序,具有较高优先级值的请求将会提前执行,默认0。
【errback】: 指定错误处理函数,如果在处理请求时引发异常,将会调用该函数。 这包括 404 HTTP 错误等失败的页面。
22.1.5 Request.meta
Request.meta 在不同的请求之间传递数据使用。
Request.meta 属性可以包含任意的数据,但是 Scrapy 和它的内置扩展可以识别一些特殊的键。
【dont_redirect】:不重定向
【dont_retry】:不重试
【dont_merge_cookies】:不合并 cookie。
【cookiejar】:使用 cookiejar。
【redirect_urls】:重定向连接。
【bindaddress】:绑定 ip 地址。
【dont_obey_robotstxt】:不遵循反爬虫协议。
【download_timeout】:下载超时。
22.1.5 Request 的子类 FormRequest
FormRequest是 Request 的子类,一般用作表单数据提交。
22.1.6 Request 的子类 FormRequest 模块的位置
C:\Python34\Lib\site-packages\scrapy\http\request 下的 form.py文件。
22.1.7 Request 的子类 FormRequest 源码
class FormRequest(Request):
def __init__(self, *args, **kwargs):
formdata = kwargs.pop('formdata', None)
if formdata and kwargs.get('method') is None:
kwargs['method'] = 'POST'
super(FormRequest, self).__init__(*args, **kwargs)
if formdata:
items = formdata.items() if isinstance(formdata, dict) else formdata
querystr = _urlencode(items, self.encoding)
if self.method == 'POST':
self.headers.setdefault(b'Content-Type', b'application/x-www-form-urlencoded')
self._set_body(querystr)
else:
self._set_url(self.url + ('&' if '?' in self.url else '?') + querystr)
@classmethod
def from_response(cls, response, formname=None, formid=None, formnumber=0, formdata=None,
clickdata=None, dont_click=False, formxpath=None, formcss=None, **kwargs):
kwargs.setdefault('encoding', response.encoding)
if formcss is not None:
from parsel.csstranslator import HTMLTranslator
formxpath = HTMLTranslator().css_to_xpath(formcss)
form = _get_form(response, formname, formid, formnumber, formxpath)
formdata = _get_inputs(form, formdata, dont_click, clickdata, response)
url = _get_form_url(form, kwargs.pop('url', None))
method = kwargs.pop('method', form.method)
return cls(url=url, method=method, formdata=formdata, **kwargs)
22.1.8 FormRequest 的构造
class scrapy.FormRequest(url[,formdata,...])
项目中的示例:
# 构造表单数据,发送 POST 请求登录
scrapy.FormRequest(
url = url,
formdata = {"email" : "13554799061", "password" : "ting123hai"},
callback = self.parse
)
# 回调函数,对返回的 response进行处理请求。
def parse(self, response):
# do something
22.1.8 FormRequest的form_response()方法
FormRequest 类除了有 Request 的功能,还提供一个 form_response()方法:
form_response(response[,formname=None,formnumber=0,formdata=None,formxpath=None,clickdata=None,dont_click=False,...])
form_response 方法参数解析:
【response】:是指包含HTML表单的 Response 对象,该表单将用于预填充表单字段。
【formname】:如果给定,将使用设置为该值的 name 属性的表单。
【formnumber】:当响应包含多个表单时,要使用的表单的数量。 Formnumber 默认是 0,表示使用第一个。
【formdata】:字段来覆盖表单数据。如果一个字段已经存在于响应
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【免费代理 ip(Scrapy框架进阶篇)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
