爬取大华产品信息

爬取大华产品信息

欢迎关注我的公众号「测试游记」

由于想要了解一下友商的产品信息,所以简单的写一下爬取他们信息的爬虫

创建项目

1
2
3
$ scrapy startproject Dahua
$ cd Dahua
$ scrapy genspider dahua dahuatech.com
  1. 使用scrapy脚手架创建一个项目
  2. 进入项目路径
  3. 创建一个名叫dahua的爬虫,它的爬取范围是dahuatech.com域名下

    分析爬取内容

产品类别url地址为:http://www.dahuatech.com/product.html

所以修改开始的urlstart_urls

1
2
3
4
5
6
7
class DahuaSpider(scrapy.Spider):
name = 'dahua' # 爬虫名称
allowed_domains = ['dahuatech.com'] # 允许爬取域名
start_urls = ['https://www.dahuatech.com/product.html'] # 请求的第一个url

def parse(self, response):
pass

需要爬取的为设备的具体信息

设备详情

  • 产品详情地址
  • 产品名称
  • 产品描述
  • 产品概述
  • 技术参数
  • 尺寸图
  • 订货型号

所以先在Dahua/items.py写上

1
2
3
4
5
6
7
8
9
10
11
import scrapy


class DahuaItem(scrapy.Item):
url = scrapy.Field() # 产品详情地址
product_name = scrapy.Field() # 产品名称
product_description = scrapy.Field() # 产品描述
product_overview = scrapy.Field() # 产品概述
technical_parameter = scrapy.Field() # 技术参数
dimension_drawing = scrapy.Field() # 尺寸图
order_type = scrapy.Field() # 订货型号

获取设备类型列表

从第一个页面可以看出,设备分成了很多大类,大类中又有很多的小类

设备类型列表

所以我们先拿到全部小类的url地址

使用XPath Helper工具进行Xpath定位

产品类别

由于我懒得解析太多Xpath,所以我取用了离要获取的url最大层级的div标签

对应的URL的Xpath为://div[@class='product-channel-list f-cb']//a/@href

对呀的文字的Xpath为://div[@class='product-channel-list f-cb']//a/text()

文字

所以爬虫中第一个解析函数parse

1
2
3
4
5
6
7
8
def parse(self, response):
print('正在爬取全部产品类别')
url_list = response.xpath("//div[@class='product-channel-list f-cb']//a/@href").extract()
productlist_list = response.xpath("//div[@class='product-channel-list f-cb']//a/text()").extract()
productlist_list = productlist_list
for url, productlist in zip(url_list, productlist_list):
if url.startswith('http'):
yield scrapy.Request(url=url, callback=self.parse_productlist, meta={'productlist': productlist})

获取设备列表

任意点击一个小类进入如下页面

设备列表

包含了设备名称,描述信息

查看详情按钮是进入设备详情页的

所以这儿需要获取到3个Xpath

全部的查看详情://li//span[1]//a/@href

全部的设备名称://div[@class='product-list-b']//ul[@class='f-cb']//h3/text()

全部的描述信息://div[@class='product-list-b']//ul[@class='f-cb']//a/p[1]/text()

所以代码为:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def parse_productlist(self, response):
print('正在爬取产品列表')
url_list = response.xpath('//li//span[1]//a/@href').extract()
product_name_list = response.xpath("//div[@class='product-list-b']//ul[@class='f-cb']//h3/text()").extract()
product_description_list = response.xpath(
"//div[@class='product-list-b']//ul[@class='f-cb']//a/p[1]/text()").extract()
for url, product_name, product_description in zip(url_list, product_name_list, product_description_list):
yield scrapy.Request(url=url, callback=self.parse_productdetail,
meta={
'productlist': response.meta['productlist'],
'product_name': product_name,
'product_description': product_description
})
page_list = response.xpath("//div[@class='news-page w1400']//a/@href").extract()
page_list = [i for i in page_list if i.startswith('http')]
if page_list:
for url in page_list:
yield scrapy.Request(url=url, callback=self.parse_productlist,
meta={'productlist': response.meta['productlist']})

往处理详情页的地方传入了product_nameproduct_description

也就是设备名称,设备描述

由于部分页面有多页,所以也做了页面的跳转

1
2
3
4
5
6
page_list = response.xpath("//div[@class='news-page w1400']//a/@href").extract()
page_list = [i for i in page_list if i.startswith('http')]
if page_list:
for url in page_list:
yield scrapy.Request(url=url, callback=self.parse_productlist,
meta={'productlist': response.meta['productlist']})

本来这里要处理重复页面的,但是由于Scrapy自带了缓存机制,它会跳过爬取相同的url,所以就这样了~

获取详情页

详细信息

进入详情页后发现数据是动态出现的,使用抓包的方式很容易可以发现它应该ajax请求的方式刷新数据

当前页面:https://www.dahuatech.com/product/info/93.html

ajax请求页面:https://www.dahuatech.com/ajax/product/93/1

其中相同的部分为93

由于我懒得再爬一层,所以直接用requests发起了get请求

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
def parse_productdetail(self, response):
print('正在爬取产品详情')
base_url = 'https://www.dahuatech.com/ajax/product/%s/%s'
item = DahuaItem()
product_num = re.findall(r'http.*?info/(\d+).html.*?', response.url)
product_num = product_num and int(product_num[0])
# 产品详情地址
item['url'] = response.url

# 产品名称
item['product_name'] = response.meta['product_name']

# 产品描述
item['product_description'] = response.meta['product_description']

# 产品概述
item['product_overview'] = re.findall(r'<div class="one_content">(.*?)</div>',
requests.get(base_url % (product_num, 1)).text,
re.S | re.M)[0]

# 技术参数
item['technical_parameter'] = requests.get(base_url % (product_num, 2)).text

# 尺寸图
item['dimension_drawing'] = re.findall(r'src=".*?"',
requests.get(base_url % (product_num, 3)).text,
re.S | re.M)[0]

# 订货型号
item['order_type'] = re.findall(r'>(.*?)</p',
requests.get(base_url % (product_num, 4)).text,
re.S | re.M)[0]

yield item

数据持久化

使用最简单的数据持久化方式:写入json

修改Dahua/pipelines.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import json


class DahuaPipeline(object):
def open_spider(self, spider):
self.file = open('dahua.json', 'w')

def process_item(self, item, spider):
content = json.dumps(dict(item), ensure_ascii=False) + '\n'
self.file.write(content)
return item

def close_spider(self, spider):
self.file.close()

一次爬取分为三步:

  1. 打开dahua.json文件
  2. 写入内容
  3. 关闭dahua.json文件

修改Dahua/settings.py

  1. 关闭君子协议
1
ROBOTSTXT_OBEY = False
  1. 开启数据持久化部分
1
2
3
ITEM_PIPELINES = {
'Dahua.pipelines.DahuaPipeline': 300,
}

查看结果

在外部使用

1
$ scrapy crawl dahua

查看结果

 wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!
您的支持将鼓励我继续创作!