##爬取淘宝
使用爬虫框架scrapy爬取淘宝
###一.创建项目
1.安装scrapypip install scrapy
2.选择一个目录开启一个scrapy项目scrapy startproject taobao
3.新建一个名为mytaobao的爬虫scrapy genspider mytaobao taobao.com
二.制定需要的内容
从web端找到几项内容
1 | 价格:price |
将内容写入items.py
根据提示开始写
1 | # define the fields for your item here like: |
1 | class TaobaoItem(scrapy.Item): |
三.分析url
淘宝搜索`女装 裙且按销量排序后的url为:
https://s.taobao.com/search?q=%E5%A5%B3%E8%A3%85+%E8%A3%99&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180406&ie=utf8&sort=sale-desc
大胆的删除一些看上去没啥用的内容
https://s.taobao.com/search?q=女装+裙&sort=sale-desc&s=44
所以:
1 | q:关键字 |
在settings中增加常量:
1 | KEY_WORDS = '女装 裙' #关键字 |
1 | base_url = 'https://s.taobao.com/search?q=%s&sort=sale-desc&s=%s' |
四.使用正则表达式解析
页面查看发现存在一段jsong_page_config
其中包含了所要的内容
对其进行正则解析
1 | def parse(self, response): |
五.数据存储到文件中
在pipelines中写入存储文件的语句
1 | import json |
六.运行爬虫
使用:scrapy crawl mytaobao
开始运行爬虫