# 爬虫

**Repository Path**: didi.git/pachong

## Basic Information

- **Project Name**: 爬虫
- **Description**: 爬取沃尔玛商品信息
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2020-06-06
- **Last Updated**: 2022-05-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 爬虫

#### 介绍
爬取沃尔玛商品信息

walmart 商品品类检索

1. 获取所有沃尔玛的品类信息，并保存层级关系。如：/Electronics & Office/Shop Electronics/TVs & Video
2. 遍历所有品类商品，获取商品的标题，价格，评论数，品类信息，图片（可以先保存链接）， 链接（要求产品价格大于100美金，评论数大于100

目前1和2需求，用request 都实现了，分成两个py文件，领导的意思是，要先爬一级分类，接着二级分类，然后是所有商品的详情。要求结果是，所有商品属于哪个二级分类，所有二级分类属于哪个一级分类，这样的排列顺序。遇到的问题是现在两个py文件代码融合出现问题，分类爬完和商品详情接不上，无法组成一个整体。



selenium做的一路点击到商品详情页，但是能爬到商品的链接，商品的图片，评论，名称，金额爬不到，xpath定位显示为空。最后三个for循环，一级分类for循环，二级分类for循环在一级里面，商品详情for循环在二级里面。最终输出结果为：一级<----二级<----商品详情：金额，名称，图片，链接，评论数。