除非涉及大量用户使用出现的并发问题,或者涉及到绝密数据的加密问题,一般的业务问题把一些工具串联起来就成了可用的平台,以下是个人搭建的一个案例。(涉及到5个平台,12 种工具,但是如果你是处女座,你也可以搭建一个统一的平台,but why?

附上 github 链接 及readme 可以自己部署体验

思考下,目的是为了什么?数分,重要的是想通为什么做?至于怎么做,真的不重要。

Amazon 产品监控工具

一个简单的网络爬虫工具,专门用于监控和追踪亚马逊自定义产品区的商品信息。本项目自动收集产品数据,并同时将其存储在本地CSV文件和 Google Sheets 中,便于分析和跟踪。

主要功能

  • 自动产品抓取:从多个亚马逊英国网址抓取产品信息

  • 丰富的数据采集:捕获全面的产品详情,包括:

    • 产品标题
    • ASIN(亚马逊标准识别号)
    • 品牌名称
    • 当前价格
    • 原始价格(如果有)
    • 评分
    • 评论数量
    • Prime会员资格
    • 配送信息
    • 卖家信息
    • 库存状态
    • 产品链接
    • 图片链接
    • 数据采集时间戳
  • 双重存储系统

    • 本地CSV存储,用于备份和离线访问
    • 实时Google Sheets集成,便于共享和分析
  • 智能错误处理

    • 健壮的cookie管理
    • 自动重试机制
    • 全面的错误报告

技术栈

  • 编程语言:Python 3.x

  • 核心库

    • requests:用于发送HTTP请求
    • beautifulsoup4:用于HTML解析
    • pandas:用于数据处理
    • fake-useragent:用于轮换用户代理
  • 数据存储

    • 本地:CSV文件
    • 云端:Google Sheets(通过Google Apps Script Web App)
    • 云端:MySQL
  • 认证方式

    • 基于Cookie的亚马逊访问认证
    • Google Sheets的Web应用集成

项目结构

1
2
3
4
5
6
amazon_observing/
├── amazon_scraper.py # 主要爬虫实现
├── cookie_manager.py # Cookie管理工具
├── website.csv # 爬取源URL列表
├── all_results.csv # 本地数据备份
└── README.md # 项目文档

设置和使用

  1. 环境准备

    1
    pip install requests beautifulsoup4 pandas fake-useragent
  2. 配置

    • 将亚马逊cookies放入cookies.json
    • website.csv中更新目标亚马逊URL
  3. 运行爬虫

    1
    python amazon_scraper.py
  4. 数据访问

    • 本地:查看all_results.csv
    • 在线:访问Google Sheets链接

功能详解

Cookie管理

  • 安全的cookie存储和加密
  • 自动cookie加载和验证

数据采集

  • 智能HTML解析
  • 请求频率限制和管理
  • 用户代理轮换以提高可靠性

数据存储

  • 自动CSV文件生成
  • 实时Google Sheets更新
  • 所有条目的时间戳跟踪

数据可视化

Power BI 集成

本项目支持使用 Power BI 进行数据可视化分析,提供了丰富的图表展示功能:

数据连接方式

  1. 直接连接CSV

    • 打开 Power BI Desktop
    • 选择”获取数据” > “文本/CSV”
    • 选择生成的 all_results.csv 文件
  2. 连接Google Sheets

    • 打开 Power BI Desktop
    • 选择”获取数据” > “Web”
    • 输入Google Sheets的共享链接(确保已设置为”任何人都可以查看”)

预置可视化报表

提供以下预置的数据分析视图:

  1. 价格分析

    • 产品价格分布图
    • 价格趋势时间线
    • 折扣力度分析
  2. 商品表现

    • 评分与评论数关系图
    • Prime商品占比
    • 卖家分布
  3. 时间维度

    • 每日数据采集量
    • 价格变化追踪
    • 库存状态变化
  4. 品类分析

    • 不同搜索词的商品分布
    • 品牌占比
    • 价格区间分布

自动刷新设置

  • 设置数据自动刷新频率(建议:每日)
  • 配置Power BI服务自动同步
  • 设置数据更新提醒

报表共享

  • 导出为 Power BI 报表文件 (.pbix)
  • 发布到 Power BI 服务
  • 设置报表访问权限

使用建议

  1. 数据预处理

    • 使用Power Query编辑器清理数据
    • 创建计算列(如折扣率)
    • 设置适当的数据类型
  2. 可视化最佳实践

    • 使用筛选器控制数据范围
    • 添加交互式切片器
    • 设置适当的刷新间隔
  3. 性能优化

    • 使用增量刷新
    • 设置适当的数据压缩
    • 优化关系模型

示例仪表板

  1. 销售概览

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    +-----------------+  +------------------+
    | 价格趋势图 | | 评分分布 |
    +-----------------+ +------------------+
    | | | |
    | 折线图 | | 散点图 |
    | | | |
    +-----------------+ +------------------+
    +-----------------+ +------------------+
    | 品牌分布 | | Prime占比 |
    +-----------------+ +------------------+
  2. 商品分析

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    +------------------+  +------------------+
    | 价格区间分布 | | 评论数趋势 |
    +------------------+ +------------------+
    | | | |
    | 柱状图 | | 面积图 |
    | | | |
    +------------------+ +------------------+
    +------------------+ +------------------+
    | 库存状态占比 | | 卖家分布 |
    +------------------+ +------------------+

定制开发

如需定制开发特定的分析视图,可以:

  1. 使用 Power BI 的 DAX 语言创建高级计算
  2. 利用 Power Query M 语言进行数据转换
  3. 创建自定义可视化组件

最佳实践

  • 使用合理的请求延迟
  • 定期更新cookies
  • 监控Google Sheets配额使用
  • 保持重要数据的本地备份

未来增强

  • 价格历史追踪
  • 价格变化邮件通知
  • 更详细的产品信息
  • 更多数据导出格式
  • 高级错误恢复机制

注意事项

  • 本工具仅用于教育和研究目的
  • 请遵守亚马逊的服务条款和速率限制
  • 确保cookies和凭据的安全

故障排除

常见问题及解决方案:

  1. Cookie过期:更新cookies.json
  2. 速率限制:调整请求延迟
  3. 解析错误:检查HTML结构变化
  4. 存储错误:验证文件权限