网络状态全球地区

hello@oxylabs.io

中文 (CN)

中文

English

代理

住宅代理

动态住宅代理

全球1亿多真实家庭住宅代理池用来无IP封锁的抓取

ISP代理

通过可信的ASN绕过艰难目标

移动代理

利用真实移动设备 IP 地址的强大功能

数据中心代理

数据中心代理

高速、成本效益高的数据采集，成功率达99.9%.

静态数据中心代理

市场上性能更佳的代理

高级代理解决方案

网页解锁器

人工智能驱动的代理解决方案，实现无封锁抓取

立减40%

爬虫 API

网络爬虫 API

大多数网站提供的公共数据交付

功能

网络爬虫

探索网站上的所有网页并大规模获取数据

任务管家

以指定频率规划多项抓取解析作业

自定义解析器新内容

通过执行指定解析指令来解析抓取到的文件

价格

代理

数据中心代理

高性价比的解决方案

起售价

0.7美元/IP

免费IP

静态数据中心代理

性能卓越

起售价

1.2美元/IP

动态住宅代理

全球1亿多真实IP

起售价

2.5/GB

ISP代理

无限会话代理

起售价

1.2美元/IP起

移动代理

3G/4G/5G移动代理

起售价

3.5/GB

爬虫 API

网络爬虫 API

数据源自主流网站

起售价

0.25美元/千个结果

高级代理解决方案

网页解锁器

人工智能驱动的代理解决方案

立减40%

起售价

~~5美元~~3美元/GB

可免费试用

教程中心

入门

知识库

阅读有关网络爬虫、代理和更多内容的最新文章

视频教程

查看我们的视频，了解有关数据收集问题和解决方案的更多信息

解决方案

找到最适合您的商业用例的产品

快速入门指南

RP Quick start guide 动态住宅代理快速入门指南

Shared DC Quick start guide 动态数据中心代理快速入门指南

DC Quick start guide 静态数据中心代理快速入门指南

了解更多

返回博客

如何使用 Python 构建价格追踪器进行价格监控

Augustas Pelakauskas

2022-08-121 min read

学习 Python 自动化的一个好办法就是构建一个价格追踪器。对初学者来说，由于这项任务生成的脚本可以立即投入使用，因此尤为方便。

本文将向大家介绍如何用 Python 采集器建立一个可立即实现电商价格监控的可扩展价格追踪器。

价格追踪器是什么？

价格追踪器是一个定期在电商网站上抓取产品价格并提取价格变动的程序。

除了网络抓取这一基本功能外，价格追踪器还配备其他功能，例如当产品价格低于某一阈值时，它就会发出电子邮件提醒。

一个简单的 Python 脚本可用于处理个人任务，而更复杂的价格追踪器则用于追踪数百万种产品的价格。

价格监控的原因

价格监控的好处多多。例如，您可能会以最低价买到一个心仪的产品。

公司则更有充分的理由去监测竞争对手的价格。例如，价格追踪器可以检测竞争对手的销售价格，观察对方何时会对相同的产品展开优惠活动，或为您的产品定一个能实现最佳利润率的价格。价格监控软件可以帮助您恰到好处地调整价格。

搭建 Python 价格监控脚本

本节将展示一个用于追踪多种产品价格的 Python 脚本。我们将使用网络抓取技术来提取产品数据，并自动通过 Python 发送邮件来提醒用户注意价格变动。

项目要求

以下 Python 价格监控脚本适用于 Python 3.6 及以上版本。推荐的库如下所示：

Requests：用于发送 HTTP 请求。换句话说，就是在没有浏览器的情况下下载网页。Requests 是后续价格监控脚本的基本库。
BeautifulSoup：用于查询 HTML 中的特定元素，封装解析器库。
lxml - 用于解析 HTML 文件。Requests 库检索出来的 HTML 是一个字符串，在查询前需要解析成一个 Python 对象。我们不会直接使用这个库，而是使用 BeautifulSoup 来进行封装以获得更直接的 API。
价格解析器：用于每个价格监测脚本的库。它有助于从包含价格的字符串中提取价格。
smtplib：用于发送电子邮件。
Pandas：用于过滤产品数据和读写 CSV 文件。

此外，您也可以创建一个虚拟环境让整个过程更加有序。

$ python3 -m venv .venv
$ source .venv/bin/activate

打开终端并运行以下命令，安装依赖项：

$ pip install pandas requests beautifulsoup4 price-parser

请注意，smtlib 库属于 Python 标准库，无需单独安装。

安装完成后，创建一个新的 Python 文件并导入以下代码：

import smtplib
import pandas as pd
import requests
from bs4 import BeautifulSoup
from price_parser import Price

此外，添加以下代码用于初始配置：

PRODUCT_URL_CSV = "products.csv"
SAVE_TO_CSV = True
PRICES_CSV = “prices.csv"
SEND_MAIL = True

包含目标 URL 的 CSV 为 PRODUCT_URL_CSV。

如果 SAVE_TO_CSV 标志被设置为 True，那么获取的价格将存储在 PRICES_CSV 指定的 CSV 文件中。

SEND_MAIL 是一个标志，可以设置为 True 来发送电子邮件提醒。

读取产品的 URL 列表

存储和管理产品 URL 最简单的办法就是将它们保存在 CSV 或 JSON 文件中。这次使用的是 CSV，便于我们通过文本编辑器或电子表格应用程序进行更新。

CSV 文件应该至少包含两个字段——url 和 alert_price。产品的标题可以从产品的 URL 中提取，也可以存储在同一个 CSV 文件中。如果价格监控器发现产品价格降至低于 alert_price 字段的值，它将触发一个电子邮件提醒。

CSV 中的产品 URL 样本

可以使用 Pandas 读取 CSV 文件并转换为字典对象。接着我们会用一个简单的函数来封装。

def get_urls(csv_file):
    df = pd.read_csv(csv_file)
    return df

该函数将返回一个 Pandas 的 DataFrame 对象，其中包含三栏：产品、URL 和 alert_price（见上图）。

抓取价格

第一步就是在目标 URL 上进行循环。

请注意，get_urls() 返回一个 DataFrame 对象。

首先使用 Pandas 的 to_dict() 方法运行一个循环。当 to_dict 方法在参数为 records 的情况下被调用时，它会将 DataFrame 转换为一个字典列表。

在每个字典上运行一个循环，如下所示：

def process_products(df):
    for product in df.to_dict("records"):
        # product["url"] is the URL

我们将在写完另外两个函数后重新审视这个方法。第一个函数是为了获得 HTML，第二个函数则用于从中提取价格。

运行以下函数，从每个 URL 的响应中获得 HTML：

def get_response(url):
    response = requests.get(url)
    return response.text

接下来，根据响应创建一个 BeautifulSoup 对象，使用 CSS 选择器定位价格元素。使用价格解析器库提取价格浮点，以便与提醒价格进行比较。如果您想深入了解价格解析器库的运行原理，请前往我们的 GitHub 资源库查看示例。

以下函数将从给定的 HTML 中提取价格，并将其作为一个价格浮点返回：

def get_price(html):
    soup = BeautifulSoup(html, "lxml")
    el = soup.select_one(".price_color")
    price = Price.fromstring(el.text)
    return price.amount_float

请注意，本例中使用的 CSS 选择器专门用于抓取目标。如果您正在处理其他网站，这是您唯一要改代码的地方。

在 CSS 选择器的帮助下，我们使用 BeautifulSoup 来定位一个包含价格的元素。该元素存储在 el 变量中。el 标签的文本属性 el.text 包含价格和货币符号。价格解析器会解析这个字符串，然后提取价格的浮点值。

DataFrame 的对象中有一个以上的产品 URL。我们来循环运行所有代码，用新的信息更新 DataFrame。

最简单的方法是将每一行转换成一个字典。这样，您可以读取 URL，调用 get_price() 函数，并更新所需字段。

我们将添加两个新的键值——提取的价格（price）和一个布尔值（alert），用于在发送邮件时过滤函数行。

现在可以扩展 process_products() 函数来演示上述序列：

def process_products(df):
    updated_products = []
     for product in df.to_dict("records"):
        html = get_response(product["url"])
        product["price"] = get_price(html)
        product["alert"] = product["price"] < product["alert_price"]
        updated_products.append(product)
    return pd.DataFrame(updated_products)

这个函数将返回一个新的 DataFrame 对象，包含产品的 URL 和从 CSV 中读取的名称。此外，它还包括用于在价格下降时发送电子邮件的价格和提醒标志。

保存输出

我们只需调用 to_csv() 函数就可以轻松把包含最新产品数据的最终版 DataFrame 保存为 CSV。

此外，我们将检查 SAVE_TO_CSV 标志，如下所示：

if SAVE_TO_CSV:
        df_updated.to_csv(PRICES_CSV, mode="a")

大家可以看到，模式设置为 "a"，代表“追加”，确保在 CSV 文件存在的情况下追加新的数据。

发送电子邮件提醒

另外，您可以根据提醒标志，在价格下降时发送电子邮件提醒。首先，创建一个函数，过滤数据框并返回电子邮件的主题和正文。

def get_mail(df):
    subject = "Price Drop Alert"
    body = df[df["alert"]].to_string()
    subject_and_message = f"Subject:{subject}\n\n{body}"
    return subject_and_message

现在，使用 smtplib 创建另一个发送提醒邮件的函数。

def send_mail(df):
    message_text = get_mail(df)
    with smtplib.SMTP("smtp.server.address", 587) as smtp:
        smtp.starttls()
        smtp.login(mail_user, mail_pass)
        smtp.sendmail(mail_user, mail_to, message_text)

这段代码假定您将设置变量 mail_user、mail_pass 和 mail_to。

然后整合一下，这就是主要的功能：

def main():
    df = get_urls(PRODUCT_URL_CSV)
    df_updated = process_products(df)
    if SAVE_TO_CSV:
        df_updated.to_csv(PRICES_CSV, index=False, mode="a")
    if SEND_MAIL:
        send_mail(df_updated)