在电商数据采集领域,1688 平台的商品详情数据具有重要的商业价值。然而,1688 平台为保护数据安全,采用了复杂的接口签名机制(Sign 签名),这给数据采集工作带来了不小的挑战。本文将带你深入解析 1688 商品详情接口的 Sign 签名算法,通过实战演示如何自主构建这一签名机制,实现对商品详情数据的合法采集。
1688 商品详情接口分析
1688 的商品详情接口通常类似于以下形式:
plaintext
https://detail.1688.com/offer/{商品ID}.html
或其对应的 API 接口:
plaintext
https://m.1688.com/offer/{商品ID}.html?sign={签名值}&...
通过浏览器开发者工具(F12)分析网络请求,我们可以发现接口请求中包含多个关键参数,其中sign参数是动态变化的,它是服务器验证请求合法性的重要依据。
Sign 签名算法逆向思路
逆向分析签名算法通常遵循以下步骤:
- 收集足够多的接口请求样本,包含不同时间、不同商品的 sign 值
- 分析参数之间的关联性,找出可能参与签名计算的参数
- 定位生成 sign 值的 JavaScript 代码位置
- 分析并理解 JavaScript 代码的加密逻辑
- 使用 Python 等语言复现该加密逻辑
实战:构建 1688 Sign 签名算法
经过详细分析,1688 的 Sign 签名生成主要涉及以下几个步骤:
- 收集参与签名的关键参数(如商品 ID、时间戳、随机数等)
- 对参数按特定规则排序
- 拼接成特定格式的字符串
- 使用特定的哈希算法(如 MD5)进行加密
- 对加密结果进行二次处理(如截取、转换大小写等)
下面是用 Python 实现的 1688 Sign 签名算法:
import hashlib
import time
import random
import string
from urllib.parse import urlencode
class SignGenerator:
def __init__(self):
# 固定密钥,通过逆向JS代码获得
self.secret_key = "your_secret_key_from_js"
def generate_random_str(self, length=6):
"""生成随机字符串"""
return ''.join(random.choices(string.ascii_letters + string.digits, k=length))
def get_timestamp(self):
"""获取当前时间戳(毫秒)"""
return int(time.time() * 1000)
def sort_params(self, params):
"""按参数名ASCII码从小到大排序"""
return sorted(params.items(), key=lambda x: x[0])
def generate_sign(self, offer_id):
"""生成sign签名"""
# 1. 准备基础参数
params = {
"offerId": str(offer_id),
"timestamp": self.get_timestamp(),
"nonce": self.generate_random_str(),
"appKey": "12574478", # 固定appKey
"dataType": "json"
}
# 2. 参数排序
sorted_params = self.sort_params(params)
# 3. 拼接参数为字符串
param_str = ""
for key, value in sorted_params:
param_str += f"{key}{value}"
# 4. 拼接密钥
sign_str = f"{param_str}{self.secret_key}"
# 5. MD5加密
md5 = hashlib.md5()
md5.update(sign_str.encode('utf-8'))
sign = md5.hexdigest().upper() # 转为大写
# 6. 添加sign到参数中
params["sign"] = sign
return params
def generate_url(self, offer_id):
"""生成完整的商品详情接口URL"""
base_url = "https://m.1688.com/offer/{}.html"
params = self.generate_sign(offer_id)
url = base_url.format(offer_id) + "?" + urlencode(params)
return url
# 使用示例
if __name__ == "__main__":
generator = SignGenerator()
offer_id = "610877411453" # 示例商品ID
url = generator.generate_url(offer_id)
print(f"生成的1688商品详情接口URL:\n{url}")
代码解析
上述代码实现了一个完整的 1688 Sign 签名生成器,主要包含以下几个核心功能:
- 参数准备:生成时间戳、随机数等必要参数
- 参数排序:按照参数名的 ASCII 码顺序对参数进行排序
- 签名生成:将排序后的参数与密钥拼接,通过 MD5 算法生成签名
- URL 构建:将所有参数(包括生成的 sign)拼接成完整的接口 URL
需要注意的是,代码中的secret_key需要通过逆向 1688 的 JavaScript 代码获得,不同时期这个密钥可能会发生变化,需要重新获取。
使用签名算法获取商品详情
有了 Sign 签名生成器,我们就可以编写代码获取 1688 商品详情数据了:
import requests
import json
from 1688_sign_generator import SignGenerator
class ProductFetcher:
def __init__(self):
self.sign_generator = SignGenerator()
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
"Referer": "https://www.1688.com/",
"Accept-Language": "zh-CN,zh;q=0.9"
}
def fetch_product_detail(self, offer_id):
"""获取商品详情数据"""
try:
# 生成带签名的URL
url = self.sign_generator.generate_url(offer_id)
# 发送请求
response = requests.get(url, headers=self.headers, timeout=10)
response.raise_for_status() # 抛出HTTP错误
# 解析响应
data = response.json()
# 提取关键信息
if data.get("success"):
product_info = {
"offer_id": offer_id,
"title": data.get("data", {}).get("title"),
"price": data.get("data", {}).get("price"),
"seller": data.get("data", {}).get("seller", {}).get("name"),
"location": data.get("data", {}).get("seller", {}).get("location"),
"sales_count": data.get("data", {}).get("tradeCount")
}
return product_info
else:
print(f"获取商品详情失败: {data.get('errorMessage')}")
return None
except Exception as e:
print(f"请求发生错误: {str(e)}")
return None
# 使用示例
if __name__ == "__main__":
fetcher = ProductFetcher()
offer_id = "610877411453" # 示例商品ID
product_detail = fetcher.fetch_product_detail(offer_id)
if product_detail:
print("商品详情:")
print(json.dumps(product_detail, ensure_ascii=False, indent=2))
注意事项与反爬应对
- 密钥更新:1688 平台会不定期更新签名算法和密钥,需要定期检查并更新代码
- 请求频率控制:过于频繁的请求会被平台识别并封禁 IP,建议添加合理的请求间隔
- User-Agent 轮换:使用不同的 User-Agent 模拟不同的浏览器,降低被识别的概率
- 代理 IP:当 IP 被封禁时,可使用代理 IP 继续操作
- 法律合规:确保数据采集行为符合 1688 平台的用户协议和相关法律法规
总结
通过逆向解析 1688 商品详情接口的 Sign 签名算法,我们可以自主构建签名生成工具,实现对商品数据的合法采集。这一过程不仅需要掌握网络请求分析、JavaScript 逆向等技术,还需要不断应对平台的反爬策略更新。
需要强调的是,任何数据采集行为都应遵守相关法律法规和平台规定,确保数据的合法使用。随着电商平台反爬技术的不断升级,签名算法也可能随之变化,开发者需要持续关注并更新自己的实现方案。