使用半监督学习映射用户行为以识别以太坊中的专业账户

84 阅读13分钟

研究目的

该研究针对以太坊平台用户行为识别问题,提出结合无监督学习与半监督学习的方法,旨在从匿名用户中区分出从事专业活动(如交易、支付服务等)的账户。由于平台公开标记的专业用户数据极少(仅占0.83%)且类别高度不平衡,研究首先通过无监督学习对未标记账户聚类,识别出普通行为用户,构建包含标记(普通/专业)和未标记实例的混合数据集;继而利用半监督学习训练分类模型,从未标记数据中挖掘专业账户。

研究介绍

由于区块链提倡匿名性,在保持身份匿名的同时识别用户特征是具有挑战性的。DeFi可通过用户画像分析实现两项核心功能:一是依据用户行为特征筛选适合其服务的目标客户,例如针对支付、贷款、捐赠或NFT版税等服务匹配潜在用户;二是评估用户信用风险,为金融服务的合规性和安全性提供数据支撑,这种分析能有效提升DeFi领域的服务效率与风险管控能力。现有工具(如Etherscan)依赖手动标注用户身份,效率低且不通用,而学术研究多聚焦于区块链安全、智能合约分类或投资风险分析,缺乏针对"专业用户/普通用户"的自动化分类方法。为此,研究提出结合无监督学习与半监督学习的框架。


sequenceDiagram

participant 数据获取

participant 无监督学习聚类

participant 构建混合数据集

participant 半监督学习训练

participant 专业账户分类

数据获取 ->> 无监督学习聚类: 输入未标记用户账户数据集(16,878个未标记账户)

无监督学习聚类 ->> 无监督学习聚类: 应用k-means聚类(k=2~10),识别最大公共集群(16,576个普通行为用户)

无监督学习聚类 ->> 构建混合数据集: 输出普通用户(16,576个,标记为“普通”)+ 剩余未标记账户(302个)

数据获取 ->> 构建混合数据集: 输入已有专业用户(142个,标记为“专业”)

构建混合数据集 ->> 半监督学习训练: 混合数据集=专业用户(142)+ 普通用户(16,576)+ 未标记账户(302)

半监督学习训练 ->> 半监督学习训练: 应用Transductive-SVM等方法,利用标记数据和未标记数据联合训练

半监督学习训练 ->> 专业账户分类: 输出分类模型,从未标记账户中识别专业账户(299个预测为专业,3个预测为普通)

专业账户分类 --> 结果: 最终分类结果(专业/普通用户)

研究核心贡献:
  1. 构建了包含142个专业用户的标注数据集,提取7项交易特征(如智能合约交互次数、账户余额等);

  2. 设计了融合多类机器学习方法的框架,解决区块链场景下数据匿名性和标注稀缺问题;

  3. 通过对比实验验证了方法的有效性,为区块链用户画像分析提供了新范式。

研究结果可为DeFi应用优化用户服务、提升风险管控能力提供技术支持,并可扩展至其他区块链平台的用户分类任务。

相关工作

在区块链平台用户行为分类研究中,以太坊等平台上的去中心化应用(dApps)如DeFi、游戏、金融服务等通过智能合约提供多样化服务,吸引了专业用户(服务提供者)和普通用户(仅进行简单资产转移),此类应用需分析用户行为以优化服务(如匹配目标客户)和评估风险(如信用分析),例如DeFi可通过用户画像筛选适合贷款、支付或NFT版税服务的用户。现有研究中,无监督学习方法被用于识别用户群体特征,图论与网络结构分析方法则聚焦于挖掘区块链网络的结构特征。现有方法的局限在于缺乏针对“专业用户”(提供服务)和“普通用户”(简单交易)的自动化分类,且未解决区块链数据匿名性和标注稀缺问题,为此本文提出结合专家定义的明确类别(专业/普通)与多模态机器学习方法(无监督聚类+半监督分类),实现对用户行为的显式分类,为区块链平台的精准服务和风险评估提供支持。

数据描述

image.png

研究团队通过Etherscan和Etherchain API收集了2019年4月15日至7月26日期间以太坊区块链上的20,857,783笔交易,从中随机均匀选取2,519,711笔(占比3.2%)以减少加密货币价格波动导致的平台季节性影响。基于这些交易,提取了17,020个唯一账户(视为独立用户),并为每个账户构建7项特征:发送交易数、接收交易数、向智能合约发送的交易数、接收来自智能合约的交易数、最新以太币余额、账户总交易数(含未纳入数据集的交易),以及用于分类的标签(专业用户通过Etherscan公开标识定义,共142个,占比0.83%;其余16,878个为未标记账户,占比99.17%)。数据集呈现显著类别不平衡,未标记账户需通过机器学习方法判断其属于专业用户还是普通用户,为后续结合无监督与半监督学习的分类模型构建提供了数据基础。

研究方法

1. 提出的方法

image.png

image.png

研究首先指出前期监督学习方法的局限——将所有未标记账户默认视为普通用户,导致潜在专业用户被误判(图1流程)。为减少标签噪声,新方法通过无监督学习(k-means聚类)对未标记数据进行分析,识别出具有典型普通行为的用户集群(最大公共集群),并将其标注为普通用户,剩余未标记账户暂不分类(图2(a))。在此基础上,引入半监督学习(Transductive-SVM),利用包含专业用户、已识别普通用户及未标记数据的混合数据集进行训练,通过标签传播挖掘未标记数据中的专业账户(图2(b))。此外,针对数据高度不平衡(专业用户仅占0.83%),在交叉验证中采用随机欠采样、过采样和SMOTE等技术平衡训练数据,提升模型对少数类的识别能力。该方法通过多阶段机器学习策略,有效整合标记与未标记数据信息,为解决区块链场景下的稀疏标注问题提供了新框架。

2. 机器学习方法

  • 监督学习部分选取K-近邻(KNN)、决策树(DCT)、随机森林(RF)、逻辑回归(LG)、支持向量机(SVM)和分类委员会(Classifier Committees)等算法,其中分类委员会通过硬投票(多数表决)或软投票(加权表决)整合多个模型预测结果,旨在平衡单个模型的弱点。

  • 无监督学习采用k-means算法对未标记数据聚类,通过分析不同k值(2~10)下的最大公共集群,识别出具有典型普通行为的用户账户(16,576个),剩余302个行为不典型的账户保留为未标记状态。

  • 半监督学习阶段引入转导支持向量机(Transductive-SVM),利用标记数据(专业/普通用户)和未标记数据的特征相似性进行标签传播,将未标记账户纳入训练以提升分类模型性能。

针对数据集高度不平衡(专业用户仅占0.83%),研究在10折交叉验证中采用三种平衡策略:随机欠采样(删除多数类实例)、随机过采样(复制少数类实例)和SMOTE(生成少数类合成实例),以优化模型对少数类(专业用户)的识别能力。此外,框架利用随机森林等决策树模型提取分类过程的关键特征,为分析用户行为提供解释性支持。

3. 性能度量

image.png

针对以太坊用户分类中专业用户数据极不平衡(仅占0.83%)的问题,重点采用能有效反映少数类分类效果的指标。

  • 基础指标中,Accuracy(准确率)虽直观但在不平衡数据中易受多数类主导,无法真实反映专业用户识别能力;

  • Precision(精确率)衡量预测为专业用户的样本中实际为专业用户的比例,体现对正类的误判率;

  • Recall(召回率)关注实际专业用户中被正确识别的比例,对捕捉稀缺的专业用户至关重要。

  • 综合指标方面,Fβ-score通过调整β值调和Precision与Recall,本文采用F2-score(β=2)以更高权重突出Recall,优先减少专业用户漏判;

  • Matthews相关系数(MCC)综合考虑真/假正负例,对不平衡数据鲁棒性强,取值范围[-1,1],1表示完美预测,0为随机预测,是可靠的综合评估指标。

  • 阈值无关指标AUC-ROC通过绘制不同分类阈值下真正率与假正率的关系曲线,其面积反映模型区分两类的整体能力,值越接近1性能越好,本文将其作为Soft Voting分类器的核心决策指标。

这些指标的选择紧密结合数据不平衡特性与实际应用需求,聚焦于精准评估和提升模型对专业用户的识别效果,避免单一依赖Accuracy导致的评估偏差,为模型性能对比和优化提供了多维度的科学依据。

实验与结果

1. 监督学习

image.png

本节聚焦传统监督学习方法在以太坊用户分类中的应用,将未标记数据默认视为普通用户作为基线,并通过数据平衡技术(欠采样、过采样、SMOTE)优化模型对少数类(专业用户)的识别能力。实验结果显示,尽管Accuracy普遍较高(>98%),但Precision和Recall等反映少数类性能的指标差异显著:无预处理时模型易偏向多数类,Recall低于41%,仅能识别不到50个专业用户(TP<42);采用欠采样和过采样后,Recall和AUC-ROC显著提升,TP可达94%-95%,且TN保持在90%以上。

随机森林在个体模型中表现最优,AUC-ROC和TP均超94%,成为软投票分类器的核心决策依据;欠采样技术因在AUC-ROC指标上表现最佳(最高达0.968),成为最有效的预处理方法。然而,监督学习仍存在局限性,如未标记数据中的潜在专业用户被误判为普通用户,导致标签噪声,且未充分利用未标记数据的信息,为后续结合无监督和半监督学习的改进方法提供了优化空间。

2. 无监督学习

image.png

image.png

本节聚焦无监督学习在以太坊用户分类中的应用,通过k-means聚类技术处理未标记数据以优化训练集纯度。研究对16,878个未标记账户进行聚类(k=2~10),发现最大集群在不同k值下保持稳定,通过交集分析确定16,576个行为高度相似的账户为普通用户(占比98.2%),剩余302个因行为不典型仍保留为未标记状态。将识别出的普通用户与142个专业用户结合,形成包含16,718个标记样本的新数据集(专业用户占0.85%),并采用欠采样、过采样、SMOTE等技术平衡数据。

实验结果显示,无监督学习显著提升了模型对专业用户的识别能力:与传统监督学习(默认未标记为普通用户)相比,随机森林在SMOTE平衡下的真阳性(TP)从84.51%提升至92.96%,AUC-ROC从0.866提升至0.977,且多数类(普通用户)的真阴性(TN)保持在99%以上。k-means聚类通过过滤噪声(排除潜在非普通用户),使普通用户标签纯度从99.17%提升至99.8%,减少了监督学习中错误标签的干扰。此外,无监督步骤为后续半监督学习提供了更可靠的基础数据集,验证了结合无监督与监督学习在处理区块链匿名数据时的有效性,为解决类别不平衡和标注稀缺问题提供了关键支撑。

3. 半监督学习

image.png

image.png

image.png

image.png

本节聚焦半监督学习在以太坊用户分类中的应用,将无监督学习筛选出的普通用户(16,576个)、专业用户(142个)与剩余未标记的302个账户整合,形成包含标记与未标记数据的混合数据集,通过Transductive-SVM(转导支持向量机)进行标签传播以挖掘潜在专业账户。实验中结合欠采样、过采样、SMOTE等数据平衡技术,结果显示半监督学习显著提升了模型对少数类(专业用户)的识别能力:欠采样下随机森林实现100%真阳性(TP),即正确识别所有142个专业用户,AUC-ROC达96.8%;过采样和SMOTE处理后,TP分别提升至95.77%和97.8%,且AUC-ROC均超94%。

Transductive-SVM对302个未标记账户的标签分配显示,299个被分类为专业用户,仅3个为普通用户,其交易特征(如高余额、高频智能合约交互)与已标记专业用户高度相似,验证了半监督学习对潜在专业账户的有效挖掘。与仅使用监督学习或无监督学习的方法相比,半监督学习通过整合未标记数据的结构信息,避免了未标记数据的简单丢弃或错误归类,在准确率、召回率、MCC等指标上均实现显著提升(关键指标超95%),尤其在处理区块链场景下的匿名数据和稀疏标注问题时优势突出,为高效识别稀缺专业用户提供了关键技术路径。

研究结论

研究提出整合无监督与半监督学习的框架,通过无监督聚类识别普通用户、半监督学习挖掘未标记数据中的专业账户,有效解决了区块链平台用户分类中数据匿名性和标注稀缺的挑战。实验表明,该框架在准确率、精确率、召回率、Fβ分数、MCC和AUC-ROC等指标上均超过95%,显著优于传统监督学习方法,为去中心化金融(DeFi)等应用的用户画像分析和风险评估提供了高效解决方案。

研究的核心贡献包括:1)构建了包含142个专业用户的标注数据集,提取7项交易特征;2)设计了融合多类机器学习的分类框架,解决数据不平衡问题;3)通过对比实验验证了方法的优越性,为区块链用户画像分析提供新范式。未来计划优化模型性能、提取更多交易特征,并将框架扩展至其他区块链平台及用户分类场景。研究结果为加密货币生态系统中用户行为分析提供了重要技术支撑,具有显著的实际应用价值。