【问大家】电商问答数据的采集与深度分析-2_商品问答数据

76 阅读11分钟

问大家模块可以说填补了宝贝评价部分的短板,评价部分单向传播属性较强,而问大家功能搭起了已购买与未购买用户之间的桥梁,其不支持删除及随机邀请的机制最大程度保证了用户获取信息的真实性。

通过这些问题和答案商家、品牌也能快速定位到用户感兴趣的相关问题,了解市场需求和痛点,从而进行产品优化,做出更加符合消费者需求的产品。

因此我采集了10万条不同类目的问答对数据。上篇我们对问题进行了分析,本文我将继续上次未做完的分析,用“护肤品”类目展示,对这个数据集的答案进行的详细分析,并分享一些有个人的观点和洞见。有助于了解用户需求、产品优化以及更好地理解各个领域的用户心声。

2. 数据采集和预处理

数据采集是数据分析挖掘的根基:
数据分析与挖掘过程中比较基础且重要的一个环节是数据采集,再好的特征选取,建模算法,没有了优质的元数据,也会“巧妇难为无米之炊”。

2.1 采集目标

本人选取了某宝上的20款“护肤品”类目的top商品,采集了该商品问大家的公开数据。这个数据集包含了用户提出的问题和已购买用户回答的答案。

2.3 采集数据展示

在这里插入图片描述

2.4 数据预处理
停用词去除

为了清洗数据并提高后续分析的效率,我首先进行了停用词的去除。停用词是指那些在文本中频繁出现但通常不包含有用信息的词汇,例如“的”,“是”,“在”等。通过去除这些词汇,我们可以减小数据集的大小并集中注意力在有意义的词汇上。

专业词汇处理

在数据预处理过程中,我还注意到一些专业词汇,如“敏感肌”、“干皮”、“油性皮肤”等可能会分词或多种术语表达,影响后续的分析。为了解决这个问题,我进行了专业词汇的处理。这包括了:
词汇替换:将一些特定的专业词汇替换为通用词汇或相近的词汇,以降低其对分析的干扰。
词汇过滤:筛选出与研究目标相关的专业词汇,忽略与主题无关的词汇。
词汇标记:标记专业词汇,以便后续分析时能够更容易地识别它们

在这里插入图片描述

3. 数据分析(回答版)

问题数据和答案数据分开分析,本次分析任务对回答进行分析,了解消费者在护肤品类目中关系的一些问题和吐槽点。(问题版见上篇)

3.1 统计信息

本次分析20款商品,共包含9555个问题、48005个答案。

问题字数的平均长度为12.58个字,答案的平均长度13.58字。

问题的常见词汇如下:
在这里插入图片描述
这些统计信息将帮助我们更好地了解数据的特点和分布情况。

3.2 语义网络分析

通过构建语义网络,我们可以探索问题之间的关联性,发现潜在的主题和洞察,并为数据提供更深入的理解。

3.2.1 分析步骤

1、词汇关联:使用词汇之间的关联性来构建初始的语义网络。通过计算词汇的共现频率或词汇之间的相似性来实现。
2、可视化网络:使用NetworkX将语义网络可视化,以便更好地理解问题之间的关联性。
3、主题发现:使用社区检测算法或聚类分析来识别问题的主题群组。
4、中心性分析:识别在语义网络中起关键作用的问题或词汇。

3.2.2 部分代码展示
# 计算关键词之间的共现次数
cont_list = [cont.split() for cont in cut_word_list]
alone_df = []
for i, w1 in enumerate(keywords):
    for j, w2 in enumerate(keywords):
        count = 0
        alone_count = 0
        for cont in cont_list:
            if w1 in cont and w2 in cont:
                count += 1
            elif w1 in cont or w2 in cont:
                alone_count += 1
        #coefficient词语共同出现的频次与各自单独出现频次和之比。系数值越大,关系越强,系数值越小,关系越弱。
        if alone_count==0:
            coefficient = count
        else:
            coefficient = count/alone_count
        alone_df.append([w1, w2, alone_count, count, round(coefficient,2)])
        matrix[i+1][j+1] = count


3.2.3 可视化展示

在这里插入图片描述

3.2.4 价值洞见

根据语义网络关系图和频次高的词汇,可以得出以下结论:

感觉、味道、皮肤、客服是关键连接点:在语义网络中,感觉、味道、皮肤、客服是最频繁出现的关键连接点。这表明消费者在选择护肤品时,特别关注产品的质感、气味、适用皮肤类型以及与客户服务的互动。

情感因素占主导地位:感觉和味道与情感因素密切相关。用户更倾向于购买具有愉悦感觉和香气的产品。因此,护肤品制造商应致力于提供令人愉悦的使用体验,以促进用户情感连接。

差异化的机会:分析还表明,护肤品市场仍存在差异化的机会。制造商可以通过创新产品的质地和香气来脱颖而出,以满足不同用户的需求。

3.3 多维数据分析

揭示问题数据中的潜在结构和关联性。通过MDS,我们可以将高维问题数据映射到低维空间,从而帮助我们可视化问题之间的相似性和差异性。

3.3.1 分析步骤

MDS的主要步骤包括:
距离矩阵计算:选取n个数据点,通过共现值算出Jaccard距离矩阵。
降维:使用MDS算法将高维距离矩阵映射到低维空间。MDS有不同的变种,包括经典MDS和非度量MDS,可根据您的需求选择,本分析使用非度量MDS。
聚类:为了更好的看出差异性,本分析将降维后的数据集进行了Kmeans聚类。
可视化:将降维后的数据在低维空间中可视化,以揭示问题之间的结构和关联性。

3.3.2 可视化展示

在这里插入图片描述

3.3.3 价值洞见

整合的护肤理念: 从这个MDS分析中,我们可以看到不同人关注护肤品时的不同关键词聚集。这可能反映了不同人在护肤方面的优先级和需求。品牌可以将这些不同的关键词组合在一起,提供全面的护肤方案,以满足不同类型和需求的消费者。

用户情感和体验: 这个MDS分析强调了与情感和体验相关的关键词,如味道、感觉、建议、客服等。这表明护肤品不仅是功能性产品,还是一种情感体验。品牌可以在市场营销中强调如何创造愉悦的护肤体验,包括提供专业建议和优质的客户服务。

产品特性的重要性: 各种特性如高纯度、精华成分、质地等也引起了人们的关注。这表明消费者对于护肤品的成分和质地有高度的关注,他们可能正在寻找高质量、高效能的产品。品牌可以强调产品的独特特性和优势。

个性化护肤解决方案: 通过考虑不同人的需求和偏好,品牌可以提供个性化的护肤解决方案。这包括不同皮肤类型、护肤目标和喜好。通过定制化产品和建议,品牌可以更好地满足不同人群的需求。

3.4 情感数据分析

情感数据分析是利用自然语言处理和机器学习技术来分析文本数据中的情感、态度和情绪。这种分析可以应用于社交媒体评论、客户反馈、产品评论、新闻报道等各种文本数据来源。情感数据分析有助于了解人们对特定主题、产品、事件或服务的感受,帮助企业、政府和研究机构更好地理解和满足受众的需求。

3.4.1 分析步骤

情感分析的主要步骤包括:

数据清洗:停用词的去除和高频词无用词的去除。
情感算分:使用开源snownlp数据分析库计算情感值。
标记:将小于0.3的回复记为差评,0.3-0.7的为中评,大于0.7的为正向。

3.4.2 可视化展示:

在这里插入图片描述

3.4.3 价值洞见:

情感分布比较均衡: 从情感值的分布来看,正向情感占比为27%,中性情感占比为37%,负向情感占比为35%。这表明在这些回复中,正面和负面情感的比例相对均衡,而中性情感也占有相当大的比例。这种均衡的情感分布可能反映了受众在护肤品问题上的多样化看法。

中性情感可能占主导: 尽管正向和负向情感占比相当,但中性情感占据了最大的比例。这可能表示大部分回复中没有明显的情感倾向,或者回复涉及多个情感,其中正负相互抵消。

改进和反馈机会: 这些情感分析结果可以为相关品牌或组织提供改进和反馈的机会。如果有较高比例的负向情感,可以识别问题并采取措施改进产品或服务。如果有较高比例的正向情感,可以在市场推广中强调产品的优点。

3.5 词云分析

通过生成词云,我们可以一目了然地看到问题数据中的高频词汇,从而更好地理解用户关注的主题。

3.5.1 可视化展示-负向

在这里插入图片描述

3.5.2 价值洞见-负向:

产品体验问题: 消费者在这些负向回复中经常提到"感觉"和"味道"。这表明他们可能对护肤产品的使用体验不满意,可能与产品的质地、气味或触感有关。品牌可能需要关注产品的质地和气味,以提高消费者的满意度。

(1)Python所有方向的学习路线(新版)

这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

最近我才对这些路线做了一下新的更新,知识体系更全面了。

在这里插入图片描述

(2)Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

在这里插入图片描述

了解详情:docs.qq.com/doc/DSnl3ZG…