综合大麻药房数据集深度分析报告:包含579家门店、92种品种、1300+客户及完整交易记录的全量数据研究
引言与背景
随着全球大麻产业的快速发展,数据驱动的决策变得愈发重要。本数据集为研究大麻零售行业提供了全面且丰富的信息资源,涵盖从门店运营到客户消费的完整业务链条。该数据集由Elmhurst University于2024年7月创建,包含8个关联数据表,涵盖品牌信息、客户档案、订单交易、门店位置、产品库存、产品分类、州级法规和品种信息等核心业务维度。
该数据集的价值在于其综合性和关联性,研究人员和从业者可以通过多维度数据分析,深入了解大麻零售市场的运营模式、消费者行为和区域差异。数据涵盖美国多个州的药房运营情况,包含完整的交易记录和产品信息,为算法训练、市场分析和业务优化提供了宝贵的基础数据。
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| unq_id | 整数 | 唯一标识符 | 1 | 100% |
| name | 字符串 | 名称(品牌/客户/门店) | Old Glory | 100% |
| lat | 浮点数 | 纬度坐标 | 41.3973809 | 100% |
| lng | 浮点数 | 经度坐标 | -72.854575 | 100% |
| city | 字符串 | 城市 | Los Angeles | 100% |
| state | 字符串 | 州 | CA | 100% |
| prod_type_id | 整数 | 产品类型ID | 1 | 100% |
| prod_name | 字符串 | 产品名称 | 2nd Ave Smoke flower popcorn | 100% |
| prod_thc_lvl | 字符串/浮点数 | THC含量 | 0.20 | 100% |
| prod_qty | 字符串 | 产品规格 | 7g | 100% |
| prod_lst_price | 字符串 | 标价 | $70.00 | 100% |
| ord_datetime | 日期时间 | 订单时间 | 2019-01-01 09:02:09 | 100% |
| ord_itm_qty | 整数 | 订购数量 | 1 | 100% |
| ord_itm_cost | 浮点数 | 商品成本 | 70.0 | 100% |
| ord_itm_tax | 浮点数 | 税额 | 7.7 | 100% |
| ord_itm_total | 浮点数 | 订单总额 | 77.7 | 100% |
| tax_rate | JSON | 税率结构 | {"s": 0.15, "i": 0.12, "c": 0.31} | 100% |
| type | 字符串 | 类型(医疗/娱乐) | Medical | 100% |
| most_common_terpene | 字符串 | 主要萜烯 | Caryophyllene | 100% |
数据分布情况
门店类型分布
| 类型 | 记录数量 | 占比 |
|---|---|---|
| Medical | 315 | 54.4% |
| Recreational | 264 | 45.6% |
| 总计 | 579 | 100% |
产品类别分布
| 类别 | 子类数量 | 占比 |
|---|---|---|
| concentrate | 23 | 41.1% |
| flower | 5 | 8.9% |
| vape | 6 | 10.7% |
| edible | 8 | 14.3% |
| preroll | 3 | 5.4% |
| topical | 3 | 5.4% |
| capsule | 2 | 3.6% |
| tincture | 1 | 1.8% |
| beverage | 4 | 7.1% |
| 总计 | 56 | 100% |
品种类型分布
| 类型 | 数量 | 占比 |
|---|---|---|
| Hybrid | 56 | 60.9% |
| Indica | 24 | 26.1% |
| Sativa | 12 | 13.0% |
| 总计 | 92 | 100% |
客户注册类型分布
| 注册类型 | 数量 | 占比 |
|---|---|---|
| r (Recreational) | 486 | 37.1% |
| m (Medical) | 478 | 36.5% |
| o (Other) | 345 | 26.4% |
| 总计 | 1309 | 100% |
主要实体分布
Top 10品牌
| 品牌名称 | 产品种类 | 门店覆盖 |
|---|---|---|
| Head to Toe | 9 | 广泛 |
| Smokers Expo | 7 | 广泛 |
| Aladdins Smoke | 8 | 广泛 |
| Songbirds | 7 | 广泛 |
| Likwid | 7 | 广泛 |
| Cigarillos | 7 | 广泛 |
| Lava Smoke | 7 | 广泛 |
| Blue Nile | 7 | 广泛 |
| Utopia | 6 | 广泛 |
| Remedy | 6 | 广泛 |
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据完整性 | 9个关联数据集,字段完整率100% | 支持多维度关联分析 |
| 地理覆盖广 | 涵盖CA、CO、AZ、OR、WA等多个主要大麻合法化州 | 支持区域对比研究 |
| 时间跨度长 | 订单数据从2019年开始,包含完整交易记录 | 支持趋势分析和时间序列预测 |
| 产品多样性 | 56种产品类型,92种大麻品种,详细THC和萜烯信息 | 支持产品推荐和分类算法训练 |
| 法规数据完善 | 59个州/地区的税率和购买限制信息 | 支持合规分析和税务优化 |
| 客户画像完整 | 1309位客户的详细信息和购买历史 | 支持客户细分和精准营销 |
| 交易数据丰富 | 包含订单时间、数量、金额、税额等完整信息 | 支持销售预测和库存管理 |
数据样例
品牌数据样例
- Old Glory - 位于CT North Haven,提供beverage、vape、concentrate、preroll、edible、flower等6类产品
- F5 Smoke - 位于PA Allentown,提供concentrate、edible、flower、preroll、vape、beverage等6类产品
- Smokers Choice - 位于NY Middletown,提供capsule、edible、vape、tincture、topical等5类产品
- Nutz - 位于NY Wappingers Falls,提供concentrate、preroll、beverage、flower、vape等5类产品
- Pavilion - 位于NY Setauket,提供topical、capsule、beverage、tincture、concentrate等5类产品
产品库存样例
- 2nd Ave Smoke flower popcorn - THC 0.14,规格7g,标价$70.00
- Aladdins Smoke concentrate live diamonds - THC 0.6,规格1g,标价$15.00
- Amazing edible gummy - THC 500mg,规格30颗,标价$15.00
- Blue Nile vape cart distillate - THC 0.51,规格2g,标价$40.00
- Cigarillos concentrate shatter - THC 0.57,规格2g,标价$210.00
品种数据样例
- GG4 - Hybrid,THC 0.20,主要萜烯Caryophyllene
- Wedding Cake - Hybrid,THC 0.22,主要萜烯Limonene
- Runtz - Hybrid,THC 0.19,主要萜烯Limonene
- Blue Dream - Sativa-dominant,THC 0.18,主要萜烯Myrcene
- Purple Punch - Indica,THC 0.19,主要萜烯Caryophyllene
订单交易样例
- 订单12019 - 2019-01-01 09:02:09,购买Amazing flower popcorn 1件,金额$77.70
- 订单22019 - 2019-01-01 09:02:53,购买Aladdins Smoke flower moon rocks 1件,金额$10.70
- 订单32019 - 2019-01-01 09:03:34,购买2nd Ave Smoke concentrate oil syringe 1件,金额$19.65
- 订单62019 - 2019-01-01 09:06:10,购买2nd Ave Smoke flower popcorn 1件,金额$11.40
- 订单72019 - 2019-01-01 09:07:22,购买Cigarillos topical balm 1件,金额$31.25
应用场景
1. 智能库存管理系统
基于产品库存数据和订单交易记录,可以构建智能库存管理系统。通过分析历史销售数据,预测不同门店、不同产品的需求趋势,实现库存优化和自动补货。系统可以根据产品的THC含量、价格区间、客户偏好等因素,动态调整库存结构,降低库存成本,提高资金周转率。同时,结合各州法规数据,可以确保库存合规,避免因法规限制导致的库存积压或短缺。
2. 个性化推荐系统
利用客户数据和购买历史,可以构建个性化推荐系统。通过分析客户的购买频率、产品偏好、消费金额等特征,结合产品的THC水平、品种类型、价格等属性,为客户提供精准的产品推荐。推荐系统可以考虑多种因素,如客户的注册类型(医疗/娱乐)、所在州的法规限制、产品的萜烯成分等,提升客户满意度和复购率。
3. 区域市场分析与扩张决策
通过分析门店位置数据、客户分布和销售情况,可以进行区域市场分析。研究不同州、不同城市的市场需求差异,识别高潜力市场区域,为门店扩张提供数据支持。同时,结合各州的税率和购买限制法规,可以评估不同区域的运营成本和市场潜力,优化资源配置和战略布局。
4. 销售预测与需求规划
基于历史订单数据,可以构建销售预测模型。通过分析时间趋势、节假日效应、产品生命周期等因素,预测未来的销售趋势,帮助企业进行生产计划、采购决策和人员配置。预测模型可以细分到产品类别、门店级别,提供精细化的需求预测,支持精细化运营管理。
5. 合规管理与风险控制
利用州级法规数据,可以构建合规管理系统。系统可以实时监控各门店的运营是否符合当地法规要求,包括产品展示、销售限制、税务申报等方面。同时,通过分析客户的注册类型和购买记录,确保销售符合医疗/娱乐分类限制,降低合规风险。
结尾
本数据集提供了大麻零售行业的全面视角,涵盖从供应链到消费者的完整业务链条。579家门店、92种品种、1300+客户及完整交易记录构成了一个丰富的数据生态系统,为科研、算法训练和业务决策提供了坚实基础。
数据的核心优势在于其完整性和关联性,各数据集之间可以进行多维度交叉分析,挖掘深层业务洞察。无论是学术研究还是商业应用,本数据集都具有极高的价值。
如需获取更多详细数据或进行定制化分析,可私信获取进一步信息。
本文基于综合大麻药房数据集(Synthetic Cannabis Dispensary Database)进行全量分析,数据来源为Azure Databricks,由Elmhurst University创建。