首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
python
冷月半明
创建于2022-04-11
订阅专栏
关于python
等 9 人订阅
共43篇文章
创建于2022-04-11
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
从 0 到 1 打造永不掉线的爬虫调度器:APScheduler + FastAPI 实战全纪录
一、引言 在数据采集领域,定时任务调度是一个常见且关键的需求。特别是对于需要定期从平台抓取数据的项目来说,稳定、灵活、可配置的调度系统尤为重要。本文将详细介绍如何基于 Python 的 APSched
时间序列篇:Prophet负责优雅,LightGBM负责杀疯
在时间序列预测中,我们经常会面临具有季节性波动、节假日效应和突发变化的数据。例如,电力需求的预测不仅受到季节变化的影响,还会受到节假日、周末等因素的波动。传统的时间序列方法,如ARIMA和SARIMA
把离线 Python 项目塞进 Docker:从 0 到 1 的踩坑实录,一口气讲透 10 个最常见困惑
写在前面:为什么要读这篇博文? 你可能遇到过这些场景: 公司内网不通 Docker Hub,拉不到镜像; 项目要跑在 port1 端口,同时还得访问宿主机 port2 的服务; 字体、时区、依赖统统要
Python重试机制终极指南:两种重试并增加日志记录方法详解
在日常开发中,临时性错误(如网络波动、服务繁忙、资源锁竞争)是程序员最常遇到的挑战之一。这些错误通常会在短时间内自动恢复,但若处理不当,会导致程序崩溃或数据丢失。本文将深入解析两种高效记录
Prophet预测波动性实战:5招让你的时间序列曲线"活"起来 破解预测曲线太平滑的行业痛点
当Prophet遇上"性冷淡"曲线:为什么你的预测总像心电图平直线? 在金融交易量预测、电商销量预估等场景中,数据常呈现剧烈波动特征。尽管Facebook开源的Prophet模型以"开箱即用"著称,但
《Pandas 性能优化:向量化操作 vs. Swifter 加速,谁才是大数据处理的救星?》
在处理大规模数据时,Pandas 的 apply() 方法可能会导致性能瓶颈,尤其是在逐行操作时。本文将详细介绍如何优化 apply() 操作,并将其转化为向量化操作,以显著提升计算速度。 一、背景介
Python项目打包指南:PyInstaller与SeleniumWire的兼容性挑战及解决方案
前言 前段时间做一个内网开发的需求,要求将selenium程序打包成.exe放在内网的win7上运行,在掘金搜了一圈也没有发现相关文章,因此将过程中踩到的坑记录分享一下。 本文涵盖了具体打包操作、不同
打包成.exe的代码与打包不出的爱情:24届码农的魔幻入职年
踏出象牙塔 24年正常毕业,从河南一个二本里完成了自己从学生到社会人士的身份转变,上半年里,一边在广州一家小企业里Python开发实习,一遍修改毕设报告,因为导师要求比较高,报告改了一遍又一遍,但好在
Selenium与Qt应用:自动化与GUI结合实践
前言 在自动化测试中,Selenium 是一个强大的工具,能够模拟真实的浏览器操作。然而,当我们需要通过图形用户界面(GUI)进一步提高操作效率时,如何将自动化流程与用户友好的操作界面结合起来便成为了
高级技巧:使用Selenium WebDriver模拟用户操作防止滑动条验证
在进行Web自动化测试时,经常会遇到各种前端验证机制,如滑动条验证,这些机制设计用来防止自动化脚本模拟用户行为。在本文中,我们将探讨如何使用Selenium WebDriver来模拟用户操作,以规避这
热搜不再错过:用Python打造你的微博热搜追踪器
简介 在当今信息爆炸的时代,获取最新、最热门的信息成为了许多人的日常需求。微博热搜榜作为反映社会热点和公众关注焦点的重要窗口,其信息价值不言而喻。本文将介绍一个实用的Python爬虫程序,它能够自动爬
职业生涯第二课---"前人埋雷,后人踩坑"
前言 在这段半个月的实习生涯中,前几天主动优化自己写的代码,还学到了分布式事物锁,有点沾沾自喜。没想到没过几天就踩到了前人埋下的雷。 正文 事情是这样的,我接手了上个实习生的工作,对原有的程序做扩展多
职业生涯第一课---"Redis分布式锁优化:确保唯一性与效率"
前言 最近因为刚入职公司开启自己的实习生涯,工作和毕设论文同步进行,导致有段时间没更新博客了,今天来分享一下最近学到的一些知识。 场景介绍 BOSS让我写一些接口,他提出这样一个需求,该接口的参数有多
停用词究竟有何妙用:优化分词、精进LDA模型
引言: 在自然语言处理领域,文本数据的处理是一项至关重要的任务。而在处理文本数据时,分词是一个必不可少的步骤,它将文本拆分成有意义的词语或短语,为后续的文本分析和挖掘奠定了基础。然而,传统的分词方法往
精准定制:利用本地词库优化Jieba分词,提升景区评论数据LDA建模效果
引言: 在进行景区评论数据的LDA建模时,精确的分词是至关重要的。然而,通用的分词工具在处理特定领域的文本时可能表现不佳。针对这一挑战,本文探讨了如何利用本地词库,特别是搜狗词库中关于旅游领域的专业词
解析旅游者心声:用PySpark和SnowNLP揭秘景区评论的情感秘密
简介: 在本篇博客中,我们将探讨如何利用PySpark和SnowNLP这两个强大的工具来分析大规模的旅游评论数据。通过结合携程和去哪儿的数据作为示例,我们将探索如何从海量的评论中提取有价值的情感信息和
SmartChart的部署以及可能遇见的报错解决方案
简介 数据可视化是一种将数据转化为图形的技术,可以帮助人们更好地理解和分析数据。但是,传统的数据可视化开发往往需要编写大量的代码,或者使用复杂的拖拽工具,不仅耗时耗力,而且难以实现个性化的需求。有没有
使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解(保姆级编码教程)
在大数据处理中,PySpark 提供了强大的工具来处理海量数据,特别是在数据清洗和转换方面。本文将介绍如何使用 PySpark 进行数据清洗,并将数据格式转换为 JSON 格式的实践。 简介 PySp
scrapy_redis实战去哪儿旅游信息爬虫(分布式爬虫实例)
前言 在这个信息爆炸的时代,网络上充斥着大量的旅游信息,而其中关于景区的介绍和评论更是琳琅满目。然而,对于想要获取特定景区信息并了解其真实评价的人来说,筛选和获取准确、有用的数据可能是一项极具挑战性的
Scrapy+Selenium项目实战--携程旅游信息爬虫
在网络爬虫中,使用Scrapy和Selenium相结合是获取动态网页数据的有效方式。本文将介绍如何使用Scrapy和Selenium构建一个爬取携程旅游信息的爬虫,实现自动化获取数据的过程。 本文已对
下一页