阅读 213

研一的我在疫情之下的上半年 | 掘金征文

这个寒假过得实在是太长了,从羽绒服过到了短袖。整整在家呆了大半年,估计要九月份开学才会去学校了。现在导师还在说我们天天在家过年。当然这半年也没有闲下来,不过确实学习效率要低的多,自律性本身也不太好的我,养成了晚睡晚起的习惯。

这疫情既是挑战,也是机遇吧,这半年自己闲在家里还是做了很多的事情,当然也养成很多坏习惯。人算是懒散了好多。现在就对我的2020年不平凡的上半年,做一个总结把。

主要从谈谈写公众号,比赛吧,当然还有很多需要说的,暂时就只说这两个今年对我影响比较大把。

1.公众号的历程

开始正文把,说一说我这一路来的经历,2003年非典,马云成就了淘宝,刘强东创建了京东。2020年新冠疫情,我没有那么宏伟的抱负,我只能创建一个微信公众号折腾折腾一下。为什么说这个疫情是挑战也是机遇,那就得从我的公众号开始说了,我写公众号也是因为那段时间疫情宅在家中给闲出来的。想着找点事情来做,因为自己平常也比较喜欢看点公众号的推文,写点点博客,我就想自己也可以注册一个公众号发点推文啥的,那时候还不懂什么自媒体,培养什么副业,想法很简单,就是学习,记录自己的学习笔记,想想以后面试也可以成为一个加分项。所以就注册了一个公众号【五角钱的程序员】,感兴趣的欢迎前去观摩哦。

                                   

随着时间的流逝,自己慢慢深入进去把,就发现原来公众平台是一个很好的自媒体平台,好多大佬都拿来当副业来进行运营。

肯定自己是有点心动的,如果能盈利的话那当然自己的创作动力会更强,动力更强,就会保持一定的频率去更新,写更多好的文章。但是大家都知道,公众号是一个封闭的平台,不想掘金,CSDN这些平台有时候一篇文章能够得到很好的流量扶持,公众号只有关注你的人才会看到你的文章。所以涨粉是一个很头疼的事情。据说有五百个粉丝的话能够开通流量主,开通流量主之后,文中就可以插入广告小卡片,然后只要有人点的话就会有收益点击一次据说有一块,当时我就抱着这两个心态,一直在我的公众号,博客上面折腾,当然不止这两个平台了,为了引流我注册了很多平台其实。当然公众号经营的也少,刚开始时间多能够做到每日一更,因为开学,自己也有学术上的压力,所以后面的话,更新次数也比较少,一般三四天一更。涨粉自然很差很差了,以至于四个月我才涨了五百粉。

不过我的粉丝最近这段时间涨的比较快。目前有将近3000的粉丝了。自己也花了2418开通了留言功能,欢迎大家前来留言哦



在未来的路上,我也会一直走下去,当然不是那么容易的,肯定会四处碰壁。失败是成功之母嘛,哪能一帆风顺,都是摸爬滚打,慢慢成长。在成长的路途当中,我也会记录自己成长的一些经验【公众号有个专栏,专门记录自己的一些经验分享】分享给大家,希望大家,能够少走一点弯路,分享干货,让我们一起成长,一起学习,一起温情的热爱生活。

公众号【五角钱的程序员】疯狂暗示!



2.比赛服创大赛-僵尸企业画像及分类

刚开始选择这个看到这个题目的时候其实自己是一脸懵逼的,特别是看到僵尸两个字,就让我想起了小时候看的林正英的僵尸大片。还有画像二字,也是很懵逼的,画像,画什么像,画一个僵尸吗。选完题目之后,后面就组队,不得不说我们的团队还是配合的相当的不错,师姐,师兄,师妹,个个都很给力,通过我们的团队合作,可以说是相当的完美了。不管结果如何,我觉得我都应该写一份心得体会。来记录这几个月从一个小白什么都不懂,到后面完美的完成比赛。

总结一下,僵尸企业画像分类及画像抓重点,就是企业的画像和分类两个方面。一开始我们就疯狂的到处找文档,怎么样来评判僵尸企业,企业符合那些条件就是僵尸企业。当时找了很多资料,也看了很多,最后还是运用了 一些进来的。刚开始拿到企业给的数据其实是很懵逼的。企业要求如下:
要求:
(1)多表数据融合的能力;
(2)数据特征提取的能力;
(3)数据预处理的能力;
(4)数据建模的能力。
目标:追求模型分类识别的精确性与高效性。
四张表分别有,企业的基本信息表,专利等表,企业年度报表,还有企业的融资表。看到这四张表很是懵逼。怎么体现(1)多表数据融合的能力;(2)数据特征提取的能力;(3)数据预处理的能力;(4)数据建模的能力。自己也没接触过这方面的。最后通过和师兄师姐来商讨,最后确定下来这是一个数据分析赛题。当然数据分析只是一方面,最后还得开发一个系统来进行画像。

当时最初的办法是想通过weka来进行数据分析,因为weka是数据分析的一把利器。先用weka分析一下来看看数据的基本信息等情况。我还是倒腾了weka一两周,看b站上面的视频自己倒腾了一下,发现weka可以把你的需求变成代码,生成的还是java代码,当时还是有一点点心动、因为weka是java写的嘛,自己对java可能相对于其他语言要熟悉一点,就想这个赛题是否可以通过java来实现呢,顺带把画像系统也用java实现是吧。反正当时就是这样想来着,倒腾了也就一两周,发现还是比较困难,网上这方面的资料还是不多。最后不行了,只有求救github了。在github搜索关键词 什么company,zombie company,draw company 等等关键词,找了一大堆数据分析先关的代码。最后自己也确定了一些项目来下手。比较照着前人的方法走,错也不会偏离太远。下图是我找的一些代码。
                      在这里插入图片描述
可以见搜索资料的能力也是很重要的,如何选择一个项目为你所用也是很重要的,最后还是老师指点了一下我才决定用了那个《企业经营退出风险预测》因为这个也是做分类的嘛,他是分析企业是不是有风险,也是一个分类问题,可以说是很相似了,他里面有些数据处理的方式我也借鉴了一些为我所用,还是模型啥的。

我还记得年后第一上讨论课,老师提xgb,lgb,rf,我是很懵逼的。这些都是些啥玩意,没听说呀,这是模型吗?过年,都懂的,人都已经飘了,即使还没飘,那段时间就是那种感觉,即使就是躺着发呆,也不愿意打开电脑,更别说敲代码,写程序了,那是万万不能的。中途我记得谭老师还问了一下进展。意思就是用自己数据试了没。我当时我记得我回答是代码跑通了,还没把自己数据拿进去试,还在处理数据。其实当时我也就还停留在学校的进度,把第一张表的数据处理完了,把代码跑通了,其实也不是全部跑通了90%还是有的,有的代码存在outofmemory,确实数据量比较大,有的一张表几百兆。但是也算是比较安心,自己能够复现90%,那我还是有信心把这个代码为我所用,当然只是借鉴了,看看思想,毕竟数据处理方式不一样,特征工程,模型筛选都不一样,这些代码都是需要自己去写的。

因为这次疫情的原因确实这个比赛前前后后花了将近半年的时间。年前的主要工作,就是找了想关的文档,找了一大堆代码,确实了一些代码为我所用,跑通了代码,自己处理了一张表的数据。中途过年将近一个月把,可以说一点进展都没有,主要是不想动。

开学了,其实也还是在家,这不行了,不能再没有进展,每周要汇报进展不是,那不行必须的撸起袖子加油干了,我一个人也不行,那不行拉上师姐,想想数据怎么处理,自己也用自己的数据跑出了一个基本的模型和分类结果,一开始是很不如人意的,可能是数据处理的原因,看着控制台模型的日志信息显然是很不对头的。离源代码跑的日志信息可以说相差太远。这就得来说说数据分析的基本步骤了。

一:数据清洗,这里我就不一一赘述了,反正自己也是在网上找了很多的资料,模仿着清洗数据把(包括缺失值,异常值等等的处理方式)
二:特征工程,也就是一些(我理解就是生成新特征,特征之间的融合。当然不同数据处理方式不同,视自己的数据决定吧,也包括筛选特征等等步骤,不管使用特征选择工具也好,还是其他方式,选择比较有用的特征来进行建模,特征多了可能存在过拟合不是。)
三:模型融合(什么投票,什么stacking,bagging等等方式,选一个好的融合方式呗,里面还包括调参等等操作了)
反正这些我一开始也不会,我也属于小白那种,什么一窍不通,都是百度出来的,看别人的博客呀,github上面的资源呀等等。总是能有自己的收获不是,当然困难肯定是很多的,尝试呗,不要怕失败。

当然能有基本模型之后,肯定就要考虑画像了,天啊,听到这个消息是很悲伤的,这意味着自己又要从头开始。画像,???,怎么画,用什么语言,要开发系统吗,当然我之前知道什么用户画像呀,就去网上找相关代码,结果是悲伤的,没找到合适的。老师说有一个师兄,毕业设计是做画像相关的。我就跑去咨询,反正也没问出个啥,师兄的意思是短时间以一己之力是很难完成的,可能是我们之前还是没沟通好。没互相理解对方的需求。我当时也是一脸懵逼了,这怎么画啊,苍天啊。反正当时收集各种资料嘛。最后选择语言,因为我想我跑的模型是用的python,能更好使用自己的模型当然首选python语言把。

一个大难题就来了,python怎么写项目啊,自己从来没用过python做项目。自己比较熟悉的是使用java,因为自己还是用java实操过几个项目,当然是属于菜鸟级别的。知道使用springboot,什么SSM框架是吧,毕竟自己也是软件工程科班出身,哈哈哈哈,惭愧,大学没能好好学习一下编码,编码能力还是实习的时候提升了一下。但是这个python怎么做项目,怎么进行前后端交互呢,想起了我的毕业设计,当时也是在github上面看的一个类似的项目,用的是python写的前后端交互。灵感一现,多去github上面下载python类似前后端交互的代码。多看看别人是怎么写的是吧。中途有个疑惑就是我该使用flask呢还是django呢,最终选择了轻量级的flask,反正也就是模仿别人写的把,自己在找找相关的资料,看看博客是吧。我就觉得只要你动手去做,都是应该能够做的出来的。只是有些可能很困难,会失败很多次。

后面就是画像嘛,也是百度,看博客找的灵感了,基本上整个画像流程都是用echarts实现的。好家伙,这一顿操作下来,让我好好地熟悉了echarts的操作,相信在以后工作中也会发挥作用的。

好吧,基本的就介绍到这里,反正也是从一个小白走过来的,中途也遇到很多困难,借助博客呀,github等等。当然和组员的配合也是很重要。这里不得不提和师姐的配合,一般都是师姐出方案,我用代码实现,其中(特征工程里面的方案基本都是师姐出的)然后我一一用代码实现,师姐写文档,需要用的实验结果,实验过程也是经过讨论最终确定下来的。每周差不多要开三四次的腾讯会议来进行讨论,确定方案。交流沟通是很重要的。有时候不要瞎搞,你做的有时候不符合需求,是很恼人的,意味着要改代码。有时候我都有点害怕师姐的问候了,一般问候多半就是,懂吧。

还有就是有时候需要提升一下精确度,需要找其他方法l来进行改进,这时候也是比较恼人的。精度一直提不上去,找不到好的办法。要看很多东西,进行很多尝试。我记得当时我看过一篇博客,博主就说,自己的分数一直提不上去,网上找各种办法,改进,就感觉很烦。最后他写反思的时候就说。不要烦,要当成一个学习进步的机会。我当时就是一直抱着这种心态一直前进的,不行咋就改,不会咋就学。反正学到的就是自己的。对以后自己的人生肯定是有益处的。当然最后师妹的PPT和视频都做的非常的棒,找的资料也是非常得好,很多资料给我的编码上面带来了灵感(例如画像),师兄提的意见也非常得好。团队协作还是很重要。

大概就是这些内容把,反正通过这次比赛,自己确实学习到了很多的东西。收获了很多。方方面面把。最后要感谢的还是老师们,辛勤的指导,每周一次指导一次指导就长达一两个小时。谢谢老师的指导,谢谢团队的每一位成员。

掘金年度征文 | 2020 与我的年中总结征文活动正在进行中......