2018.12.8 阴
本以为会下雪的,结果等了一天都没有,估计晚上会下吧!
昨天的那个数据分析实例确实够难的,今天我把里面的某些细节问题搞清楚后,然后就开始捋思路了,这是一个很明显的探索性分析,作者一开始拿到数据经过清洗和拼接后弄过来的是一个过万条的dataframe;然后经过一系列的骚操作,中途会得出某些结论,然后再来验证结论,再基于结论推导数据最后会得到某种我们意想不到信息。当然作者没搞那么多事情,他只是不停的做着数据透视表,不断地画着图然后又会从图中找信息;虽然我是只能看出粗浅的东西,这或许就是经验的差距吧!我一直想搞清楚作者做的这些操作其背后的指导思想是什么,因为自始至终我都不太清楚他是怎么提取那些数据,他为什么会知道第一步是提取其中的birth,year和sex来做透视表,好吧或许总共就四列没得选吧。总之前一段作者的分析就是:清洗处理数据>可视化并提出猜想>验证猜想>得出结论>?分析结论产生的原因。。。这就是其基本的步骤了。
当然在我独自做这些实例的过程中也产生了很多的问题,比如为什么apply()可以进行函数操作,直接在dataframegroup上进行操作就不行,还有利用matplotlib画图时谁是因变量,谁是自变量这些我以前都没有注意过,现在问题全部都涌出来了,看来我的基础是真的不牢,不过还好,问题总是会越来越少的,尽管有些问题我不知道它产生的原因,但既然出现了那么以后就及力避免吧。
这一次的实例较之于以往确实难一点,主要是其分析的思想步骤并非一开始就目标明确,就像解答题目,有问题才能有答案,而数据分析一开始却是没有问题,他是让我们去提出问题并得到结论,这实在是考验人们对于数据的敏感度,对于业务的熟悉程度;另外嘛,则是我的基础问题,虽然关于数据分析大部分的操作我已经掌握了,但我毕竟没有达到精通的地步,这就导致了我在第二次做这些实例时仍然出错,总之,时间不多了,要加油哇⊙ω⊙