不懂统计学的还真多,总是有人质疑抽样调查的准确性。
抽样不是大街随便找人。大数据的统计都是二级选样,记住这二个词,二级和选样!
对于一个几百万人的城市,要统计所有人的收入首先就要先抽一个一级的样本,这个样本要足够大,大到符合“大数定律”,一般至少要几十万。 然后再在这个一级样本里进行二级选样。 选样前先剔除异样样本,马化腾,马云这样的全剔除。
然后开始等距排队。从1K到2K,3K。。。9K。。10K。。。15K。。。20K....100K..1000K
全部分组排队,你的收入是一万五千六百的就归到15K那一组,然后每一组按权重选人数。
7K8K9K10K。。。15K,如果这几个组权重如果最多,抽的人就最多,如果7K这个组按权重抽到40个人,这40
个人也是要排队的,7.0,7.1, 7.2 。。。7.9,然后按权重抽人,7.3可能选了8个人,7.9的也许只有2人。
最后只要几百人就可以搞定一个几百万人的城市的统计。这几百人就要把所有的收入支出变化天天填表,一毛不漏。
准不准呢? 全世界对大数据的抽样都是二级选样。 出来的结果完全符合认识
美国总是湾区纽约波士顿DC,LA这些城市,中国总是上海,江南,北京,深广珠三这些城市。
有没有连贯性呢?也就是这次的抽样和上次的抽样偏离度大不大。
每次抽样总有一些城市的名次会有变动,这个是正常的实力变化引起的,但如果这次的抽样排名和上次的抽样排名完全不同, 上次是上海,北京,深圳,广州。。。这次是西安,成都,杭州。。。那就是偏离度大。抽样没有连贯性。
抽样不是大街随便找人。大数据的统计都是二级选样,记住这二个词,二级和选样!
对于一个几百万人的城市,要统计所有人的收入首先就要先抽一个一级的样本,这个样本要足够大,大到符合“大数定律”,一般至少要几十万。 然后再在这个一级样本里进行二级选样。 选样前先剔除异样样本,马化腾,马云这样的全剔除。
然后开始等距排队。从1K到2K,3K。。。9K。。10K。。。15K。。。20K....100K..1000K
全部分组排队,你的收入是一万五千六百的就归到15K那一组,然后每一组按权重选人数。
7K8K9K10K。。。15K,如果这几个组权重如果最多,抽的人就最多,如果7K这个组按权重抽到40个人,这40
个人也是要排队的,7.0,7.1, 7.2 。。。7.9,然后按权重抽人,7.3可能选了8个人,7.9的也许只有2人。
最后只要几百人就可以搞定一个几百万人的城市的统计。这几百人就要把所有的收入支出变化天天填表,一毛不漏。
准不准呢? 全世界对大数据的抽样都是二级选样。 出来的结果完全符合认识
美国总是湾区纽约波士顿DC,LA这些城市,中国总是上海,江南,北京,深广珠三这些城市。
有没有连贯性呢?也就是这次的抽样和上次的抽样偏离度大不大。
每次抽样总有一些城市的名次会有变动,这个是正常的实力变化引起的,但如果这次的抽样排名和上次的抽样排名完全不同, 上次是上海,北京,深圳,广州。。。这次是西安,成都,杭州。。。那就是偏离度大。抽样没有连贯性。