孙永革:2005-2006中国互联网产业调查数据统计说明

  12月22日下午,“2005-2006年度中国互联网产业调查报告发布会暨中国互联网百强颁奖典礼”在北京新世纪饭店举行。在此次活动上,除了对外正式发布《2005-2006年度中国互联网产业调查报告》,还现场揭晓了中国互联网产业品牌50强——“TOP 50”、中国互联网产业创新50强——“INNOVATOR 50”以及和中国互联网产业100强——“INTERNET 100”名单。天极网Chinabyte对此次会议进行了全程报道。

孙永革:各位来宾,各位朋友,大家下午好,下面我们就2005-2006年度,中国互联网产业调查有关数据与收集整理分析的情况,做一下说明。为了搭建与咨询为一体的平台,我们组织了这一次活动。我们进行了大量样本分析为业界提供了尊的行业信息和产业发展状况报告。2005-2006年度第一阶段是今年的6月份开始的,历时了半年,第二阶段是从11月初到12月底,历时了两个月。包括一项主调查。成为中国互联网有史以来规模最大一次产业调查,这次调查活动中我们收到数据样本非常多,我主要就对数据样本情况给大家作一下说明。

为了保证数据有效、真实从而保证报告公平、公正,我们对数据作了以下处理第一管关于数据源,数据源来自中国互联网数据库。

第二数据源于分析情况,数据原数据有一些符合要求,有的不符合要求,我们对不符合要求的进行处理、对不符合要求情况,有这样两类一个问卷:1、空白没有任何记录,2、问卷没有空白但是反馈数据项目不符合程序编写要求的,这数据库共有23308份。对于以上数据分析是这样,完全空白情况分析发现完全空白数据是非常靠前,应该到考察前进行调试,也不开排除服务器故障问题导致的问题,这是程序作弊的行为,我们处理的方式就是对以上两种数据采用而完全删除。还剩下9251条,对剩下的这一些数据,我们进行分析,其中虽然符合问军要是,大但也可能是正常也有不正常的数据。不正常的数据有这么几种情况,一个是有姓名,但是记录姓名当中存在不合理的参数。经过统计,共计是1445处。数据有很多类雷同,提交1875份完全数据相同数据等等,这里面雷同的记录大概加起来总共5207份。除此以外还有一些雷同的问卷,有3342条,因此以上合计8千多条重复性比较多的数据,因此经过统计以后,把这些数据统统给它进行删除。

第三,就是数据排序号在1800-3400之间还有大量的伪造用户的资料,比如说E-mail是伪造的。像数据都出现第16万序列号以后,进行分析我们就认为有作弊嫌疑,我们对它进行清理,最终的结果经过以上处理,我们刚才讲有效符合问卷形式9559条数据删除刚才不符合的,通过以上分析我们认为数据库大大提高,我们还经过一些处理,经过认真分析有一些作弊的痕迹还有一些可疑的数据,这样我们清除掉2350条记录,这样产生的原因,可能是由于网速不超过,我们删除了3500条,最终得到56759条,经过以上删除,应该说以上基本数据基本有效,以上情况就报告完毕。