总会有小伙伴问起“数据是都收集好了 , 可是应该怎么处理呢?”
“对数据中的重复值、异常值有什么好的处理方法?”
“我的问卷里既有多选题、填空题,也有量表数据 。这些题目都应该怎么处理数据,怎么分析?”
不用慌!关于数据处理的各种疑问都可以在这篇文章里找到答案 。
01 数据处理思路
数据格式首先,正确的数据格式是让我们可以开始处理和分析数据的第一步 。不论是什么类型的数据均需要按照数据分析的规范格式进行整理 。
常见的数据格式通常就是一行代表一个样本 , 如果有100个样本即为100行;一列代表一个属性 。
除此之外,针对不同的分析方法,所需的数据格式也有所不同,这里就不再展开说明 。
【excel怎么做对数处理 数据处理如何做】
多份问卷如何放在一起分析?
当有多份数据想要一起进行分析,比如给两个班级做了同一份考题,2个班的测试结果分别记录在不同的表格里,如果想要进行比较分析,那么就需要将数据合并整理在一个EXCEL工作表里面 。
解决方法:数据合并有两种合并方式,第一种是按行叠加;第二种是按列叠加 。
- 按行叠加
比如,分别对两组研究对象进行相同的测试,然后想使用t检验对比两次结果的差异 。
“按行叠加”通常在做‘方差分析’、‘t检验’或‘交叉卡方分析’时会使用到 。
- 按列叠加
数据标签、数据编码和生成变量
在整理好数据后,即可上传数据 。接下来就可以对数据进行一些基本处理,包括设置数据标签、调整数据编码和生成变量等 。
- 设置数据标签
数据标签是用来标识数值的具体含义 。如上图中,明显不知道1.0、2.0这具体是什么意思 。只有设置了标签后,才会展示出选项的具体含义 。
- 数据编码
操作路径:[数据处理]—[数据编码]功能
- 生成变量
操作路径:[数据处理]—[生成变量]功能
异常值、缺失值问题
在完成了基本的数据处理后,针对数据中的异常值、缺失值等问题也应及时进行处理 。
- 异常值处理
比如,正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米 。这种数据在分析之前需要进行处理,如把该值设置为null值 。
操作路径:[数据处理]—[异常值]功能
- 缺失值处理
- 对于某一个问题或题目,如果缺失值不多不影响结果可以不处理
- 如果某个问题出现较多缺失值,可使用填补功能,代替缺失值
操作路径:[数据处理]—[异常值]功能
- 无效样本处理
操作路径:[数据处理]—[无效样本]功能
完成以上的数据处理工作 , 基本上就可以开始分析了 。如果在分析的过程中,又发现什么其他问题,可以随时使用[数据处理]模块的处理功能进行调整 。
02 量表题处理
针对量表题数据的处理,还有以下几个常见问题:
反向题如何处理?
在量表题设计时,有时会插入一些反向题,针对这些反向设计的题目 , 需要先进行反向编码处理才可以分析 。
如五级量表,则可编码处理为:1->5 , 2->4 , 3->3,4->2,5->1 。
操作路径:[数据处理]—[数据编码]功能
不同尺度的量表数据如何统一?
一般情况下不同尺度的量表,不需要特别处理 。比如设计了四个维度的量表,而各维度使用的量表尺度不一致其实也不受影响,如做信度效度按每个维度分别进行分析即可 。
如果涉及数值上的比较,像是对同一组对象前后两年进行测量,去年使用了1-5分的量表,而今年改用1-7分量表收集数据 。想要比较两年数据的结果,这直接比较数值显然不太对 , 此时可以考虑对数据做区间化处理,把1-5分数据转换成1-7分 。
操作步骤:选择[生成变量]—[区间化],将区间最小值设置1,区间最大值设为7,点击[确认处理] , 即可将所有数据转化成1-7分 。
03 非量表题处理
非量表题有很多种,针对每种类型的题目所需的数据格式、数据处理方式也不太一样 。之前SPSSAU已推送过详细的文字教程 , 这里就不再展开说明,大家可以点击下方链接,查看视频教程及往期文章 。
① 多选题
② 排序题
③ 非规则化数据如何整理?
以上就是本次分享的内容啦 。如果你还有什么数据处理上的疑难问题没有解决,可以在评论区告诉我们 。