在心理学统计与测量领域,信度和效度常被比作体检报告中的“血压”与“血糖”——缺了哪一项,诊断都可能失真。信度回答“测得稳不稳”,效度回答“测得准不准”。

自问:一份问卷今天测和一周后测,结果会差多少?
自答:用重测信度,把同一批被试间隔两周再测,计算皮尔逊相关系数,≥0.7即可接受。
自问:我编的职业兴趣量表真的能预测择业方向吗?
自答:先跑内容效度,请5位工业心理专家评审,I-CVI≥0.78;再做探索性因素分析,KMO>0.6、Bartlett球形检验显著;最后用效标关联效度,与未来三年的岗位匹配度做相关,r≥0.3即有效。
我曾参与修订某高校焦虑量表,原α仅0.62。通过项目分析删去4道低区分度题,α升至0.87;再补充效标组(临床诊断 vs 非临床),效标效度从0.28提升到0.46。最终误差方差降低19%,测量精度肉眼可见。

很多研究者把信效度检验当成投稿前的“过场”,我却坚持动态追踪:每新增500份样本就重跑一次α与CFA,发现题目老化立即修订。数据不会说谎,但人会偷懒。
传统CTT假设所有题目误差相等,项目反应理论(IRT)却给每道题贴上“信息量”标签,高信息量题目自动加权,误差曲线被拉得更平。最新研究显示,结合随机森林识别异常作答模式,可将随机误差再降12%。
问:α高就一定好吗?
答:α>0.95可能提示题目冗余,删掉重复表述反而提升效度。
问:样本量多少才够?

答:探索性因素分析至少题项数×10,验证性因素分析建议题项数×20,否则参数估计不稳。
心理测量的终极目标,是把被试的“心声”翻译成可比较的数字。信度是麦克风,效度是翻译器,误差控制是降噪耳机。三者缺一,听众听到的只能是杂音。
```发表评论
暂时没有评论,来抢沙发吧~