在学习冯国双的《白话统计学》时提到,如果结果是计数数据,可以考虑根据发生率和泊松分布进行泊松回归分析。
请注意,计数数据和分类数据之间存在差异。 计数数据是通过计数和计数得到的数值,它包含单位,而分类变量没有单位。
泊松回归适用于我们想考察是什么因素导致罕见事件数量的分析场景。 它至少有两个基本条件,一是事件的独立性spss回归分析的结果解读,二是服从泊松分布,要求均值和方差相等,即要求等散。
01
案例背景介绍
这次我使用 stack.dat 数据,它只有 4 个变量。 是某化工厂21天内记录的氨气损失数据。 Loss是我们的结果变量,氨气损失,Air.Flow空气流量,Water.Temp水温,Acid.Conc。 酸浓度比。
02
统计策略
因变量是Loss,这是一个罕见事件(氨丢失的次数),是计数数据。 其他三个是自变量因素。
由于因变量是计数数据,因此这里不适用逻辑回归。 首选是泊松回归。 是否满足其基本条件,我们稍后再看统计结果。
03
软件操作
菜单:广义线性模型→模型类型选择泊松对数线性。
菜单:响应 → 因变量损失,预测变量 → 协变量空气+水+酸。 Model→Main Effects选择三个自变量,即不考察交互作用。
菜单:Statistics → 除默认勾选外,勾选【Include estimated value of index parameters】要求及时的IRR(类似于OR值)。
其他参数可以默认设置。 初学者,不熟悉的参数默认不要修改。
04
结果解读
有资料指出,利用拟合优度表的偏差值/自由度比统计量,可以粗略估计是否满足等离散性的要求或条件。
本例中偏差/自由度=0.53spss回归分析的结果解读,虽然不大于1,但也不是很接近1,不是很理想。 算一下满足等离散性的要求吧。
需要注意的是,在R语言中,我们可以使用其他函数直接检查是否满足等离散性,这样可能更准确。
全局检验结果表明,该模型具有统计显着性,至少有一个自变量具有预测作用。
直接看参数估计表,即回归系数和IRR值表。
首先,三个自变量中,空气和水显着,对因变量氨损失有预测作用,回归系数均大于0,呈正相关。
这里EXP(B)理解为IRR,类似于OR值。 例如空气变量IRR=1.029,可以理解为:空气流量每增加一个单位,氨气的损失就增加3%。
文章结尾
文/图=数据兵
05