第七章:调查资料的列表分析技术(一种通俗常用的方法) (一)单向频次表:
问题:如果将来您和您的家人需要住院,并且只能在A或B医院,您会选择那一家? 选项 去A医院 去B医院 不知道去哪个医院 合计 回答结果 144人 146人 10人 300 比例 48.0% 48.7% 3.3% 100% 在上表中百分比的基数是300,即全部参加调查的人员。
请问你就医时特别关注医院的那些方面呢?(可以多选),共有300人参与该调查。 选项 价格便宜 方便快捷 设备一流 医生态度和蔼 合计 回答结果 150人 100人 70 90人 410 答案比例 150/410=37% 100/410=24% 70/410=17% 90/410=22% 回答人数比例 150/300= 50% 100/300=33% 70/300=23% 90/300=30% 在市场调查中,一般是以被调研者的人数为基数计算百分比,因为我们对给出的某一答案的人数比例更感兴趣。
(二)交叉列表分析技术:
1、含义:是同时将两个或两个以上具有有限类目数和确定值的变量,按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的技术。
该法在市场调查中被广泛应用,其原因一是交叉列表分析及其结果能很容易地为那些并不具有较深统计知识的经营管理人员接受和理解;二是许多市场调研项目的资料整理分析可以依赖交叉列表分析方法解决;三是通过一系列的交叉列表分析,可以深入分析和认识那些复杂的事物或现象;四是清楚明确的解释能使调研结果很快成为经营管理措施的有力依据;五是这种技术简便易行,尤其被一般市场调研人员更易接受。
熟悉情况 不熟悉 熟悉 列总计 居住时间 小于13年 45 52 97 13-30年 34 53 87 30年以上 55 27 82 134 132 266 行总计 2、交叉列表分析中变量的选择和确定
在运用交叉列表分析中,对变量的选择和确定是否正确,是关系到分析结果是否正确的关键性因素之一。
某保险公司交通事故调查表 事故类型 从未在驾驶中出过事故 在驾驶中至少出过一次事故 总计 被调查人数合计 模板资料 资源共享
百分比 62% 38% 100% 14030
加入性别之后 事故类型 从未在驾驶中出过事故 在驾驶中至少出过一次事故 总计 被调查人数合计
加入驾驶里程之后 至少出过一次事故 被调查人数合计 男性驾驶公里数 52% 5010 25% 2070 女性驾驶公里数 52% 1915 25% 5035 大于15000公里 小于15000公里 大于15000公里 小于15000公里 男性(%) 56 44 100 7080 女性(%) 62 38 100 6950 3、双变量交叉列表分析法 分析居住时间和对本地区百货公司熟悉程度的关系 熟悉情况 不熟悉 熟悉 列总计 居住时间 小于13年 45 52 97 13-30年 34 53 87 30年以上 55 27 82 134 132 266 行总计 通常把双变量交叉列表中各项绝对数转换成百分数。 如何转换呢?
通常以自变量为基准来计算百分数。 熟悉情况 不熟悉 熟悉 列总计 居住时间 小于13年 46.4% 53.6% 100% 13-30年 39.1% 60.9% 100% 30年以上 67.1% 32.9% 100%
注意不能简单地说是按行还是按列来计算。
如将原来的绝对数表可以变化一下格式,就不能说还按照列来计算百分比了。 居住时间 小于13年 13-30年 30年以上 列总计
模板资料 资源共享
熟悉情况 不熟悉 45 34 55 134 熟悉 52 53 27 132 行总计 97 87 82 266
4、三变量交叉列表分析法
在双变量交叉列表分析的基础上需要加入第三个变量作进一步分析。通过加入第三个变量,原有的双变量分析的结果可能出现四种情况:
原有二变量 二变量间无联系 二变量间具有某 些联系 引入第三个变量 引入第三个变量 无变化 更精确地显示原原二变量间不相原二变量间具有 二变量间的联系 关 某些联系 以上情况分别来举例说明:
时装购买现状 高 低 列总计 被调查者数(人) 婚姻现状 时装购买状况 高 低 列总计 被调查者数(人)
教育程度与拥有昂贵小汽车的关系 拥有昂贵小汽车 是 否 列总计 被调查者数(人)
模板资料 资源共享
婚姻现状 已婚 31% 69% 100% 700 性 别 男性 婚姻状况 已婚 35% 65% 100% 400 未婚 40% 60% 100% 120 已婚 25% 75% 100% 300 女性 婚姻状况 未婚 60% 40% 100% 180 未婚 52% 48% 100% 300 教育程度 大学程度 32% 68% 100% 250 低于大学 21% 79% 100% 750
收入水平 拥有昂贵 小汽车 是 否 列总计 被调查者数(人)
20% 80% 100% 100 低收入 教育程度 大学程度 低于大学 20% 80% 100% 700 40% 60% 100% 150 高收入 教育程度 大学程度 低于大学 40% 60% 100% 50 请大家将收入水平同拥有昂贵小汽车的双变量交叉列表列出来(不包括教育程度变量),分析收入与拥有昂贵小汽车的关系?
结合第一个表格《教育程度与拥有昂贵小汽车的关系》,我们得出什么样的结论?
平均年龄与出国游愿望之间的关系
出国旅游愿望 有 否 列总计 被调查者数(人) 出国旅游愿望 小于45岁 有 否 列总计 被调查者数(人)
家庭规模与经常外出吃快餐之间的关系
经常外出吃快餐 小 是 否 65% 35% 家庭规模 大 65% 35% 60% 40% 100% 300 性别 男性 年龄 45岁或以上 40% 60% 100% 300 小于45岁 35% 65% 100% 200 女性 年龄 45岁或以上 65% 35% 100% 200 年龄 小于45岁 50% 50% 100% 500 45岁或以上 50% 50% 100% 500 模板资料 资源共享
列总计 被调查者数(人) 经常外出吃快餐 小 是 否 列总计 被调查者数(人)
65% 35% 100% 250 100% 500 100% 500 收入水平 低收入 家庭规模 大 65% 35% 100% 250 小 65% 35% 100% 250 高收入 家庭规模 大 65% 35% 100% 250 模板资料 资源共享
辛普森悖论(Simpson’s Paradox):当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象:即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年辛普森在他发表的论文中,该现象才算正式被描述解释,后来就以他的名字命名该悖论。
辛普森例子:
有人:研究所女生的录取率42%是男生21%的两倍,存在性别歧视!!
领导问秘书为什么会存在这种情况?秘书经过了解汇报说:根据刚刚得到的数据,今年法学院录取率男性75%,女性49%。商学院录取率男性10%,女性5%,两个学院都是男性录取率高,这是我做的调查(数据如下表)。
研究所学生申请与录取情况表 女生 学院 商学院 法学院 总计 申请 100 20 120 录取 49 1 50 录取率% 49 5 42 申请 20 100 120 男生 录取 15 10 25 录取率% 75 10 21 申请 120 120 240 合计 录取 11 75 录取率% 53.3 9.2 31.25 该例子中,两个学院的录取率都是男生大于女生,但总体录取率男生却小于女生。这就是著名的辛普森悖论(Simpson Paradox)。该例子说明,简单地将分组资料相加汇总,是不一定能够反映真实情况的。
导致该悖论有以下两个方面的原因:1两个分组的录取率相差很大,并且总量不同。简单相加会导致错误的结论。2性别并非是录取率高低的唯一因素,甚至可能是毫无影响的,至于在本例子中的比率差可能属于随即事件,又或者是其他因素作用,比如学生入学成绩刚好出现这种男女录取比例,使人牵强地误认为这是由性别差异造成的。所以加入第三个变量往往会加深认识,解释原因。
模板资料 资源共享