第一节 统计学概述
一、什么是统计学 1、统计学的定义:
统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。 2、统计的三种含义:
统计工作对现象的数量进行搜集、整理和分析的活动过程
统计资料通过统计实践活动取得的说明对象某种数量特征的数据 统计学是关于数据的一门科学
三者之间的关系:统计工作与统计资料是工作与工作成果关系,三者之间是实践与理论关系 3、统计学的研究对象:
一切自然与社会现象总体的数量特征及其相互关系 特点:数量性、总体性、变异性 4、统计学的研究方法
大量观察法、统计指标法、统计推断法 二、统计学的产生与发展
1、古典统计学(17世纪中——18世纪中):记述学派和政治算术学派 2、近代统计学(18世纪末——19世纪末):数量统计学派和社会统计学派 3、现代统计学(20世纪至今) 三、统计学的分类
1、理论统计学:研究的内容是统计的一般理论和方法 ❖ 描述统计学
用图形、表格和数值方法来汇总数据的统计学。 ❖ 推断统计学
用样本数据对总体的某些特征进行估计和假设检验的统计学。 2、应用统计学:研究的内容是运用于某一特定领域的统计问题
第二节 统计学的基本概念
一、统计总体与总体单位
1、统计总体:由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合。
具有大量性、同质性和变异性等特点
2、总体单位:指构成总体的个体即每一个单位。
总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。
总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。 3、统计总体的种类
(1)有限总体:指所包含的单位数目有限的总体 无限总体:指所包含的单位数目无限的总体 (2)大总体
小总体:指大总体的各组成部分
(3)可加总体:指总体单位可以合计的总体 不可加总体:指总体单位不能合计的总体 二、标志与变量
1、标志:指总体单位所具有的属性和特征,标志的具体表现称为标志值。 (1)品质标志:是表明事物“质” 的特性的标志
数量标志:是表明事物“量” 的特性的标志 其中,可变的数量标志又被叫作变量
统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。
(2)总体单位标志分为不变标志(标志表现无差异)和变异标志(标志表现有差异) 2、变量的种类
确定性变量:指受确定性因素影响的变量 随机变量:指受随机因素影响的变量
连续型变量:在一个区间内可以连续不断取值的变量
离散型变量:其一切可能取值都以整数形式出现,并可以一一列举的变量 三、指标与指标体系
1、统计指标:反映社会经济现象总体数量特征的概念及其具体数值 构成要素:时间、空间、指标名称、具体数值、计量单位 性质:数量性、具体性、综合性 2、标志与指标的联系与区别: 联系:
(1)标志是总体指标的来源和基础,指标则是标志的综合。 (2)数量标志与指标之间存在着变换关系。 区别:
(1)标志是说明总体单位特征的,指标则是说明统计总体数量特征的。
(2)有的标志用数值表示,有的标志用文字表示,而指标都是用数值表示的。 3、统计指标的分类
(1)按表现形式分:总量指标、相对指标、平均指标 (2)按内容特征分:数量指标、质量指标 ❖ 数量指标:
反映的是所研究总体的规模和水平,其大小取决于总体单位数目的多少及其标志水平的高低。
❖ 质量指标:
反映的是与总体单位数相对应的标志的平均水平或其它数量对比关系。 (3)按计量单位分:实物指标、价值指标、劳动指标 (4)按时间特征分:时期指标、时点指标
4、统计指标体系:具有某种内在联系的一系列统计指标所构成的整体 作用:全面、综合地对客观事物进行描述、分析。 5、样本:由总体的部分单位组成的集合
第二章 统计数据的收集
§2.1 统计测量尺度
一、统计测量尺度的概念与种类
1、统计测量:运用某种方法使自然或社会经济现象量化。测量结果:形成变量或指标 2、统计测量尺度的种类 分类、 (1)定类尺度
标识 ★按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。
★定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。 ★定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。 (2)定类尺度
★对现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。
★定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。 ★定序变量或指标各类别间有高低优劣之分,不能随意排列,但差异无法准确计量。 (3)定距尺度
★按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。 ★定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。
★定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能进行乘除运算。 (4)定比尺度
★对现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。 ★定比变量或指标确切的值也以数字表述,有计量单位 ,可以进行加减运算。 ★定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。 3、数据度量尺度
(1)定类尺度:无等级次序排列 例如:男-女从事工作的行业 (2)定序尺度: 可作等级次序排列 例如:公司职位产品满意度 (3)定距尺度: 没有真正的零点 例如,温度
(4)定比尺度:存在真正的零点 倍数有意义 例,身高、体重 4、数据度量与信息含量
(1)度量尺度的信息含量由弱到强排列:
定类尺度→定序尺度→定距尺度→定比尺度
(2) 定类尺度和定序尺度用于属性数据:信息量低 (3) 定距尺度和定比尺度用于数值数据:信息量高 二、统计测量尺度的作用
第一,决定数据的整理、显示方法 第二,决定数据的分析方法 第三,决定计算机的处理方法
注意:在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。
三、测量层次与测量尺度的正确应用 1、对测量尺度层次的判断
较低层次的测量尺度
低 测量精度 高 少 计算方法 多 较高层次的测量尺度
小 信息数量
定类尺度、定序尺度、定距尺度、定比尺度的层次:由高至低
大 2、测量尺度的正确应用
对于不同的现象,要注意准确性;对数量差异的度量,要注意层次
§2.2 原始数据的收集方法
一、统计调查概述
1、统计调查:收集原始数据资料 的统计活动过程 要求:准确、及时、全面、系统
统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败 2、统计调查的种类
按调查单位的范围大小分为非全面调查、全面调查 按调查时间是否连续分为连续性调查、一次性调查
按调查的组织方式不同分为统计报表、专门调查(普查、重点调查、典型调查、抽样调查) 3、统计调查的组织方式
(1)统计报表:指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度
优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要
局限:统计报表过多会增加基层负担;有可能由于虚报瞒报而影响统计资料质量 (2)普查:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查
作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息
局限:由于需要大量的人力、物力和财力,不宜经常进行
(3)重点调查:为了解总体基本情况,在调查对象中只选择一部分重点单位 进行调查的一种非全面调查组织方式
作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料 局限:只适用于客观存在着重点单位的情况
(4)典型调查:在对调查对象有一定了解的基础上,有意识地选择少数典型单位 进行调查的一种非全面调查组织方式
作用:一定条件下能估计总体指标数值;可以补充全面调查的不足;可以用来研究新生事物 局限:不能确定推断的把握程度,无法计算和控制推断误差
(5)抽样调查:按照随机原则 从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式
特点:按随机原则抽取样本单位;目的是推断总体的数量特征;抽样误差可以事先计算并控制
优点:能用较少的人力、物力和时间达到全面调查的目的;调查资料的准确性较高、受人为干扰的可能性较小
4、统计调查的主要技术方法
观察记录法、报告法、访问调查法 二、统计调查方案
1、统计调查方案:用来指导整个调查工作的纲领性文件,是统计设计在统计调查阶段的具体化
2、基本内容:调查目的;调查对象与调查单位;调查项目与调查表;调查时间;制定调查工作的组织实施计划。 三、问卷设计
1、问卷调查:主要指非性统计机构或个人所从事的对人的主观意见的调查工作,也称作调查或测验
调查问卷的基本格式:表头(说明词:解释调查意义、表达感激之情等);表体(主题问句:被调查者基本情况、调查项目);表脚(作业记录:时间、操作者等)
2、调查对象:被调查现象的物质承担者指,是总体在调查阶段的具体化 调查单位:指构成调查对象的每一个总体单位 3、调查问卷的问题类型:封闭式问题、开放式问题 4、问卷调查的基本要求
主题明确、提问科学、逻辑性强、容量适度
§2.3 次级资料的收集
一、次级资料
指已经被收集、加工整理成型的数据信息 二、次级资料的主要收集渠道: ⒈查阅公开出版物; ⒉向统计机构咨询; ⒊向其他机构咨询; ⒋网上查询。
§2.4 统计调查误差
一、调查误差
指收集来的数据资料与真实情况间的差异 二、调查误差的种类
1、登记误差:由于人的主观故意或失误而产生的误差,理论上它可以用某种方法加以消除 2、代表性误差(随机误差):由部分单位数值来推断总体数值所产生的误差,它不可以消除,但可以加以控制
第三章 统计数据的整理与显示
§3.1 统计整理与统计分组
一、统计整理的意义和步骤
1、统计整理:将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程
2、统计整理的内容 统计数据的处理:
统计资料的分组、汇总及制表 统计数据的管理:
数据的传输、贮存、更新及输出 3、统计整理的步骤
制定统计整理方案、对原始资料进行审核、数据处理、制作统计表和统计图 二、统计整理的基本方法
(一)统计分组:将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程 1、统计分组的作用
划分社会经济现象的类型
反映社会经济现象的内部结构和比例关系 揭示社会经济现象之间的相互依存关系 2、统计分组的程序
选择分组标志、确定分组体系、总体单位归类 3、统计分组的原则
科学性、完备性、互斥性
(二)分组体系:指同时使用两个以上标志分组时,分组标志的组合形式。
平行分组体系、交叉分组体系
§3.2 分布数列的编制
一、分布数列的定义及种类
1、分布数列:将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列
构成要素:分组标志的具体表现、各组的次数或频率 分类:
品质数列 变量数列 单值数列 组距数列 等距数列 异距数列 二、变量数列的编制
1、单值数列:指每个组值只用一个具体的变量值表现的数列 编制条件:变量是离散变量;变量的不同取值个数较少
2、组距数列:指每个组的变量值用一个区间来表现的变量数列
编制条件:变量是连续变量;或:总体单位数较多,变量不同取值个数也较多的离散变量。 分类:等距数列、异距数列 3、相关概念
组限:指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限 组距:每组变量值变动区间的长度,为上下限之差 组中值:每组变量取值范围的中点数值
上限下限组中值= 2开口式组距数列组中值的计算: 4、编制等距数列步骤
(1)求变异全距
(2)确定组距及组数:R≤组距(d) ×组数(m) 确定组距的原则:
要能区分各组的性质差异 要能反映总体资料的分布特征
为方便计算,尽可能为5或10的整数倍 计算组数(组数不宜过多,也不宜太少)
(3)确定组限
对于离散变量,相邻组组限可以间断,也可重叠; 对于连续变量,相邻组组限必须重叠; 符合“上组限不计入”原则;
首末两组可使用“××以下”及“××以上”的开口组。 (4) 计算次数
三、累计次数与累计频率
1、频率:各组单位数占总体单位总数的比重 2、累计次数(频率)
向上累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计 向下累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计
RRm(当 的结果为整数时) ddRRm1(当 d 的结果为小数时) d§3.3 统计图表
一、统计图
以点、线条、面积等方法描述、显示统计数据的形式 组成:坐标系、图形、图例 二、统计表
以纵横交叉的线条所形成的表格来表现统计资料的形式 1、 常用结构:总标题、主词栏、宾词栏、数据栏 2、 统计表的编制规则 选择合适的总标题;
主词栏与宾词栏要各归其位,相互对应;
表的上、下端用粗线或双线封口,左右两端一般不封口; 可在各列的文字标题下面设置编号加以标识; 数据栏不能有空白。
第四章 变量数列分析
§4.1 集中趋势的测定
一、集中趋势的涵义
指总体中各单位的次数分布从两边向中间集中的趋势,用平均指标来反映。 测定集中趋势的意义:
可以反映现象总体的客观规定性;
可以对比同类现象在不同的时间、地点和条件下的一般水平; 可以分析现象之间的依存关系。 二、平均指标的种类及计算方法 (一)算术平均数
1、简单算术平均数:适用于总体资料未经分组整理、尚为原始资料的情况 2、加权算术平均数:适用于总体资料经过分组整理形成变量数列的情况
(说明若资料为组距数列,则应取各组的组中值作为该组的代表值用于计算)
(1)权数:指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志值对平均数的影响程度
绝对权数:表现为次数、频数、单位数 相对权数:表现为频率、比重
算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置
3、 算术平均数的数学性质
变量值与其算术平均数的离差之和衡等于零;变量值与其算术平均数的离差平方和为最小, (二)调和平均数
是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数 1、简单调和平均数:适用于总体资料未经分组整理、尚为原始资料的情况 2、加权调和平均数:适用于总体资料经过分组整理形成变量数列的情况
3、调和平均数的应用:当已知各组变量值和标志总量时,作为算术平均数的变形使用。 (三)几何平均数
是N项变量值连乘积的开N次方根
1、应用:用于计算现象的平均比率或平均速度 2、应用的前提条件
各个比率或速度的连乘积等于总比率或总速度; 相乘的各个比率或速度不为零或负值。
3、简单几何平均数:适用于总体资料未经分组整理尚为原始资料的情况
XXfff4、加权几何平均数:适用于总体资料经过分组整理形成变量数列的情况
同一资料, x x x
HG(四)中位数
将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值。不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。
1、未分组数据:首先排序,再按数据n为奇数和偶数进行计算中位数
2、单值数据:首先排序,然后根据中位数的位次对照累积计数确定中位数所在组,该组的标志值即为中位数 3、组距数据 (五)众数
指总体中出现次数最多的变量值,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。 1、 单值数据 2、 组距数据 1MLd(六)数据分布 o12 表明数据是如何分布的 偏态与 对称 左偏: 均值<中位数 右偏: 均值>中位数 对称(零偏度) :均值 = 中位数 (七)百分位数
第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100-p)%个数值跟它一样大或比它大。
四分位数:通常将数据分成四个部分是合乎需要的,每一部分大约包括1/4或25%的数据,分位点称为四分位数。
表现为次数、频数、单位数;即 公式 中的
§4.2 离中趋势的测定
一、离中趋势的涵义
指总体中各单位标志值背离分布中心的规模或程度,用标志变异指标来反映。 1、变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大 2、测定离中趋势的意义
用来衡量和比较平均数代表性的大小;
用来反映社会经济活动过程的均衡性和节奏性;
用来测定变量数列次数分布较正态分布的偏离程度。 二、标志变异指标的种类及计算 (一)全距
指所研究的数据中,最大值与最小值之差 1、 计算公式 2、全距的特点
优点:计算方法简单、易懂;
缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度
差
(二)平均差:是各个数据与其算术平均数的离差绝对值的算术平均数 1、简单平均差:适用于未分组资料 2、加权平均差:适用于分组资料 3、平均差的特点
优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;
缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处
理和参与统计分析运算。
(三)标准差:是各个数据与其算术平均数的离差平方的算术平均数的开平方根;标准差的平方又叫作方差
1、简单标准差:适用于未分组资料 2、加权标准差:适用于分组资料 3、标准差的特点
不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度; 用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和
统计分析运算.
(四)变异系数
AD100﹪1、平均差系数 VADX 标准差系数 V100﹪2、应用
X 用来对比不同水平的同类现象;标准差系数小的总体,其平均数的代表性大;反之,亦然。
三、是非标志的标准差及方差
1、是非标志:指总体中全部单位只具有“是”或“否”、“有”或“无”两种表现形式的标志,又叫交替标志
分组 具有某一属性 不具有某一属性 合计 单位数 变量值 1 0 — 2、成数:指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重
PN1N具有某种标志表现的单位数所占的成数: 不具有某种标志表现的单位数所占的成数: 3、是非标志总体的指标
均值:XPP;标准差:PPQ;方差:2P(1P);标准差系数:VQN0NP
第五章 抽样推断
§5.1 抽样方案的设计
一、抽样估计的意义和一般步骤 (一)抽样估计的定义
按照随机原则 从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。 (二)抽样估计的特点
按随机原则抽取样本单位 目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制 (三)抽样估计的应用
不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时
对全面调查资料进行补充修正时 (四)抽样估计的步骤
设计抽样方案、抽取样本单位、收集样本数据、计算样本统计量、推断总体参数 (五)抽样估计的基本概念
1、样本容量:从总体中抽出的部分单位的集合(n) 2、样本个数:从一个总体中可能抽取多少个样本 3、总体参数:指被估计的总体指标
(1)总体平均数(总体均值) (2)总体单位标志值的标准差 (3)总体单位标志值的方差 (4)总体成数
(5)总体是非标志的标准差 (6)总体是非标志的方差
4、样本指标:指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为估计量或统计量。
(1)样本平均数(样本均值) (2)样本单位标志值的标准差 (3)样本单位标志值的方差 (4)样本成数
(5)样本单位是非标志的标准差 (6)样本单位是非标志的方差 二、抽样方案设计的基本准则
随机原则、抽样误差最小、费用最少 三、抽样方案设计的主要内容 (一)编制抽样框
抽样框:指包括全部抽样单位的名单框架,仅对有限总体而言 主要形式:名单抽样框、区域抽样框、时间表抽样框
(二)确定抽样方法 1、重复抽样
抽出个体→登记特征→放回总体→继续抽取 2、不重复抽样
抽出个体→登记特征→继续抽取 (三)确定抽样组织方式 1、简单随机抽样
对总体单位逐一编号,然后按随机原则则直接从总体中抽出若干单位构成样本。 应用:仅适用于规模不大、内部各单位标志值差异较小的总体 2、类型抽样
将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成
样本。
3、等距抽样
将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。 4、整群抽样
将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单
位构成样本。
确定抽样组织方式需考虑:调查对象的性质特点;对调查对象的了解程度(抽样框的特点) ;抽样误差的大小;人力、财力和物力等条件的 (四)确定样本容量
1、n≥30,为大样本;n < 30,为小样本 2、确定适当样本容量的意义:若n过大,调查工作量增大,体现不出抽样调查的优越性;
若n 过小,抽样误差会增大,抽样推断就会失去价值。
3、样本的可能数目:在考虑顺序的抽样条件下,从总体N中随机抽取n个样本单位共
有多少种可能的抽选结果
nPNNNNNn (1)重复抽样的可能样本数目
(2)不重复抽样的可能样本数目 CnNN1Nn1§5.2 抽样分布 N一、 抽样分布
样本统计量所有可能值的概率分布 (一) 平均数的抽样分布
全部可能样本平均数的均值等于总体均值,即:E(x)X 从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。 从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。 样本均值的标准差为总体标准差的
1n。
(二) 比率的抽样分布
全部可能样本比率的均值等于总体比率,即:E(p)P 从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布。 从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。
样本比率的标准差为总体标准差的二、抽样估计量的优良标准
1n。
设为待估计的总体参数,为样本统计量,则的优良标准为: 1、无偏性:指样本指标的均值应等于被估计的总体指标
ˆ 若E(),则称为的无偏性估计量
2、有效性:作为优良的估计量,除了满足无偏性的要求外,其方差应比较小 若12,则称1为比2更有效的估计量
3、一致性:指随着样本单位数n的增大,样本估计量将在概率意义下越来越接近于总体
真实值 若对于任意0,有limP{}1
n 4、抽样估计量的优良标准
x为X的无偏、有效、一致估计量 sn1为的无偏、有效、一致估计量
p为P的无偏、有效、一致估计量 三、抽样误差的概念
指样本估计量与总体参数之间数量上的差异,仅指由于按照随机原则抽取样本而产生
的代表性误差,不包括登记性误差和系统偏差
说明:对于任何一个样本,其抽样误差都不可能测量出来;抽样误差的大小可以依据概率分布理论加以说明。 四、抽样平均误差
指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差 式中:x为样本平均数的抽样平均误差;M为可能的样本数目;x为第i个可能样本的平均数;X为总体平均数
1、 样本平均数的抽样平均误差
重复抽样: 22不重复抽样: xNn2nxn2、 样本成数的抽样平均误差 n1nN1nN重复抽样: P1P不重复抽样: pnP1 PNnP1Pn3、 关于总体方差的估计方法p1用过去同类问题全面调查或抽样调查的经验数据代替;用样本标准差s代替总体标准差nnNN1,用sp代替p。 4、 影响抽样误差的因素
总体各单位的差异程度;样本单位数的多少;抽样方法;抽样组织方式 五、抽样极限误差
指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差。
§5.3 参数估计
一、点估计
指直接以样本指标来估计总体指标 优点:简单,具体明确
缺点:无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况 二、区间估计
(一)区间估计的定义和原理
指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。 (二)总体平均数的区间估计 1、表达式
,其中xZx 2、步骤
(1)计算样本平均数x
22(2)搜集总体方差的经验数据,或计算样本标准差s,即 (3)计算抽样平均误差 重复抽样时:xn或=s n 不重复抽样时:x2ns2n(1)或=(1) nNnN(4)计算抽样极限误差
(5)确定总体平均数的置信区间 (三)总体成数的区间估计 1、表达式
,其中pZp 2、步骤
(1)计算样本成数pn1 n2
(2)搜集总体方差的经验数据p (3)计算抽样平均误差 重复抽样:ppn或2pp(1p) n1np(1p)n)或=(1) Nn1N 不重复抽样:pn(1(4)计算抽样极限误差
(5)确定总体成数的置信区间 三、样本数目的确定 ㈠ 确定样本容量的意义
考虑调查误差和调查费用两方面,确定样本容量 ㈡ 推断总体平均数所需的样本容量 1、 重复抽样
2、不重复抽样
㈢ 推断总体成数所需的样本容量
1、 重复抽样 2、 不重复抽样
㈣ 必要样本容量的影响因素
总体方差的大小; 允许误差范围的大小; 概率保证程度; 抽样方法;
抽样的组织方式。
第六章 假设检验
§6.1 假设检验的一般问题
一、假设检验的概念
概念
事先对总体参数或分布形式作出某种假设 然后利用样本信息来判断原假设是否成立 类型
参数假设检验 非参数假设检验 特点
采用逻辑上的反证法 依据统计上的小概率原理
二、假设检验的步骤
(一)提出原假设和备择假设 1、什么是原假设?
❖ 研究者想收集证据予以反对的假设 ❖ 有等号 , 或 ❖ 表示为 H0 2、什么是备择假设?
❖ 研究者想收集证据予以支持的假设 ❖ 有不等号: , 或 ❖ 表示为 H1
(二)确定适当的检验统计量 1、用于假设检验问题的统计量
2、选择统计量的方法与参数估计相同,需考虑
是大样本还是小样本 总体方差已知还是未知
(三)规定显着性水平 1、是一个概率值
2、原假设为真时,拒绝原假设的概率
被称为抽样分布的拒绝域
3、表示为
❖ 常用的 值有0.01, 0.05, 0.10 4、由研究者事先确定
(四)计算检验统计量的值,作出统计决策 1. 计算检验的统计量
2. 根据给定的显着性水平,查表得出相应的临界值Z或Z/2 3. 将检验统计量的值与 水平的临界值进行比较 4. 得出接受或拒绝原假设的结论 三、假设检验中的两类错误 1、第一类错误(弃真错误)
原假设为真时拒绝原假设 会产生一系列后果 第一类错误的概率为
❖ 被称为显着性水平
2、第二类错误(取伪错误)
原假设为假时接受原假设 第二类错误的概率为(Beta)
H0 检验 实际情况 决策 H0为真 接受H0 正确 H0为假 第二类错误(b) 拒绝H0 第一类错误正确 (a) 3、 错误和 错误的关系 和的关系就像翘翘板,小就大, 大就小 四、双侧检验和单侧检验
(一)双侧检验与单侧检验 (假设的形式)(课本P152) (二)双侧检验(原假设与备择假设的确定)
1. 双侧检验属于决策中的假设检验。也就是说,不论是拒绝H0还是接受H0,我们都必需
采取相应的行动措施
2. 例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格 3. 建立的原假设与备择假设应为 ❖ H0: = 10 H1: 10
(三)双侧检验(显着性水平与拒绝域 ) (课本P155) (四)单侧检验(原假设与备择假设的确定)
❖ 检验研究中的假设
1. 将所研究的假设作为备择假设H1
2. 将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设
作为备择假设
3. 先确立备择假设H1 ❖ 检验某项声明的有效性
1. 将所作出的说明(声明)作为原假设 2. 对该说明的质疑作为备择假设 3. 先确立原假设H0
除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的
(五)单侧检验(显着性水平与拒绝域 ) (课本P155)
§6.2 一个正态总体的参数检验
检验的步骤
❖ 陈述原假设 H0 ❖ 陈述备择假设 H1 ❖ 选择显着性水平 ❖ 选择检验统计量 ❖ 选择n
❖ 给出临界值 ❖ 搜集数据
❖ 计算检验统计量 ❖ 进行统计决策
❖ 表述决策结果
一、大样本的均值检验(课本P161) 二、小样本的均值检验(课本P162) 三、总体比率的假设检验(课本P1)
方差分析
一、方差分析的基本问题
1、检验多个总体均值是否相等
通过对各观察数据误差来源的分析来判断多个总体均值是否相等 2、变量
一个定类尺度的自变量
❖ 2个或多个 (k 个) 处理水平或分类
一个定距或比例尺度的因变量
二、方差分析的基本思想和原理 (一)基本概念
1、因素或因子:所要检验的对象称为因子 2、水平:因素的具体表现称为水平
3、观察值:在每个因素水平下得到的样本值 4、试验
5、总体:因素的每一个水平可以看作是一个总体 6、样本数据 (二)两类误差
1. 随机误差
▪ 在因素的同一水平(同一个总体)下,样本的各观察值之间的差异
▪ 不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机
性所造成的,称为随机误差
2. 系统误差
▪ 在因素的不同水平(不同总体)下,各观察值之间的差异 ▪ 这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,
后者所形成的误差是由系统性因素造成的,称为系统误差
(三)两类方差
组内方差
▪ 因素的同一水平(同一个总体)下样本数据的方差 ▪ 组内方差只包含随机误差
组间方差
▪ 因素的不同水平(不同总体)下各样本之间的方差 ▪ 组间方差既包括随机误差,也包括系统误差
(四)方差的比较
1. 如果不同水平对结果没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。
这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1
2. 如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误
差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1 3. 当这个比值大到某种程度时,就可以说不同水平之间存在着显着差异
第七章 相关分析与回归分析
§7.1 相关分析
一、相关分析概述
(一)现象间的依存关系大致可以分成两种类型:
1、函数关系:指现象间所具有的严格的确定性的依存关系
2、相关关系:指客观现象间确实存在,但数量上不是严格对应的依存关系 (二)相关关系的种类
1、按涉及变量的多少:一元相关、多元相关 2、按表现形式不同:直线相关、曲线相关 3、按变化方向不同:正相关、负相关 二、相关关系的测定
(一)相关表:将现象之间的相互关系,用表格的形式来反映。
1、简单相关表:适用于所观察的样本单位数较少,不需要分组的情况
2、分组相关表:适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况
(二)相关图:又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。
(三)相关系数:在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标, 相关系数r的取值范围:-1≤r≤1
(四)判定系数:是相关系数的平方;用来衡量回归方程对y的解释程度。
2 判定系数取值范围:0r1
§7.2 一元线性回归分析
一、回归分析概述
1、回归分析:指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法。 2、回归分析与相关分析的联系和区别
联系:理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致,可以互相推算。
区别:相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。 3、回归分析的种类
按自变量的个数分:一元回归、多元回归 按回归曲线的形态分:线性回归、非线性回归 二、一元线性回归模型
ˆabx 1、y截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。 2、一元线性回归方程中参数a、b的确定——最小平方法 三、回归估计与预测
1、点估计:对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值的预测值。 2、区间估计:对于给定的 X 值,求出 Y 的平均值的置信区间或 Y 的一个个别值的预测区间。
第八章 时间数列分析 §8.1 时间数列分析概述
一、时间数列
1、概念:把反映现象发展水平的统计指标数值,按照时间先后顺序排列起来所形成的统计数列 2、构成要素:现象所属的时间;反映现象发展水平的指标数值 二、时间数列的种类
1、按指标形式分:总量指标数列;相对指标数列;平均指标数列 2、按变量形式分:确定性数列;随机性数列
3、按变化形式分:平稳性数列;趋势性数列;季节性数列
4、按数列中所排列指标的表现形式不同分为:绝对数数列;相对数数列;平均数数列 三、编制时间数列的基本原则
保证数列中各期指标数值的可比性 四、时间数列的常用分析方法
1、指标分析法:通过时间数列的分析指标来揭示现象的发展变化状况和发展变化程度
2、构成因素分析法:通过对影响时间数列的构成因素进行分解分析,揭示现象随时间变化而演变的规律
§8.2 时间数列的水平指标
一、发展水平
指时间数列中每一项指标数值 二、平均发展水平
又叫序时平均数,是把时间数列中各期指标数值加以平均而求得的平均数 三、序时平均数的计算方法
(一)计算绝对数时间数列的序时平均数 1、由时期数列计算,采用简单算术平均法 2、由时点数列计算
(1)由连续时点数列计算
间隔相等时,采用简单算术平均法 间隔不相等时,采用加权算术平均法 a1a0a2a1anan1ana0(2)由间断时点数列计算
间隔相等时,采用简单序时平均法 间隔不相等时,采用加权序时平均法
(二)计算相对数或平均数时间数列的序时平均数
基本公式
四、增长量:指报告期水平与基期水平之差 1、逐期增长量: 累计增长量 2、两者关系
五、平均增长量:逐期增长量的序时平均数
a1a0a2a1§anan1ana08.3 时间数列的速度指标
一、平均发展速度:指报告期水平与基期水的说平明现象的变动程度 ai1比,2值,,,nia0ai1a0aiai11、环比发展速度 定基发展速度 2、两者关系
二、增长速度:指增长量与基期水平的比值,说明报告期水平较基期水平增长的程度 分为环比增长速度和定基增长速度
三、平均发展速度:各环比发展速度的平均数,说明现象每期变动的平均程度 平均增长速度:说明现象逐期增长的平均程度 四、平均发展速度的计算方法 1、几何平均法
从最初水平a0出发,每期按一定的平均发展速度XG发展,经过n个时期后,达到最末水平an,有 计算公式:XG2、方程法
§8.4 时间数列的因素分析
时间数列的构成因素:长期趋势、季节变动、循环变动、不规则变动
第九章 统计指数
an a0一、问题的提出
指数:是一种对比性的分析指标,是研究现象差异或变动的重要统计方法. 二、指数的种类
1、按说明现象的范围不同分为:个体指数、总指数、总值指数 2、按所反映指标性质的不同分为:数量指标指数和质量指标指数
3、按总指数的计算方法或表现形式的不同分为:综合指数和平均指数
总指数反映复杂现象总体的数量变动三、综合指数 1、编制原理:
(1)引入一个媒介因素——同度量因素,解决不能直接加总的问题。 (2)将同度量因素固定于某一时期 2、计算公式
(1)质量指标综合指数 (2)数量指标p1综q1合指数 I化标:所要研究其变动程度的两个时期的某一经济变量指数p指p引入一个同一时期的经济量,起到媒介或权数的作用0q1同度量因素:3、拉氏公式 4、帕氏公式
5、拉氏指数与帕氏指数的比较 (1)计算结果的差异
(2)分析意义的差异:侧重于基期或报告期 (3)数量比较关系
四、平均指数:个体指数的加权平均数
1、种类:综合指数变形权数平均指数(加权算术平均指数、加权调和平均指数) 2、平均指数与综合指数的联系:在一定权数条件下,具有变换关系 3、平均指数与综合指数的区别
(1)解决复杂总体不能直接同度量问题的思想不同 综合指数:先综合后对比 平均指数:先对比后综合 (2)运用资料的条件不同
综合指数:需具备研究总体的全面资料 平均指数:同时适用于全面、非全面资料 (3)在经济分析中的具体作用不同
综合指数:可同时进行相对分析与绝对分析
平均指数:除作为综合指数变形加以应用的情况外,一般只能进行相对分析 4、平均指数的编制
(1)加权算术平均指数:适用于数量指标综合指数的变形 (2)加权调和平均指数:适用于质量指标综合指数的变形 五、指数体系因素分析
1、指数体系:指经济上具有一定联系,并且具有一定的数量对等关系的三个或三个以上的指数所构成的整体
2、指数体系的基本形式
(1)相对数形式:对象指数等于各个因素指数的连乘积
(2)绝对数形式:对象指数的增减额等于各因素指数影响的增减额之和 3、总量指标变动的因素分析
(1)简单现象
对象指标直接表现为因素指标的乘积 (2)复杂现象
对象指标表现为因素指标乘积的和
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo7.cn 版权所有 湘ICP备2022005869号-9
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务