如何探索变量间的关系
(1)共变为了推论出两变量之间存在着概率性因果关系,必须遵守两个基本准则:首先,原因和结果变量之间必须存在共变关系;其次,所断言的一个变量影响另一个变量的推论必须是有意义的。两个变量之间有因果关系,它们之间至少是相关的;然后相关不代表因果,相关而非因果关系称为虚假关系。
(2)必须合理,因果关系必须在三个层次是合理的:时间顺序:原因必须发生在结果之前,而非目的论解释;当然,因果关系也可能是交互而非单向的。因变量必须能改变:如“收入→性别”是没有意义的。理论上的合理性:因果陈述必须有意义,我们必须能够说明x是怎样影响y的,即使我们不能再经验上证明x是怎样影响y的,我们也需要通过其他研究或现行理论等佐证来给出有关这一关联的合理说法。
表示两个变量之间的关系时,通常有三种方法,它们是______,______,______
表示两个变量之间的关系时,通常有三种方法:
表格法,解析式法,图象法.
如何在教育研究中确立变量间的因果关系
(1)共变为了推论出两变量之间存在着概率性因果关系,必须遵守两个基本准则:首先,原因和结果变量之间必须存在共变关系;其次,所断言的一个变量影响另一个变量的推论必须是有意义的。两个变量之间有因果关系,它们之间至少是相关的;然后相关不代表因果,相关而非因果关系称为虚假关系。
(2)必须合理,因果关系必须在三个层次是合理的:时间顺序:原因必须发生在结果之前,而非目的论解释;当然,因果关系也可能是交互而非单向的。因变量必须能改变:如“收入→性别”是没有意义的。理论上的合理性:因果陈述必须有意义,我们必须能够说明x是怎样影响y的,即使我们不能再经验上证明x是怎样影响y的,我们也需要通过其他研究或现行理论等佐证来给出有关这一关联的合理说法。
研究两个变量之间的相关关系及程度用什么方法
研究两个变量的相关性,你可以构建线性回归模型(或是其他模型,看具体研究问题),一般写论文先对模型中变量进行相关性分析,然后,再对你所建的模型回归分析。这得根据你的研究问题而定
研究两个变量之间的相关关系及程度用什么方法
研究两个变量的相关性,你可以构建线性回归模型(或是其他模型,看具体研究问题),一般写论文先对模型中变量进行相关性分析,然后,再对你所建的模型回归分析。这得根据你的研究问题而定
如何利用详析模式判断变量之间的关系
一、两变量的交互分类
多数的研究都是从两变量间关系的假设开始的,比如说基于某种理论,我们可能会预测女人比男人更不关心政治,或者说社会地位与自信心呈正相关关系。这些假设几乎总是在预测两个变量间的关系。因此,资料分析的第一步就是检验这些假设所预言的这种关系是否存在,即对这种关系的有无和强弱以及它的内部状况进行描述。它回答社会现象“是什么”的问题。对两变量间关系进行描述的最基本的方法是“交互分类”法,又称列联麦。表15—1是一张3×3的列联表,由变量“青年人的教育水平”与变量“最大志愿”交互分类而成。
通过交互分类,变量之间的关系便呈现了出来。如从上表可以看出不同教育水平对最大志愿的影响情况:教育水平低的最大志愿多为理想工作,教育水平高的则为快乐家庭与增广见闻。
上述描述性分析在统计上指出了两变量间关系的有无和大小。但上一节曾经指出,两个变量在统计上相关与否与实际上是否存在内在的关系并不一定完全一致,因此通过这种描述性分析仍不能回答假母所预言的两变量间的关系是否真实存在的问题。
此外这种描述性分析也无法回答“为什么有这种关系”和“在怎样的条件下或情况下存在这种关系”这样的问题。对这些问题的回答是分析的第二步的任务,即对变量之间的关系和联系程度进行精确的因果分析,以判别关系的真伪、回答这种关系为什么会产生以及说明这种关系存在的条件。为了解释和检验两变量间的真实关系,虽然可以根据已有的知识作出猜测,但更有价值的办法是进行系统的检查。
二、引入检验因素
检验两个变量间关系的最重要、最系统的办法是引入第三个变量。然后检查引入第三个变量后自变量与因变量原有关系的变化情况,由此澄清与深化对原有关系的认识,并揭示两变量的真实关系。这种引入第三变量对两变量关系进行检验,以解释或确定变量间关系的过程叫做分析的详析化,被引入有变量叫做检验因素或控制变量。
详析模式是由美国社会学家保尔·拉扎斯菲尔德及其助手,但其主要思想来源于塞谬·斯多弗在其名著《美国士兵》中所做的工作。《美国士兵》是斯多弗在第二次大战期间对美国士兵的士气所作曲调查研究成果。美国士兵的厌战情绪是众所周知的,那么产生这种情绪或者说影响军队士气的因素有哪些?他首先检验了一些公认的假设,例如:“教育水平越高的人越不愿当兵。”等。但出人意料地是,调查结果与这些公认的模式相反,如教育水平越低的人更不愿当兵。
原因是什么?斯多弗在参考群体和相对剥夺感的思想中找到找到了对这些结果的解答。简单地说,他认为士兵们评价自己的处境并不是用绝对的、客观的标准,而是用他与周围人的相互对比来评价的。当人们在与周围的人(即他的参考群体)相比发现自己“吃亏”了时。他就会有一种相对剥夺感,即他好像觉得自己被别人剥夺了什么。运用参考群体理论和相对剥夺感理论,对教育水平低的人更不愿应征的原因的解释是:教育水平低的人其朋友也多是教育水平低的人,在战时由于教育水平低的人从事国防工业或国防生产的人较多,所以免于入伍的人也较多,因此其中被征入伍者与其朋友相比就觉得格外吃亏。这些情况在教育水平高的人中间则不存在。
斯多弗的解释使调查结果得到合理的解释,但由于在研究设计时并未预料到这些情况,故无法以经验数据对上述解释进行印证,但他的逻辑解释为详析模式的建立铺平了道路。其要点在于通过其他变量(参考群体——朋友)来解释两变量(教育水平与应征意愿)间的关系。斯多弗的工作后来由拉扎斯菲尔德及其同事继续进行,他们用数据证实了斯多弗的解释,并发展出详析模式。下面我们用一个例子来说明如何运用详析模式,即如何使用检验因素对两变量间的关系进行检查。
在迫问为什么会产生这种现象时,研究者假定这是受了教育的影响,即年龄大的人喜听宗教节目可能是因为他们的教育水平散低。为了检验这个假设,将调查对象按不同教育水平分组,制成表15—3。
在表15—3的高教育组中,青、老年收听宗教节目的比例相差2%(11%-9%),在低教育组中相差3%(32%一29%),均较差异9%小了很多。这说明:当消除了教育这个因素的影响后,青年、老年收听宗教节目的比例差异很小。换句话说就是,年龄与收听宗教节目无关,两者原来所具有关系是由教育引起的,是因为两者同时分别与教育相关。这样一来,两变量间关系的真伪以及“为什么有这种关系”的问题获得了解答。老年人较喜欢听宗教节目是因为老年人文化水平较低,而低文化水平的人较喜欢收听宗
在这个例子中作为检验因素的变量是教育水平,检查的过程运用的是所谓的“分表法”。具体地说就是:
1.首先描述变量X和Y的关系(本例中的表15—2),这时的关系称为原关系。
2依据理论或经验选择检验因素,(本例中的教育水平)。
3.将检验因素分成不同层次或不同类别(本例分为高、低两个教育组),然后在每一类别中做X与Y的分列联表(本例分表15—3包括高教育组与低教育组两个分列联表),分表中X与Y的关系称为部分关系。
4.对各分表中X与Y的关系(即部分关系)进行考察,
(1)若X与Y的原关系在各分表中均消失了(即各分表中X与Y均无关),证明原关系主要由检验因素引起;
(2)若X与Y间的原关系在各分表中仍然存在(即各分表中X与Y的关系与原表相近),说明X每Y的关系不受检验因素的影响;
(3)若X与Y的原关系在各分表中存在,但较原关系减弱,证明X与Y间的关系部分受到检验因素的影响;
(4)若X与Y的原关系在一些分表中存在或加强,而在另一些分表中消失或减弱,说明X与Y的原关系的存在是有条件的。
前三种情况称为一般关系,而最后一种情况称为条件关系。
三、详析模式的主要作用
详析模式的一个主要作用是使调查研究可分享实验设计的一些优点。除了数理逻辑的演绎外,实验是科学研究中最有力的证明模型。它的理论基础是所谓的“差异法”,即假如一个例子在调查的现象中出现,而另一个例子并未出现,而这两个例子除了一点外其余都相同,则使这两个例子不同的就是引起现象的原因。因此可选择两个相同的群体作比较,只给其中一个以某种刺激,再观察这两个群体是否不同。若有不同,则这个刺激就是原因,这就是“事后实验设计”的特征。在社会现象的研究中,由于各种原因往往无法实施直接的实验,而只能采用间接的方式,详析模式则近似事后实验设计。
如例1中,欲了解年龄是否是导致收听宗教节目兴趣差异的原因,按照实验法的原理,必须找到两个群体;除年龄外其他方面完全相同,然后比较他们收听兴趣有无差异。但对调查来说找到这样相同的两个群体晕不可能的,因此它通过变量控制将不相干的阻素加以控制,例如教育水平,以使两个群体间的差异缩小。如果将这些不相干的因素加以控制后,年龄不同的两个群体其收听兴趣仍有差异,则就有较大的把握说年龄是一个原因。无疑,所控制的项目越多,则两个群体除一个变量不同外,其余可能越接近相同。这样详析模式就使调查近似于事后实验设计,从而成为社会科学中最有力的证明模式之一。
详析模式可以充分利用统计调查资料,并能够将研究引向深入。它一方面能对变量间关系作出描述,另一方面,通过引入第三个变量,它还可以澄清事实真相。这些事实真相包括两变量间关系的真伪或这一关系存在的条件和存在的原因等。从而使变量间的关系更具体、更精确、更可靠.分析的目的在于解释,详析模式在解释上的贡献很大,它不仅能证实和帮助解释,也能排除错误的解释,并能获得新的解释,因此它是建立理论和开发资料的有力工具。
详析模式为人们提供了最为清晰的社会分析逻辑,只有了解和掌握其中的思想,我们才能理解更为复杂的社会统计技巧。
简述变量间的相关分析有哪些方法
《变量间的相关关系》的主要内容为采用定性和定量相结合的方法研究变量之间的相关关系,主要研究线性相关关系.主要概念有“相关关系”、“散点图”、“回归直线和回归直线方程”、“相关系数”等.研究方法为先绘制散点图,直观表示观测数据,定性描述变量间相关关系的类型、方向、相关程度.然后应用最小二乘法确定变量间相关关系的具体表达形式,描述变量间的数量规律,并由一个变量的取值去推测另一个变量的取值.这部分内容涉及到一些重要的统计思想和方法,对学生的学习和教师的教学都有一定的难度.本文就研究对象、核心概念、研究方法、统计思想及相关应用进行简单的解读,提出一些教学建议,希望对教学能提供一些帮助.一、相关概念及统计思想方法1.相关关系——变量间的不确定关系两个变量之间的数量关系有两种不同的类型:一种是函数关系,一种是相关关系.当一个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为确定的函数关系.一般把作为影响因素的变量称为自变量,把与之对应变化的变量称为因变量.当一个变量取一定的数值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定的范围内变化,变量间的这种关系称为不确定性的相关关系.或者说两个变量之间确实存在某种关系,但不具备函数关系所要求的确定性.函数关系和相关关系都是指两个变量之间的数量关系.函数关系是两个非随机变量之间的一种确定关系,是一种因果关系.而相关关系是两个变量之间的一种不确定的关系,这两个变量中至少有一个是随机变量.两个相关变量之间可能有内在联系(真实相关),也可能完全不存在内在联系(虚假相关).之所以X和Y之间是相关关系,原因是变量X是影响变量Y的主要因素,但不是唯一因素,还有其他种种因素,而这些因素我们又不能完全把握.研究函数关系,可以用数学分析的方法.例如,已知y和x之间具有线性关系,即,此时只要知道变量的两组取值就可以确定函数表达式.研究相关关系则必须对变量进行多次观测,借助统计的相关思想和方法.例如,有人认为人的体重y和身高x之间具有近似的二次函数关系,由三个人的身高和体重数据,确定出y和x之间的表达式.这样得到的结果很不可靠,难以使人信服.2.散点图—描述相关关系的直观工具由于相关关系的不确定性,寻找变量X和Y之间的相关关系时,首先要对变量进行观测.设n次观测值为.在直角坐标系中,横轴代表变量X,纵轴代表变量Y,将观测数据用坐标点的形式描绘出来,得到的图形称为散点图.散点图是研究相关关系的直观工具,可以定性的判断相关的方向和程度. 如果散点大致分布在一条直线附近,又不完全在一条直线上,说明变量间具有线性相关关系;如果这些点大致分布在一条曲线附近,说明变量间具有非线性相关关系;如果这些点的分布几乎没有什么规则,说明两个变量间没有相关关系.对于线性相关,如果散点从左下角到右上角沿直线分布,那么两个变量正相关,如果散点从左上角到右下角沿直线分布,两个变量负相关.如果散点在整体上和某一直线越接近,表明变量间相关关系越强.3.数据分析方法—相关分析与回归分析对变量间相关关系,在定性分析的基础上,需要进行定量分析.定量分析有相关分析和回归分析两种方法.相关分析是用一个指标(称为相关系数)来反映变量间相关关系的密切程度(见人教A版必修3P85,阅读与思考).回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似表达变量间的平均变化关系.相关分析和回归分析具有共同的研究对象,在具体应用时,需要互相补充.作相关分析需要依靠回归分析表明变量相关的具体形式,而进行回归分析需要通过相关分析表明变量间的相关程度,只有变量间存在高度相关时,由回归分析得到的变量间的具体形式才有意义.相关分析研究变量间的相关的方向和相关程度,它不提供相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况.相关分析不必确定哪个变量是自变量,哪个是因变量,所涉及的两个变量可以都是随机变量.回归分析根据观测数据,确定一个数学方程式(回归方程),根据这个方程式可以由已知量推测未知量,为估算和预测提供一个重要方法.回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个为因变量.一般地说,自变量是普通变量(人为可以控制其取值),因变量是随机变量.4.最小二乘思想—统计学基础的重要部分当两个变量之间存在相关关系时,由于不确定性,如果只有很少几组变量观测值,很难估计误差的大小.法国法数学家勒让德(Le Gendre,1752—1833)在根据测量数据预测彗星轨道的问题时,发现了如何有效利用全部测量数据的方法.即通过计算得出一组数值,在使数据组的偏差达到最小的意义下,这些数值是最优的.由勒让德的方法得出的数值充分利用了所有数据信息,这个方法现在叫做最小二乘法.人们立即认识到勒让德发现的价值,运用最小二乘法的数学并不难,所以绝大多数从事测量的科学家,都能从这一方法中受益,他们可以充分利用数据.当时最小二乘思想在科学界迅速流传.1809年,德国数学家高斯(Gauss,1777—1855年)在一篇论文中,分析了如何充分利用一系列测量数据来预测天体轨道的问题,在文章中也叙述了最小二乘法,并声称自己发明了这一方法.事实上,勒让德第一个发表了最小二乘法思想,并影响了统计学;高斯也使用了最小二乘法,并且考虑了最小二乘法的误差分析问题,他还发现了最小二乘法理论中的重要结果,它从统计学的角度回答了最小二乘法在缩小误差上的优势,使得在勒让德那里只是处理测量数据的代数方法逐渐渗透到统计数据分析的领域,最小二乘法对统计学就象微积分对于数学中的影响一样深远,高斯的巨大声望使一些历史学家把最小二乘法归功于他.下面通过一个简单问题,阐述最小二乘思想.一段公路,实际长度为a千米,a是未知的,对公路进行n次实际测量,假设测量值为.可是每次测量都有一定的误差,这些误差或正或负,或大或小.应该如何估计a的值呢?直观的想法是a 的值应该最接近这些测量数据,数学描述就是: a的值应该使所有的误差平方和 达到最小. 当时,达到最小.即用测量数据的平均值作为a的估计值.这里估计参数a所采用的就是最小二乘法的思想.用数理统计知识可以证明这样的估计也是最佳的.
最小二乘法的优点是:有效利用了全部测量数据,使误差平方和达到最小,防止了某一极端误差对决定参数估计值取得支配性地位.在计算上只需对参数求偏导数求解线性方程组即可. 5.回归直线与回归方程当两个变量之间具有线性相关关系时,散点图中的点大致分布在一条直线附近,这条直线叫做回归直线,这条直线的方程叫做回归方程.数学模型:假设因变量y主要受自变量x的影响,它们之间的数量关系为,其中x是非随机变量,是未知的常数.是随机误差项,它反映了未列入方程的其它各种因素对y的影响.从而y是随机变量,它可以用由x的值完全确定的部分和随机误差部分来解释.当由观测数据估计出和b时,得到直线回归方程为.将观测数据代入中,得,或,其中为n次观测的误差.求的估计值,使“从整体上看各点与直线的距离最小”.应用最小二乘思想,就是求使误差平方和达到最小的的值.可以用配方法或求偏导数的方针求出的估计值. 6.相关系数—变量间线性关系密切程度的度量相关系数是用来衡量两个变量之间线性关系密切程度(强与弱)的一个数量指标.只有了解构造相关系数的统计思想,才能对相关系数有较深刻的理解.下面对相关统计量的意义及构造相关系数的统计思想做一简述.设回归方程为,与对应的回归值为.称为偏差,称为偏差方和.的值越小,反映各偏差普遍较小,数据点整体上比较接近回归直线,说明变量间线性关系比较密切.但是一个绝对量,需要进行调整.为方便引入以下记号:,,,.衡量数据的波动大小,衡量数据的波动大小.,反映主要由的变化引起的间的波动,反映除线性关系之外的各种随机因素引起的间的波动.可以证明:.令,显然,而且越接近1,就越接近0,说明x和y之间的线性关系越密切.当时,x和y正相关,当时,x和y负相关.但由于只与有关,所以不能反映相关的方向.因此定义相关系数如下: ,一般越接近1,x和y之间的线性关系越密切.需要注意的两点是:(1)相关系数只衡量变量间线性关系的密切程度,即使变量间具有确定的非线性函数关系,也可能非常接近0.(2)当n很小时,即使非常接近1,也不表明变量间的线性关系强.例如,无论x和y之间是何种关系,当n=2时,总有.二、教学建议1.“相关关系”的有关概念及定性描述相关关系的概念是描述性的,不必追求形式化上的严格.建议采用案例教学法.对比函数关系,重点突出相关关系的两个本质特征:关联性和不确定性.关联性是指当一个变量变化时,伴随另一个变量有一定的变化趋势;不确定性是指当一个变量取定值时,与之相关的变量的取值仍具有随机性.因为有关联性,才有研究的必要性.因为其不确定性,从少量的变量观测值,很难估计误差的大小,因此必须对变量作大量的观测.但每个观测值都有一定误差,为了消除误差的影响,揭示变量间的本质联系,就必须要用统计分析方法.判断两个变量间是否具有相关关系,一是凭经验及学科专业知识,二是借助散点图.下面是一些可供选择的例子,教学时可先逐一分析其关联性和不确定性,然后结合散点图,进一步判断相关关系的类型和方向.实例变量X和Y关联性不确定性相关类型例1家庭收入X,消费支出Y收入高的家庭消费支出相应也较高.收入相同的家庭,消费支出未必相同.正线性相关例2人的身高X,脚的长度Y一般身材较高者,脚的尺寸也较大同样身高的人,脚的尺寸不一定相同.正线性相关例3数学成绩X,英语成绩Y数学成绩高者,一般英语成绩也较高,反之也对.存在数学成绩高(低)而英语成绩低(高)的学生.正线性相关(虚假相关)例4气温X,热饮销量Y随着气温的升高,热饮的销量相应会减少.温度相同的日期内,热饮的销量也未必相同.负线性相关例5(非线性相关和不相关的例子)对0到18岁之间的未成年人来说,年龄和身高之间具有非线性的相关关系.对成年人来说,年龄和身高之间没有相关关系(散点图略).例6 吸烟和患肺部疾病之间不具有因果关系,但具有相关关系.我们引入两值变量X和Y: 如果调查了700人,其中400个不吸烟者中有40人患肺部疾病(10%),300个吸烟者中有60个人患肺部疾病(20%),说明吸烟对患肺部疾病有一定的影响.但不吸烟者也可能患肺部疾病,吸烟者也可能不患肺部疾病,因此X和Y之间具有相关关系.例7 有人曾经观察过某一国家历年的国内生产总值与精神病患者的人数的关系,发现两者之间存在较强的正相关.实际上国内生产总值与精神病患者的人数之间没有内在联系,是一种典型的虚假相关.这是因为它们都和人口总量有内在的相关关系.说明:(1)适当例举非线性相关和不相关的例子,有助于对相关关系的全面了解,但我们研究的重点是线性相关关系,而且正相关或负相关只对线性相关有意义.(2)讨论“相关关系”时,对中学生来说,不要求说明哪个变量是随机变量,哪个变量是普通变量.(3)根据学生实际情况,可以从散点图判断线性关系的强弱,进行适当拓展.2.相关关系的定量描述——求回归直线方程本小节的重点是用最小二乘法求回归直线方程.采用探究式教学方式.在给出回归直线和回归直线方程的定义后,提出如下问题:如何求回归直线方程,要求这条直线在整体上与数据点最接近?许多统计思想和方法都比较直观,学生可能提出各种不同的方法,包括教材上列举的方法.为了防止漫无目的,对求回归直线的方法应提出一些基本要求:尽可能利用全部数据,体现整体偏差最小,便于数学计算,结果确定等.离这些要求越来越远的方法,不必多加考虑.通过对有些方法逐步修正,最后引导到使用最小二乘法求回归直线方程.方法1:逐渐移动直线,测量各点到直线的距离,使距离和最小.该方法体现了整体偏差最小的思想,缺点是难以实现,而且测量的方法很难得到确定的结果.方法2:选择两点画直线,使直线两侧的点的个数基本相同.这种方法没有利用全部数据信息,其结果会因人而异.方法3:用多条直线的斜率和截距的平均值作为回归直线的斜率和截距.这种方法既没有利用全部数据信息,也没有体现整体误差最小的思想,结果也不确定.设回归方程为,,是第i个观测值的偏差,是第i个观测点到回归直线的距离.设是回归直线的倾斜角,则.方法4:距离和最小.求a,b使达到最小.这是方法1的数学严格化.方法5:总的偏差和最小.求a,b使达到最小.方法4和方法5是等价的.方法5利用了全部数据,体现整体偏差最小的思想,结果是唯一确定的.唯一的缺点是不便数学计算.方法6偏差平方和最小.求a,b使达到最小.该方法克服了方法5的缺点.这种方法称为最小二乘法.说明:(1)我们的目的是通过探究找到一个求回归方程的“较优”的方法,这里所说的“较优”也是基于直观的思想,在学生现有的知识水平下,无法严格证明.如果对用上面的方法得到直线的“优劣”进行评判,我认为是理解上的偏差,况且也做不到.(2)应用最小二乘法求回归方程是一个纯数学的问题,用配方法显得繁琐,用求偏导数的方法超出了学生的能力要求.对此不做要求,直接给出a,b的公式,不影响对统计方法的理解.(3)也可以按下面的过程展开教学.①提供实际问题情境,从测量数据出发,采用偏差平方和最小的思想(最小二乘思想)求参数的估计值.②通过类比用最小二乘法求回归直线方程.3.回归方程的计算回归方程中a,b的计算公式比较复杂,要求利用计算器或计算机进行计算.为了熟悉公式的构成及相关量的计算过程,建议使用Excel软件中的公式进行计算.以年龄和脂肪含量的关系为例.如下表所示:在相应的单元格内输入数据,第15行为合计.先计算,,在单元格C1,D1,E1中输入相应的公式.通过公式复制然后求和得到:(C15)(D15)(E15),相关系数,,回归方程为.作为拓展还可以计算与对应的回归值,与实际观测值进行比较,了解偏差的大小.由相关系数的大小判断线性关系的强弱. ABCDEFG1239.5628.50445.24315.4212.81-3.3122717.8443.94199.3289.4915.112.6933921.282.2654.9636.7222.03-0.8344125.949.989.621.8523.192.7154527.59.42-0.740.0625.492.0164926.30.86-0.890.9227.80-1.5075028.23.721.810.8828.37-0.1785329.624.3011.545.4830.10-0.5095430.235.1617.438.6430.68-0.48105631.462.8832.8317.1431.83-0.43115730.879.7431.6112.5332.41-1.61125833.598.6061.9638.9432.990.51136035.2142.3294.7263.0434.141.06146134.6167.1894.9153.8834.72-0.1215673381.71828.931054.34644.99———— 4.回归方程的意义及应用回归直线方程作为变量x和y之间线性关系的代表,它近似描述了x和y之间的数量关系.利用回归方程,当已知x的值时,可以推断y的取值.回归方程中b的意义为:当自变量x改变一个单位时,因变量y的平均改变量.为当时y的估计值,也可以理解为当时y的可能取值的平均值.在教学中下面的实例可供选择.例1主要解释系数b和回归值的意义;例2说明回归方程用于预测时的作用;例3介绍“回归”一词的由来的背景知识,同时也说明了回归方程在揭示了变量间的依存规律时的作用.例1 年龄和脂肪含量之间的回归方程为.(1)解释b(0.5765)的意义;(2)当x=37时,计算相应的值并解释其意义.解 (1)回归直线方程中b是直线的斜率,b>0表示随年龄的增长,人体脂肪含量呈现增长的趋势,b=0.5765说明年龄每增加1岁,身体脂肪含量平均增加0.5765%.(2)当x=37时,%,20.9%是37岁的人脂肪含量的一个估计值,可以理解为众多37岁人脂肪含量的平均值.说明:年龄的取值范围为23—61岁,一般在这个年龄范围内估计脂肪含量时误差相对较小,如果估计80岁人的脂肪含量,误差会很大,结果不可靠.例2 某博物馆发现文物被盗,公安刑侦人员经过分析,推测案犯的身高在175㎝左右.刑侦人员是如何推断的呢?原来在现场发现了案犯的脚印,测量脚印的长度为25.5㎝,已知成年人的脚印长x和身高y之间存在线性相关关系,回归方程为.因此可以从脚印的长度,推断其大致身高,为破案提供重要线索.例3 英国遗传学家高尔顿(Francis Galton,1822-1911年)在子女与父母相像程度遗传学研究方面,取得了重要进展.高尔顿的学生卡尔·皮尔逊(Karl Pearson,1857-1936年)在继续这一遗传学研究的过程中,测量了1078个父亲及其成年儿子的身高.用x表示父亲的身高,y表示儿子的身高(单位为英寸).求得回归方程为(如图所示),发现了一个重要的规律.主要计算结果及描述见下表: 计算结果关系描述 子代的平均身高大于父代的平均身高,大约高1英寸.父亲的身高与儿子的身高线性正相关,相关关系较弱.一般高个子的父亲儿子身材也较高,而矮个子父亲的儿子身材也较矮.时,时,较矮父亲的儿子们的平均身高比父亲要高.较高父亲的儿子们的平均身高比父亲要矮.有回归到一般高度的趋势.高尔顿和皮尔逊把这种现象称为“回归效应”,现在人们把由一个变量的变化去推断另一个变量变化的方法统称为回归分析.
如何使用SPSS分析两个变量的关系
1、首先,大家平时理解的变量是单纬的,而不是你说的多维的。因此,对spss而言,X1、X2、X3、Y1、Y2、Y3分别是6个变量。
2、spss的相关性分析中可以分别统计这6个变量间的相关性。通过他们之间相关性的计算,你或许可以得到你所说的X与Y之间的相关性,但这种相关性只是你推测的定性描述而已,是不能定量描述的。
3、主成分分析,目的是将分析对象的多个维度简化为少数几个维度,方便分析,这样做的前提是维度很多且其中的多个维度之间有较强的相关性。而不是你想象的可以把X1、X2、X3降维成一个变量,因为只有三个维度,已经很少了,这三个维度可以做降维分析的可能性几乎没有。
4、回归分析,只有一个因变量,可以有多个自变量,最终算得因变量与自变量间的回归关系。
估计你只是自己想象了一个例子,实际中一般是不会有这样的分析案例的。
扩展
感谢你的回答。
具体一下,我想要利用SPSS研究政府采购与产业技术创新的关系,政府采购,我选的是政府采购金额(正在考虑要不要还加一个维度)。技术创新,我选了专利数量、技术人员数量、技术投入等。这种可能不是维度,而称为替代变量吧。
基于此,能解释一下,如何做二者的关系分析呢?
补充
1、基于你的描述,政府采购金额是因变量,专利数量、技术人员数量、技术投入是自变量。如果有另外一个因变量的话,可以另外单独分析另外一个因变量与上述三个自变量的关系。
2、首先做相关性分析
在spss中,通过相关性分析,可以得到政府采购金额与专利数量、技术人员数量、技术投入的相关系数。一般取相关系数大于0.9的变量。假设与技术投入的相关系数小于0.9,就可以不再分析该变量了。
3、回归分析
在spss中,政府采购金额(y)是因变量,专利数量(x1)、技术人员数量(x2)是自变量(假设技术投入相关性比较性,不考虑了),通过回归分析,就可以得到三者之间的方程:
y=a0+a1*x1+a2*x2,其中的a0,a1,a2分别是spss回归出来的参数。
4、得出回归方程后,就可以根据x1、x2的值来预测y的值了
扩展
谢谢,肯定是满意答案了。
不过还有一个,我论文想表述的意思是政府采购额增加会增加产业对技术创新的投入这样一种观点,而不是因为技术创新导致政府采购额增加,所以说自变量和因变量是不是反了?求解~
补充
按你的意思,自变量和因变量是反了。
现在需要分别做二个分析:
1、自变量是政府采购金额,因变量是专利数量
2、自变量是政府采购金额,因变量是技术人员数量
其实,如果你仅仅是想说明政府采购额增加会增加产业对技术创新的投入这样一种观点,就没必要做回归分析了(回归分析是为了找到精确的函数关系,做预测用的),只需做相关性分析就足够了。根据相关系数就可以判断两者是否相关了。至于是正相关,还是负相关,就看实际数据是怎样的,很容易判断。
怎么写课题
课题研究设计 教育科研课题确定之后,就要进行课题研究设计。教育研究设计是对教育研究活动开展的全过程的设计,是确保教育研究质量的关键环节。尽管不同类型的教育课题研究,对设计有不同要求,但从现有的教育课题研究设计来看,主要包括以下几个方面的工作:提出研究假设、选择研究对象、明确研究变量,确定研究方法,最后形成研究方案。 一、提出研究假设 (一)假设的内涵 所谓假设,简言之,是对选题提出的问题作假想性的回答,是研究者根据一定的经验事实和科学理论,对研究问题作出的一种推测性和假定性说明。对此,我们可以从三个方面加以理解: 第一,必须是对问题的解答。假设的提出不是无缘无故的,它是用来回答特定问题、解释一定事实和现象的; 第二,必须是对未经证实的问题的解答; 第三,必须有相关事实或理论依据。 (二)假设的类型 1、按复杂程度分: (1)描述性假设。是关于对象的大致轮廓和外部表象的一种描述。目的是向人们提供关于事物的某些外部联系和大致数量关系的推测,如,“教育发展对人口出生率变化的影响”的研究。 (2)解释性假设。揭示事物的内部联系,以说明事物的原因。 (3)预测性的假设。是对事物未来的发展趋势的科学推测。这种推测没有对现实事物更深入、更全面的了解是提不出来的。 2、按假设中变量关系变化的方向分: (1)条件式假设。是指假设中两个变量有条件关系,在表述上采用“如果……那么……”的标准逻辑句型, (2)差异式假设。是指假设中两个变量之间在一定程度上存在差异关系。 (3)函数式假设。是指假设中两个变量之间存在因果共变关系,并且用数学形式表达,即Y=f(x)。 3、按假设的性质分: (1)一般假设。是推测一般种类之间关系的假设,指向普遍的、抽象的、可推广的事例。 (2)特定假设。是推测特定对象之间关系的假设,指向个别的、特定的、具体的事例。 (3)虚无假设。又称统计假设,是推测某种不存在的、无倾向的关系的假设,指向中性的、无差异的、无区别的事例。 虚无假设的本意是想通过事实的检验来否定自己,否定了虚无假设,结果的倾向性也就明显地显现出来了。 3、按假设在表述变量关系上的倾向性分: (1)定向假设。在陈述中示意假设结果的预期方向,指出变量之间差异的特点和倾向。 (2)非定向假设。在陈述中不提示假设结果的预期方向,而是期望通过收集数据、检验结果来揭示变量间的差异,常用虚无假设来表示。 (三)教育研究假设的特征 (1)推测性。任何假设都是对于外界各种现象的猜测,尚未达到确切可靠的认识,因而有待于进一步通过科学研究来检验或证实。 (2)科学性。假设不是随意的幻想和毫无根据的空想,而是人们根据已经认识并掌握了的有关科学知识或经验知识,以一定的确实可靠的关于研究对象的事实材料为基础,并按照科学逻辑的方法推理而成。 (3)逻辑性。假设不是经验事实的简单堆砌,而是由概念、判断、推理构成的逻辑体系。 (4)多样性。即对同一现象及其规律可以做出两种或多种不同的理论假设。所以,假设具有多样性。 (四)假设的重要作用 1、假设能集中反映前期探索的成果; 2、假设能指明后续研究的方向; 3、假设可以提高研究活动的创造性。 (五)好的研究假设的标准。 ①科学性。 ②预测性。 ③新颖性。 ④可验证性。 ⑤简明性。 (五)教育研究假设的检验 假设的检验就是验证假设是否成立,包括逻辑分析和实验验证。 逻辑分析,主要用逻辑论证和反驳的方法; 实验检验又分为:(1)直接检验;(2)间接检验。 二、选择研究对象 根据研究对象划分教育科研类型: (一)总体研究、个案研究和抽样研究 1、总体研究。“总体”一词含有总数、全体的意思,即研究对象的全体,是一定时空范围内全部研究对象的总和。 总体的大小,由研究者所界定的范围而定。 2、个案研究。 由于个案研究一般是对研究对象的一些典型特征作全面而深入的考察与分析,其过程与解剖麻雀相似,因此也有叫“解剖麻雀法”。 个案研究具有以下特点: ?? 研究对象的个别性与典型性。 研究内容的深入性和全面性。 研究方法的多样性和综合性。 目的和作用 优越性: 局限性: ?3、抽样研究 是研究者按一定的规则从总体中抽取有代表性的样本,根据对样本进行研究的结果来获得有关总体认识的研究 抽样按一定的规则从一个确定的总体中抽取一部分有代表性的单位组成研究的样本。 抽样单位是指构成总体的基本单位或元素。 样本是指从总体中抽取出来的直接被研究的对象。 抽样的目的和作用: 抽样研究相对于总体研究来讲有许多优越性: ①解决总体研究的困难; ②节省人力、时间、费用,缩短资料整理时间; ③可对所抽取的样本进行深入细致的分析研究,提高研究结果的准确性和深度; ④抽样研究所得结论,有推广应用到同类对象中去的意义。 抽样研究也存在许多缺点,其中最大的不足就是存在抽样误差。 (二)抽样的基本要求 正确的抽样应遵循随机性原则。 所谓随机性原则,是指在进行抽样时,总体中每一个体被抽选的概率(即可能性)是完全均等的。此外,抽样时还应注意: (1)确定抽样范围。关键是明确总体的界限。 (2)保证样本代表性。 ①被研究对象的均匀程度,越均匀,误差越小; ②抽样数目,抽样数目越多,误差越小; ③抽样方法。一般而言,不重复抽样比重复抽样误差小,机械抽样比随机抽样误差小,分类抽样比机械抽样误差小。 (3)样本容量合理。即根据总体的性质,抽样的方法及推论所需的正确程度来确定样本的大小,尽可能抽取足够大的样本,以使它能够真正代表总体的特征。 (三)抽样的一般程序 说完整的取样过程一般包括以下三个步骤: (1)清楚界定研究对象的总体,即规定总体; (2)设法取得一份包括完整而正确的抽样单位的总体名单; (3)确定样本容量,然后根据名单,采用适当的抽样方法,抽取有代表性的样本。 (四)常用的抽样方法 抽样的方法多种多样,应根据研究目的、研究内容和条件来选择具体抽样方法。 1、简单随机取样。是全凭机遇来抽样,每个抽样单位在抽样过程中有着同等的被抽取的机会。 ①采用抽签的方式。 ②使用《随机目录表》。 2、等距随机取样。也称系统随机抽样、机械抽样或间隔抽样,是将抽样总体中的每个个体按某一标志顺序排列编号,然后有系统地间隔若干个抽样单位抽取一个个体,从而形成样本。其步骤是: ①将总体中的每个个体按顺序排列编号; ②确定间隔距离; ③采用随机方法确定抽样的起点号码; ④从起点号码开始,依间隔距离,按顺序抽取足够数目的个体作为样本。 3、分类随机取样。也叫分类抽样、比率抽样、配额抽样,是将总体按一定标准即单位属性特征(变异度的大小)分成若干个类别,然后根据事先确定的样本容量和各类在总体中所占比例,分别抽取一定数目的样本。其步骤是: ①决定分类所依据的标准; ②确定总体数量,每类的总数和取样的总数; ③计算出每类所占比例,并以取样的总数乘以比例,得到每类所应抽取的数量; ④采取简单随机抽样方法,从每一类别中抽取应取的数量。 4、整群随机取样。也叫整体抽样,是把总体划分为若干个群体,然后依据随机原则,抽取一个或几个群体作为样本。 5、多阶段随机取样。也叫多级抽样法,是将总体分为两个或两个以上的层级,依次在各级中进行抽样,每一级的抽样都用随机的方式。 6、有意抽样。也叫按目的抽样,是研究者按一定目的要求选择某些研究对象作为样本。进行有目的抽样时应遵循如下原则: ①样本必须拥有最大的信息量; ②不追求样本容量大,而应以能提供信息为基本原则; ③事先确定一些抽样标准; ④研究者清楚课题研究目的,以引导出清楚的抽样标准。 7、双重抽样。是指进行两次抽样,以抽取两个样本进行比较。 抽样的标准、方法以及抽样的大小之是否适当,关系到研究工作的进程,特别是研究结论的准确性,是研究工作开始时必须妥善解决的一个重要问题。 (五)样本大小的确定 样本容量的大小取决于许多因素,其中主要有以下三方面: (1)研究对象总体的性质。 (2)研究目标、方法和研究者的经费、经验、时间、精力等主客观条件。 (3)研究结果的统计分析方法。 三、明确研究变量 科学研究必须探索变量之间的关系。 (一)变量的含义 变量是相对于常量而言的。 常量是指在一个研究中所有对象都具有相同的状态或特征。 例如:江西师范大学 变量(variable)是指在一个研究中研究对象具有不同的状态或特征,具有不同的值,即研究中涉及到的可以变化的因素。 如:教学 (二)变量的种类 1、按形式划分 (1)连续变量。凡是在本质上能以连续数值表示其特性的变量,称为连续变量。 (2)类别变量。凡不能以连续数值表示,而需以类别表示其特征的变量称为类别变量,即不连续变量。 2、按来源划分 (1)主动变量。凡可以由研究者主动安排或操纵的变量称为主动变量。 (2)属性变量。代表研究对象的各种属性,是研究者无法主动操纵、只能通过观察和测量得知其特征,称为属性变量。 3、按变量间的关系划分 (1)自变量(independent variable)。又称刺激变量,即研究者掌握并主动操纵,能够促使研究对象变化的变量,是引起或产生变化的原因,是研究者操纵的假定的原因变量。 (2)因变量(dependent variable)。又称反映变量,指因自变量变化而发生变化的有关行为、因素或特征。 (3)无关变量(extraneous variable)。也称控制变量,是指与自变量同时影响因变量变化,但与研究目的无关、需要加以控制的变量。 (4)调节变量(moderator variable)。又称减缓变量。是一种特殊的变量,具有自变量的作用,也叫“次自变量”。 A、B两种教学方法对学生学习效果的影响: A教学方法对智力高学生学习效果影响显著;B教学方法对智力低学生学习效果影响明显。 (5)中间变量(intervening variable)。又称中介变量,是介于原因和结果之间,自身隐而不显,起媒介作用的变量。 (三)界定研究变量 1、确定主要变量。所谓主要变量,是指与研究目的直接有关联的变量,是研究者操纵或测量并希望从中获得研究结果的变量,通常在研究的题目中显示。 (1)选择自变量。 (2)明确因变量。 例如:用智力测验分数反映智力发展水平,用科学测验成绩表明学业成就。 2、确定相关变量。相关变量是指与研究目的无直接联系,但如果纳入研究中,会使研究结果更严密、更可靠的变量,通常有两种: (1)背景变量。 (2)调节变量。 3、确定控制变量。控制变量是在研究过程中必须加以控制,才能提高研究结果可靠性的变量。 4、确定变量名称。务必使变量名称简洁、易懂,名副其实。 (四)定义研究变量 给变量下定义,要尽可能清晰、准确,不得含糊其词。给变量下定义的方法主要有两种。一般说来,是先下抽象性定义,然后下操作性定义。 1、抽象性定义(Abstract definition)。又称概念性定义,是对研究变量共同本质属性进行概括的定义。 如: “智力”界定为“思维的敏锐”或“抽象思考的能力”;“兴趣”界定为“人对现实世界的对象和现象的特殊认识倾向”;“动机”界定为“激发一个人去行动或抑制一个人行动的主观原因”等。 2、操作性定义(operational definition)。是根据可观察、可测量、可操作的特征来界定研究变量的含义。 例如:“智力”界定为“用《韦克斯勒儿童智力量表》测量所得的分数”; “合作”界定为“对别人的活动给予支持,并直接参与活动,成为其中的一员”等。 给变量下操作性定义要注意: 第一,研究课题中的重要变量要下操作性定义。 第二,根据研究的目的、内容及变量的性质下操作性定义。 第三,操作性定义的设计要具体、明确。 第五,操作性定义必须兼顾排他性和普遍性。 四、确定研究方法 在明确了研究变量之后,就要考虑并确定研究方法,以收集完整、可靠的研究资料。 收集研究资料的方法多种多样: 无论那种方法,既有优势,又存在不足。人们通常是根据课题研究目的和条件来选择资料收集方法,并注意各种方法的独立性及相互关系。 五、形成课题研究方案 形成研究方案,是依据确定的研究项目,对研究过程进行周密、科学、完整地构思、确定、规划和表述。 (一)课题研究方案的含义 教育课题研究方案,是如何进行课题研究的具体设想,初步归纳了课题研究各方面的具体内容和步骤,是开始进行课题研究的工作框架。 (二)形成课题研究方案的意义 1、是保证课题研究顺利进行的必要措施。 2、是使研究课题具体化的中心环节。 3、是课题研究成果质量的重要保证。 4、有利于检查和自我检查。 5、有利于协作研究。 (三)课题研究方案的内容 1、课题名称。 (1)明确表述研究问题。 (2)揭示研究对象。 (3)用语规范、科学。 2、研究背景、现状和意义。 (1)阐述课题研究的背景(问题提出)。 (2)阐述研究的意义。 (3)国内外研究状况(文献综述)。国内外作过哪些研究;取得哪些成果;达到什么水平 3、阐述研究目标、内容。 (1)明确研究目标。 (2)阐述研究内容。 4、选择课题研究方法。 “研究方法”这部分,主要反映一项课题的研究要“做些什么”和“怎样做”。要尽可能写得细致一些。如用调查法,可写明调查方式是问卷还是访谈。如果用问卷调查,最好能将设计好的问卷附上。 5、明确研究程序、步骤。研究持续的时间、阶段划分、每个阶段的主要工作、达到的要求 6、阐明成果表现形式。 7、课题研究资源的配置 (1)研究组成员及其分工。 (2)经费预算及设备条件的需要。 8、参考书目及有关附录。 (四)课题研究方案的设计要求 1、保证研究采用的方式方法是合理的、可靠的和经济的。 合理,指针对一定的假设或研究内容,采用的方式方法能够满足检验、论证和解释研究内容所需要的功能和潜在条件; 可靠,指研究所采用的方式方法式是可以信赖的,可以重复的,即使换了他人来做同样的工作也能得到基本相同的结果; 经济,指对经费、人力、物力、时间的整体考虑和精打细算,既要力所能及,又要以较少的投入争取最大的效益。 2、保证研究是有效的、客观的和明确的。 有效,首先指研究所使用的变量之间存在着真实的确定的关系,这种关系可能是因果关系,也可能是相关关系。 客观,指研究的程序和控制必须要保证研究变量之间的影响能以真实关系发生变化,不能是虚构的、或随心所欲的,收集的数据是反映真实关系的、准确的。 明确,保证研究是明确的,指设计要使得研究所反映的关系能以比较突出和鲜明的形式表现出来,研究结果以明白无误的、有说服力的、可靠的数据或材料表述出来。 第一、认真细致。认真细致地查阅资料,认真细致地进行思考,认真细致地讨论修改,教育科研计划才能制定出来。 第二、明确具体。教育科研计划必须明确具体,但不应该有套话、废话,不应该有不必要的修饰词。 第三、科学性。研究计划的制定要符合教育研究方法的要求,要在掌握一定理论和事实材料的基础上进行。研究计划的制定又要切实可行,充分考虑自己的研究能力和研究条件。