变量值是指某一变量的具体取值。获取变量值,大抵有两大类方法:一是借用已有数据,二是自己测量。例如,参加社会保障的人数可以是604.1万人、679.5万人等,这些数字就是变量值。不同的变量的变量值的特点各不相同,确定性变量的变量值有明确的变化方向;随机变量的变量值则有一定的随机性。
中文名变量值
外文名variate-value
适用领域数值、字符
所属学科统计学
定义变量的具体表现,就是可变数量标志或统计指标的不同取值,称为变量值(即标志值)。一个变量可以取多个变量值,二者不能混淆。例如,工资这个变量,可具体表现为2840元、3780元、4900元、5680元等多个变量值。[1]
性质取值范围变量的取值既可以是数值,也可以是表达属性的字符。成年人年龄这个变量,既可以用“老、中、青”来作为变量值,也可以用具体的年龄来取值。性别则只能取男或女,既没有第三个选择,也不能用数值来取代,除非事先约定用“0”表示男,以“1”表示女。在利用一些统计软件(如SPSS)对变量进行编码时,这也是一种常见的策略。
顾名思义,变量的含义即在于其取值的不确定性,也即变量值一般是处在某个范围之间的,这个范围在统计上称为全距(Range)。在一项具体的研究实践中,必须弄清楚变量取值的变异范围,并采取适当的策略来加以处理。
在社会科学研究中,很多变量值自身所具有的敏感性、隐秘性、含混性和抽象性特点,使得研究者难以了解变量的全貌,即变量的变异范围。例如,在关于“城市居民社会地位与旅游消费行为的关系”研究课题中,必然会涉及“居民收入”这个变量。然而,这是一个很敏感、隐秘的变量,几乎不可能确切知道城市居民的实际收入的上下限到底是多少。高收人家庭可能日入斗金、年收人数以亿汁,低收入者也可能人不敷出。好在我们的研究更关注“大众旅游”的情况,因此,对于极端的收入水平可以不予考虑。在这种情况下,家庭月收人在1000~50000元范围内的城市居民,应该占据我们研究课题分析单位的绝大部分。
当要测量的变量是接近于同情心、偏见、愉悦、态度之类的抽象概念时,变量的取值问题更需要加以注意,以免出现偏于一端、失之武断的缺欠。比如,你如果是在2001年前后调查安徽世界文化遗产地宏村村民对旅游开发的态度,可以让村民就你所列举的关于这个“态度”变量表达“非常赞同”或“不感兴趣”两个选项中的一个,以此作为判断民意的依据。那么,你很可能由于这种“变量值”范围限定的不合理性,使得你并没有取得全部的态度类型。因为,在那一段时期,宏村村民不仅不是不感兴趣的问题,而且还可能强烈反对山。合适的取值范围应该从非常赞同到没有意见,直至非常反对。
有些变量的取值范围是固定的(如性别),也有一些变量的取值范围虽然不能准确限定,但却可以预估其范围(如身高、年龄、收入、职业、受教育程度、家庭人口数等),还有一些变量的取值范围根本无法事先预计(如游览时间、休闲偏好、购物支出和阅读兴趣等),甚至有一些变量的取值具有无限的可能性(如某一平方千米范围每一点的地下水位,由于“点”的无限可能性,因此相应的地下水位也会有无限个数值)。
分组很多情况下,需要对取值范围差异很大的变量进行分组。如果所划分的组别由单一数值或字符来表示,此种分组为单项式分组。将性别分为男性和女性两个组,将某旅游地的家庭旅馆按照拥有客房间数分成5、10、12、15、27四个组,都属于单项式分组。这种分组方式适合于变量为离散变量且变量值变异范围很小的情况。否则,就需要采用组距式分组。
组距式分组的组数多少与全距(R=最大变量值一最小变量值)的大小和设定组距的宽窄有关。在变量值的全距一定的前提下,组数越多,组距自然越窄。而这种分组策略的结果是保留了较多的资料细节,却以损失变量数列的概括性为代价。相反,组数越少,组距就会越宽,变量数列越概要,损失的原始信息也越多。在确定组数与组距时,就需要在这两种情况中进行权衡。
一般地,组数的多少会与原始数据的多少有些关系。原始数据很多时,可以多分几组,相反,就可以少分几组。需要提醒的是,过少的分组决策有可能使原始资料的分布模式彻底被抽象掉,从而使分组失去意义。
通常,当组数确定时,可以根据组距=全距/组数的公式计算组距的大致宽度;或者相反,当已经决定要用多宽的组距时,也可以反过来求可以划分的组数。
当采用不等组距分组时,上述公式就不适用了。不等组距用于变量值的分布极不均衡的场合。当试图描述总体分布的实际模式时,不等组距常常会掩饰这种模式,因此要特别注意。下文提到的“开口组”也是不等组距的一种形式。
方法变量值1、借用已有数据
例如,各类年鉴上的数据。如,中国统计年鉴、中国城市统计年鉴、中国金融统计年鉴、中国建筑业统计年鉴、省统计年鉴。如果不清楚有哪些年鉴,可以先查看《中国年鉴概览》,然后查找有关年鉴。该概览还提供了被检索的次数情况,可供引用者参考。
使用年鉴中的数据,要注意不同年鉴中的数据可能不一致的问题。出许多人的意料,同一个变量在不同年鉴中的数据常常是不一致的。形成差异的主要原因是变量的内涵的差异。所以,在使用年鉴数据前,一定要仔细阅读年鉴的说明,弄清楚变量的定义。
已有数据,也包括他人文献中的数据。引自他人文献中的数据,要注意作者的严肃性与权威性,不可“以讹传讹”。
2、自己测量
自己测量变量值,是包括管理科学在内的社会科学研究的最重要的基本能力之一。没有这个能力,一般很难进入创造性的研究,特别是有独创性的研究。
仅仅依靠年鉴上的数据和别人的数据,采用别人没有想到的处理数据的方法,研究出与众不同的结果是很难的。
特点不同的变量的变量值的特点各不相同:离散变量的变量值可一一列举;连续变量的变量值则不能一一列举,只能用区间表示;确定性变量的变量值有明确的变化方向;随机变量的变量值则有一定的随机性。
关系变异是统计研究的前提条件,变量和变量值是在变异的前提下表现为可变的数量标志和数量标志值。所以说,变量和变量值都存在于变异之中,它们的关系是互相依存的。
变异标志在同一总体不同个体之间的差别是变异。变异的普遍存在是统计核算的前提条件.
标志按个体表现不同,分为不变标志、变异标志,同一总体中的每个个体都具有不变标志和变异标志。
标志按性质不同,分为品质标志和数量标志,变异标志也分为品质变异标志和数量变异标志。如,性别与年龄。
把总体、个体和标志三个概念联系起来,总体的特征概况为:
(1)同质性
(2)大量性
(3)差异性
变量变量:数量变异标志。
变量值:数量变异标志的表现形式的具体的数值。
变量又分为连续变量、离散变量
连续变量,如,年龄,身高,体重等,两个变量值之间有无数的分割。
离散变量,如,职工人数,企业个数等。变量值只能取整数。
参考资料本文发布于:2023-06-04 21:00:22,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/92/200106.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:变量值(统计学术语).doc
本文 PDF 下载地址:变量值(统计学术语).pdf
留言与评论(共有 0 条评论) |