被访者驱动抽样的评估、批评和改进社论前沿

更新时间:2023-06-29 14:11:25 阅读: 评论:0

被访者驱动抽样的评估、批评和改进社论前沿
摘要: RDS是⼀种⼴泛使⽤的⽹络抽样⽅法,它采⽤链接跟踪设计来提供统计推断的基础。关于RDS的⽂献很多,但许多重要的研究问题仍然没有解决,包括如何在可选的RDS估计⽅法中进⾏最佳选择,如何改进现有的估计⽅法减少对与事实相反的假设的依赖,以及如何最好地计算估计值的变异性。
这是社论前沿第S1704次推送
介绍
被访者驱动抽样(RDS)是Heckathorn提出的⼀种⽹络抽样形式,它结合了多样性和链式追踪⽅法。它之所以变得流⾏,是因为提供了⼀种⼿段,通过该⼿段可以对样本进⾏数学(参数)调整,以补偿由⽹络结构产⽣的偏差,从⽽获得某种形式的概率样本。
RDS⼤受欢迎在很⼤程度上要归功于这样⼀个事实,即它是对难以接触到的⼈群进⾏抽样的⼀种具有成本效益的快速⼿段,这⼀问题在社会科学和卫⽣科学领域受到了越来越多的关注。本期推送集中于RDS评估⽅法的优缺点、⽅法创新,以及未来⼯作重点。
被访者驱动抽样
RDS是在滚雪球抽样受到挑战的背景下发展出来的⼀种新的链接追踪⽅法。最初的RDS论⽂采⽤同伴招募过程的马尔可夫模型,模型使⽤来⾃同伴招募数据来估计跨组招募的概率。这些概率被组织到招募矩阵中,指定每个组的成员的概率,从他们⾃⼰组和每个其他组招募成员。这些概率作为马尔可夫模型的转移概率。
模型表明,当样本⼀层⼀层地推⼴时,它接近⼀个与起点⽆关的平衡,也就是说,它与开始时的指定种⼦的⽅便样本⽆关。这意味着,如果层数⾜够⼤,任何种⼦的选择最终都会产⽣相同的平衡样本组成。
因此,RDS基于这样⼀种观点,即初始样本是否随机并不重要,只要层数达到⾜以消除初始选择种⼦的偏差的恒定值,⽽且,分析表明,种⼦的偏差是按年龄⽽不是算术速率减少的,这⼀特征加速了偏差的减少。
然⽽,该⽅法的⼀个重要限制是:招募层数实际上总是受限的,这意味着只有在同质性不极端的情况下,才会达到平衡。也就是说,当群体间的边界⼏乎⽆法跨越时,即使同质性条件被证明是相等的,也应该使⽤RDS从这些群体内提取样本,⽽不是跨越它们。
Heckathorn在2002年介绍了⼀种新的RDS⼈⼝估计⽅法。估计者不仅根据招募矩阵的数据,⽽且根据⾃我报告的⽹络规模,既补偿了不同群体之间同质性的差异,也补偿了不同群体之间平均度(即个⼈⽹
络规模)的差异。这是通过所谓的互惠模式实现的。基本的想法是,在RDS中,受访者招募熟⼈、朋友和亲戚,因此他们的关系往往是互惠的。因此,连接任何两个群体的纽带在两个⽅向上的数量必须相同。
Heckathorn在2004导出Salganik-Heckathorn RDS估计量,证明了当满⾜1/[样本⼤⼩]的⽅法假设时,该RDS估计量是渐近⽆偏的,并且在相当⼤的样本中偏差较⼩。为使该⽅法产⽣渐近⽆偏总体估计所必须满⾜的假设规范,需要六个假设:
1.受访者彼此认识,是⽬标⼈群中的⼀员。
2.⽬标⼈群的⽹络形成单⼀。
3.采样与替换同时进⾏。
4.受访者可以准确地报告他们的个⼈⽹络规模。
垃圾的危害5.受访者从个⼈⽹络中随机招募。
6.被调查者只招募⼀名员⼯,所以招募效果在不同的群体中是⼀致的。
数据库连接失败
前五个假设为RDS何时是合适的⽅法和合适的研究设计提供了指导。第六个假设经常是反事实的,因为⼀些群体⽐其他
桂林市区景点前五个假设为RDS何时是合适的⽅法和合适的研究设计提供了指导。第六个假设经常是反事实的,因为⼀些群体⽐其他群体招募更有效是很常见的。因此,这些假设已经成为许多研究⼯作讨论的主题,以便能最⼩化或消除潜在偏差。
RDS现有估计⽅法
1.Volz-Heckathorn:RDS II
Volz和Heckathorn在2008的⼀篇论⽂中进⼀步发展了RDS⽅法。他们基于⽹络原理导出了Volz-Heckathorn RDS估计⽅法。开创性的见解是,当招募模式在不同群体中统⼀时,受访者被按照他们的度(即他们的⽹络规模)成⽐例地抽样,因此可以通过他们的度的倒数来加权。结果是⼀个类似于多重性⽅法的估计⽅法,但有⼀些显著的区别,即来⾃种⼦的度数据被视为缺失,因为它们通常由⽅便的样本组成,⽽不是由同⾏招募的。为了区别于原来的RDS估计⽅法,新的估计⽅法被命名为“RDS II”。错落有致的反义词
2.基于逐次抽样的估计量
Gile提出了RDS II估计量的⼀个扩展,它的优点是可以从采样替换假设中控制偏差。鉴于上述假设3总是与事实相反,消除这⼀偏差来源的估计⽅法具有明显的价值。
Gile的连续抽样(SS)估计⽅法是基于顺序抽样的。为了说明其⼯作原理,可以以电话簿中抽英⽂姓名做例⼦。在顺序抽样中,每次选择姓名后,从电话簿中删除该姓名时,要重新计算电话簿的姓名数量和每个姓名的度。这样,⽆论抽样⽐例是多少,从样本中得出的估计值都是⽆偏的。例如,当已经选择了⼤多数名字时,其余的名字将倾向于具有较少的字母数量,这不会以任何⽅式偏离任何的顺序抽样估计。
但该⽅法的局限性在于它需要知道样本的⼤⼩和度分布。当应⽤于隐藏的⼈群时,根据定义,其规模是未知的,因此,这⼀假设是有问题的。Gile进⾏的敏感性分析表明,如果⼈⼝规模估计的误差在20%或更少,偏差就很⼩。然⽽,对隐藏⼈⼝的研究有时表明,关键线⼈的估计可能不那么准确。
顺序抽样估计⽅法的第⼆个限制是,对于相当⼩的抽样⽐例(即20%或更低),⽆替换假设产⽣的偏差可以忽略不计,⽽对于较⼤的抽样⽐例(即40%或更低),偏差对总体估计的⽅差贡献很⼩。这些研究说明了RDS估计者不需要从采样与替换假设中控制偏差的情况。
3.Gile-Handcock模型辅助估计⽅法
面对自己当样本链条不够长或同源性太严重时,Gile-Handcock模型辅助估计⽅法可以控制对种⼦选择过程的依赖,从⽽减弱种⼦对样本组成的影响。模型辅助⽅法采⽤指数随机图模型,合并了底层⽹络群体的节点度、属性值和同质性。⽹络模型以从RDS样本估计的⽹络特性为条件,并且RDS点估计基于从⽹络模型估计的采样权重。
4.双组件(DUAL-COMPONENT)RDS
有种情况,⼀些群体⽐其他群体招募更有效,因此他们独特的招募模式在样本中被过多地反映出来。更正式地说,差异化招募偏差(DRB)是当⼀个群体⽐其他群体招募更有效的时候出现的,这种差异化招募有效性(DRE)与差异化招募模式(DRP)相结合,例如偏爱组内招募⽽不是组外招聘。因此,DRB的两个条件是DRE和DRP的组合。对DRB的控制是通过将RDS抽样权重W除以n个基于个体的度(称为度组件(DC))和基于组的权重(RC)来实现的。
双组件模型的⼀个好处是,它消除了上述第六个假设。第⼆个好处是,它通过在度估计中控制DRB来改进对组⽹络⼤⼩的估计。这涉及⽤RDS⽅法特有的多重性和联系追踪⽅法的组合取代先前的多重性⽅法来估计度。第三个好处是,它还减少了对RDS研究设计的限制,允许多阶段设计更有效地对社交⽹络的低密度部分进⾏采样。
5.链接的⾃我⽹络
链接的⾃我⽹络⽅法从每个被访者那⾥收集关于其⾃我⽹络变动数据。RDS提供了⼀个估计包含概率的框架,⽽链接的⾃我⽹络⽅法将这种计算扩展到计算每个新招募的变动概率。不是仅仅依赖于观察到的招募模式,⽽是使⽤⾃我⽹络组成、使⽤⾃我报告的计数或⽐例数据来计算转移概率。
链接的⾃我⽹络估计控制了差异化招募,并且对有偏差和漏报的变更具有相当的稳健性。链接的⾃我⽹络⽅法的局限性是假设受访者可以正确地报告其同龄⼈的状态。虽然可以准确地报告各种⼈⼝统计和⾝份属性,但通过⾃我⽹络调查可能⽆法获得有关健康或私⼈⾏为的信息。如果可⾏,链接的⾃我⽹络估计⽅法可以与其他RDS估计⽅法同时使⽤。
RDS的评估、批评和改进
越来越多的⽂献评估了可⽤的RDS估计⽅法,确定了偏差的来源,批评了现有的研究设计,并提出了新的改进措施来解决未解决的问题。最初的RDS⽂章包括⼀个来⾃两个相邻城市的数据集,这些城市只有微弱的⽹络连接-不到⽹络连接的1%。这产⽣了极⾼的同质性断裂点。同质性如此极端,以⾄于接近平衡将需要70多次招募层数。
第⼆个建议是严格限制分⽀机构,即限制招募配额,使每个受访者只能招聘有限数量的同⾏。但是,这个建议的有⽤性取决于系统的同质性⽔平。Goel和Salganik使⽤每组90%的组内招募的假设数据集发现,将配额从1改为0到4的范围极⼤地扩⼤了估计的置信区间,以⾄于有效样本量减少了70%以上。
换⾔之,设计效果提⾼了两倍多。
此外,相对于基于模型的Salganik-Heckathorn估计,Volz-Heckathorn度估计的性能更优越。这是他们构建的⽹络中招募⽅式的产物,在RDS模拟研究中很常见,他们使⽤单⼀的⾮分⽀招募链。这具有排除差异招募的效果。从双组件模型的观点来看,招募构成必须具有中性值,因此抽样权重完全取决于度构成,在这种情况下,Volz-Heckathorn估计量将与基于Salganik-Heckathorn模型的估计量收敛。Salganik-Heckathorn模型所依赖的额外数据只会在估计中充当潜在的噪声源。
对RDS的常见批评是,它的有效性取决于多个假设,⽽这些假设在该领域往往不成⽴。最近的⼀篇论⽂说明了如何通过在RDS估计⽅法中进⾏适当的调整来减少对反事实假设的依赖。第⼀种是开发⼀种不参与估计⽅法,它控制所谓的不参与的偏差,即受访者接受招募优惠券,但随后决定不参与研究。参与的差异可能由多种因素引起,例如当交通⼯具有限时,到⾯试地点的距离不同,或被认为对某些受访者群体构成威胁等等。这个问题的解决依赖于开发⼀种可以并⼊估计⽅法的不参与率的度量⽅法。
第⼆种是开发不对称性估计⽅法,控制因地位差异导致招募模式不对称时的偏差。例如,地位⾼的受访者可能是不愿接受地位较低者的招募,或者某些团体可能不愿意被其他团体招募。这些⽅法可以⽤来减少由于违反RDS模型中的其他假设⽽产⽣的偏差。
怎么解散群
讨论
RDS发展还处于初级阶段,因此,许多重要的研究问题仍然悬⽽未决。⽬前,对于哪种替代点估计⽅法是最好的,还没有达成共识。考虑到不同的估计⽅法基于对数据集结构的不同假设,并且依赖于不同类型的数据,很可能没有⼀个单⼀的估计⽅法在所有情况下都是最优的。
关于RDS最⼤的悬⽽未决的问题是⽅差估计。基于不同形式的⾃助法(Bootstrap)或分析⽅法,已经提出了⼏种不同的⽅案。研究RDS估计量⽅差的⼀个重要⼯具是使⽤⼈⼯数据集。当使⽤从隐藏总体中提取的实际数据集时,不可能知道特定⽅差估计的有效性和可靠性。相反,通过使⽤具有已知参数的⼈⼯收缩⽹络,可以绘制多个模拟的RDS多重采样。然后,根据多重采样集合计算的点估计的⽅差,提供评估RDS样本⽅差的黄⾦标准。
然⽽,它是否能达到这⼀标准取决于提取⼦样本的⽹络结构是否在本质上与RDS通常应⽤到的隐藏⼈群的结构相对应。尽管如此,这些结果还是有指导意义的,⾄少它们提供了⽐较计算⽅差的其他⽅法的⼿段。虽然重要的未决问题仍然存在,但RDS在⽅法创新⽅⾯的推动,仍然使其成为隐藏⼈群最实⽤的抽样⽅法。
⽂献编译|唐斌斌
美编|唐斌斌
漫画图片大全责编|张慧
闺蜜节图|⽹络

本文发布于:2023-06-29 14:11:25,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1060238.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:招募   估计   样本   假设
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图