在社交媒体研究中避免这些样本偏倚的错误

如何提高社交媒体样本的质量

目前进行的社交媒体研究受到非参与性偏见的影响。 存在许多类型的非参与性偏见,每种类型都有可能影响研究结果的可靠性 - 往往以隐藏或未知的方式。 事实上,研究表明,那些难以接触的研究参与者需要多方努力来联系他们,这与其他受访者有很大不同。

这些差异见于年龄,性别,婚姻状况,社会经济地位,健康状况和儿童人数。

反应速度

研究结束时的数据包括样本中所有成员的数据被称为回复率 。 虽然这个概念在结构化调查或一系列访谈中很明显,但在社交媒体研究中更加模糊。 然而,社交媒体研究的重要性不亚于其他类型的定性研究 。 答复率由完成调查的人数或同意接受调查的人数除以完成原始抽样工作的总人数。 总人数必须包括未成功联系或拒绝参与研究的人员。

泛化问题

不管数据如何收集, 高回应率的重要性都不足以强调。

当样本的响应率较低时,不可能真实地产生较大的人口。 随着应答率下降,样本偏差会增加。 在基于媒体的调查中,当返回率降至样本的20%或30%时,该组参与者与整体抽样人群几乎没有相似之处。

人们返回邮件调查或同意参与电话调查的趋势与参与社交媒体网络的人一样:即主题(或产品或服务,视情况而定是)。

样本大小

较小的样本比较大的样本具有更大的抽样误差。 考虑到样本数据提供了较大人口属性的估计值。 从抽样框中抽取的每个样本都提供了对较大人口的单独估计。 理论上,对于每个问题,每个样本可能会有不同的回应模式。 随着时间的推移,从抽样框中抽取足够的样本,真实模式将围绕更大群体的实际(真实)模式进行收敛。

误差范围

抽样误差描述了从较大群体中抽取的任何样本的估计精度。 抽样误差以与置信度水平相关的误差幅度表示,这是一个统计量度 。 例如,在总统偏好民意调查中,该报告可能表明,在位者被64%的选民青睐。 误差幅度为正负3分,置信度为95%。

换句话说,如果民意调查再次以100个不同的选民样本进行,在100个选民中,95个选民会表示现任选民中有61%到67%的选民青睐。 也就是说,61%的选民+ 3%或-3%。

关于样本量的决定

随着样本量的增加,与采样有关的误差幅度也随之下降,但仅限于某个点。 当样本数量达到1000到2000人时,误差幅度足够小,以考虑更大的样本(不是一个具有成本效益的选择 )。 当小群体是较大群体的一部分时,较大的样本量可能是合理的,因为每个小群体的误差范围将根据小群体中的人数而变化。 例如,如果给定1000个社交媒体网络成员,误差率等于1%到3个百分点之间,95%的置信区间,那么对该社交媒体网络的一个子群体的分析 - 比如停留在家中 - 妈妈的数量约为100--会有更高的误差约4至10点。

衡量样本充分性

通常根据所使用的选择程序而不是最终大小或组成来​​评估样品。 这是基本因素,因为在大多数情况下,不可能准确地衡量样本代表更大群体的代表性 。 使用统计程序是因为它们允许方便且基本可靠的估计。 在开始时建立一个合理的置信区间和误差范围,使研究人员能够关注变量,如响应率和足够的抽样框架。