(以下内容节选自《初级社会统计及Stata学习手册》前言部分,有删减)
早在19世纪前期,奥古斯特·孔德(Auguste Comte)首次提出“社会学”这一概念,并力图将其建成一门研究社会的实证科学。在自然科学突飞猛进的背景下,当时的学者们认为只有参照自然科学的模式来重整社会研究,使之科学化,并最终在理论上将自然知识和社会知识依照科学的原则统一起来,才能消除思想上的混乱,进而重建社会的秩序。
然而,社会科学与自然科学存在本质上的差别。自然科学的研究对象是物,而社会科学的研究对象往往是人。自然科学研究的内容虽大多基于现实存在,实际上却是混沌表象下的抽象本质。自然科学通过建立理想模型、设计理想实验来揭示自然界的本质与规律。而社会科学研究的内容是具体的,其目的在于了解现实社会,但是构成社会生活的种种个别事件无时无刻不在发生变化,它随具体情境而变,依具体情况而定,与主体行动者的特征密切相关。也正是因为人的参与不可避免地会带来不遵从自然实验的可重复性等问题,社会科学难以跟自然科学一样轻松跳出真实世界,关注抽象而理想的状态,进而产生普适又永恒的真理。即便经历了几个世纪,社会科学与自然科学之间仍旧存在隔阂。
正因为如此,完全采用适用于自然科学的模式来研究社会现象也许并不合适。不过有一点可以肯定,社会科学的发展不是追求与自然科学在本体论上的一致,而是应该在方法和研究过程上借鉴自然科学。社会科学既涉及客观的外部事实,也涉及主观的行为思想;鉴于这种复杂性,只有基于经验观察的实证分析才能帮助我们理解特定社会情境下主体的行动逻辑、分析过程中的变与不变。也正是由于这种复杂性,不论是定性研究还是定量研究,都需要明确的研究程序与规则、严谨的科学归纳和溯因方法,以找出现象背后的关系并叙述因果缘由。
在社会科学领域有关定性和定量的分歧一直存在,以致时不时就会形成论战。实际上,不论是定性还是定量,都只是用来处理研究问题的方法工具,实证主义并不排斥也并不倾向于任何一方。可是,只要是工具就会有局限性,我们应该做的不是无限放大二者的局限,而是尝试深度认识和理解这两种方法,认清它们在方法层面的边界,融合利用并尝试突破其界限,使其实现发展。要知道,对任何一方的批判都不足以磨灭它们在社会科学研究中特有的优势和存在的意义。
为什么学习统计?
第二次世界大战之后,统计学方法迅速发展,用于研究的公开抽样调查数据也越来越多。不仅如此,近年来,随着互联网及大数据的发展,在网络上每分每秒都运行和生产着大量的数据,数据的定义和收集方式也产生了革命性的变化,而对数据进行挖掘、观察和分析正是定量研究的优势所在,也是当今数据时代理解现实社会的一种重要方式。无论是在自然科学还是在社会科学领域,定量研究都得到了更加广泛的应用。但在很大程度上,这一发展是以统计学为基础的——它基于严格的假设,通过概率和模型来实现用样本数据对总体情况进行评估和预测。可是,这只是定量研究的开始。
我在香港科技大学读书的时候,我的导师吴晓刚教授经常教导我们“工夫在诗外”。很多时候,社会科学理论素养的培养,是社会科学研究的重中之重,但这也是无法单从统计学课程中学到的。因此,不做定量研究的人常常指责定量研究缺乏理论。诚然,目前的定量研究普遍存在理论基础不够扎实的现象,但是这并不是方法的问题。实际上,方法只是工具,真正优秀的社会科学研究一定是理论与方法并存的。真正的理论素养是体现在研究设计之中的。
我们学习统计是为了给今后的研究之路打下基础。作为社会科学的研究者,我们不应只满足于对某一种方法的掌握,而是要承担起发展社会科学方法、解释和预测社会实质的学科使命。
本书的章节安排
统计学一般分为统计描述及统计推断两部分。统计描述是通过图表或数学方法,对数据资料进行整理后描述数据的客观规律;而统计推断则是使用从总体中随机抽取的数据样本,用自样本数据总结的规律去对总体的未知特征进行推断。基于此,本书做出以下安排。第一章介绍了描述性统计分析的相关知识。第二章到第四章介绍了概率论、随机变量的基本特征与分布样态,以及参数及参数分布,为学习后面的统计推断部分筑牢基础。第五章涉及统计推断的核心理论——大数定律和中心极限定理。第六章和第七章分别介绍了统计推断的两大重要内容——参数估计和假设检验。第八章到第十章开始真正进入数据分析部分:第八章涉及比较两变量之间相关的方法,包含两个分类变量之间的独立性检验和两个数值变量之间的相关分析;第九章主要侧重介绍方差分析的相关内容;第十章对简单线性回归以及回归假设进行了介绍。
作为一种分析工具,定量分析越来越受到社会科学研究的重视。然而,有关社会统计的入门教材要么过于关注公式推导,要么过于关注软件应用。前者对数理基础本身就较为薄弱的社会科学领域的读者来讲,如同噩梦一般;后者又因过于强调用软件输出结果,而往往忽略了模型的理论基础和应用条件。与以往的统计教材不同,本书在教授理论的同时,配合了更多的现实案例以及Stata 17.0的代码和解释。从概率分布到中心极限定理,从参数估计到回归分析,本书既有坚实的理论,也有详细的应用操作。从理论到实战,再通过实战理解理论,循环往复,强化读者对知识点的理解。
本书所使用的演示数据来自2010年中国综合社会调查(CGSS 2010),读者可以登录中国学术调查数据资料库CNSDA官方网站(http://www.cnsda.org)进行注册,注册成功后搜索"中国综合社会调查(2010)"下载,在下载时选择原始数据(Stata 14.0版本)。
如何阅读本书
本书设置第三章到第五章内容的目的在于为后续统计推断部分筑牢数理基础,在讲解和案例中会涉及部分微积分内容,可能会令数理基础较为薄弱的读者望而生畏。关于这些内容,初接触统计的读者们仅需理解关键概念的基本定义,了解有关抽样分布、大数定律和中心极限定理的基本思想即可,跳过对这些内容的学习几乎不会影响对后续统计推断内容的理解。
此外,第三章到第五章的相关Stata应用也会涉及更为复杂的计算和模拟,这部分内容可以作为延伸阅读,供具有一定数理基础和Stata应用经验的读者参考,还可以作为教师授课的演示素材。
因此,本书适用于具有不同数理基础的读者,不仅是一本初级统计书,更是一本工具书。
总的来说,本书是一本实用的数据分析和统计介绍教材,专为社会科学和相关领域的本科生和刚开始攻读硕士学位的学生编写。希望读者在掌握本书相关内容后,再也不会惧怕抽象的统计概念、复杂的统计过程!让Stata带我们一起探索统计!
目 录
初级社会统计及Stata学习手册
(有课件,提供全书do文件和输出结果文件)
贺光烨 著
最新出版!
社会科学中的因果推断
(有课件,配全套数据、答案、命令、结果等资料包)
陈云松、许琪 著
2024年出版
回归分析及Stata软件应用
(有课件,配全套数据、答案、命令、结果等资料包)
吴愈晓、毕先进 著
2023年出版
Stata数据管理教程
(有课件,配全套数据、答案、命令、结果等资料包)
许琪 著
2021年出版
制作:骆驼刺 Yueming