科研学习|研究方法——实验法

今天我们说物理学、生物学是实验的科学，应该不会有人再持异议了，然而连物理学这样的学科在历史上也并非一开始就是实验科学。在2000多年以前的亚里士多德时代，众人都认为物理学是非实验性质的，物理学成为实验科学是从伽利略开始的，此前的物理学只能算是哲学的一个分支，多数只是对亚里士多德的著作做诠释，称不上是实验科学。例如：亚里士多德认为物体在自由下落时重的比轻的落得更快些，长久以来从直观感觉出发，世人对此

博士僧小星

2676人浏览 · 2024-03-19 21:07:59

博士僧小星 · 2024-03-19 21:07:59 发布

1.实验方法的渊源

今天我们说物理学、生物学是实验的科学，应该不会有人再持异议了，然而连物理学这样的学科在历史上也并非一开始就是实验科学。在2000多年以前的亚里士多德时代，众人都认为物理学是非实验性质的，物理学成为实验科学是从伽利略开始的，此前的物理学只能算是哲学的一个分支，多数只是对亚里士多德的著作做诠释，称不上是实验科学。

    例如：亚里士多德认为物体在自由下落时重的比轻的落得更快些，长久以来从直观感觉出发，世人对此一直深信不疑。



    ※ 但是伽利略通过在比萨斜塔上做的自由落体的实验推翻了这个“真理",使人们认识到自然规律的发现不是靠智者的苦思冥想，而是靠实验，没有经过实验验证的物理学命题只能算是假设，从而使物理学开始走上了实验科学的正道。

    所以，实验方法并不是哪一门科学所特有的方法，当一门科学发展到一定程度时，当原有的理论无法说明实际存在的事实时，实验方法的引入就水到渠成了。

    从伽利略的实验看出自然科学正是通过实验建立了理论与经验事实的联系，由此得以逐步形成并取得飞速发展。同样,实验对于社会科学的发展也有着同等重要的作用。比如霍桑实验。

    美国哈佛大学教授梅奥主持的在美国芝加哥郊外的西方电器公司霍桑工厂所进行的一系列实验。它发现工人不是只受金钱刺激的“经济人”，而个人的态度在决定其行为方面起重要作用，管理者应对人性社会面与行为面有更深入的了解，该实验为管理学开了一扇通往社会科学领域的门。

    美国社会学家素罗金（P. A. Sorokin）说过,发展一门真正的社会学，是大势所趋，其中要对社会行为和社会现象的发展变化作出解释、预测和控制，只能通过实验,其他方法无法完全达到这些目的。

2.实验法的基本原理

2.1 实验的概念

实验是为了解决文化、政治、经济及其社会、自然问题，而在其对应的科学研究中用来检验某种新的假说、假设、原理、理论或者验证某种已经存在的假说、假设、原理、理论而进行的明确、具体、可操作、有数据、有算法、有责任的技术操作行为。

2.2 实验法的基本原理

2.3 实验法的要素

实验研究一般都包含三对基本要素:1）自变量与因变量;2）前测与后测；3）实验组与控制组。

1)自变量与因变量

实验的中心目标是理解因果关系,其基本内容是检验自变量对因变量的影响；自变量是实验中的刺激因素，是指引起其他变量变化的变量（严格定义+操作化：便于测量）；

因变量是一种由自变量所引起的状况，它是调査研究所测量的变量，是需要解释的现象（自然状态下被测量）。

2)前测与后测

在一项实验中，通常需要对因变量进行前后两次相同的测量，第一次在给予实验刺激之前,称为前测(pretest)。第二次则在给予实验刺激之后，称为后测(posttest)，研究者通过比较前测和后测的结果，来衡量因变量在给予实验刺激前后所发生的变化，反映自变量对因变量所产生的影响。实际上，实验者所寻求的并不是刺激后的结果，而是因变量的变化。

3)实验组与控制组

实验组是指实验过程中接受实验刺激的那一组对象，控制组则是指不接受刺激的那一组对象，也称为对照组。

在霍桑效应的例子中可以看出实验本身对实验结果的影响，在社会科学中，这种现象十分普遍，因为被试者知道自己参加了实验，这种 “认知”改变了他们的行为方式，从而导致没有“刺激”介入的情况下因变量也会发生变化。

为了克服这个弊端，将引入控制组（不接受刺激的前后测），实验组（接受刺激的前后测），二者的相对变化可以反应出自变量对因变量的作用。

2.4 实验法的程序

实验研究的程序与其他方法也大致相同，可分为准备、实施、资料处理和总结四个大阶段以及若干具体步骤。

1）准备阶段

    ①确定研究问题和研究目的：这需要査阅有关的理论文献，确定研究课题的价值及其可行性。

    ②提出研究假设：假设的因果关系是实验设计的依据，也是实验证明或检验的目标，所以提出研究的假设或者问题是实验研究的主要步骤。这需要选择和分析各个有关的变量，将变量分类并建立变量间的因果模型。

    ③实验设计包括选择实验场所，配备各种实验设备，准备测量用的工具，制定实验的日程表，安排控制方式和观察方法。

2）实施阶段

    即实验的操作阶段，即进行实验测量的阶段，操作阶段包括选取实验对象和进行实验两个组成部分。

    √ 选择受试者一般采用随机、指派等方法进行实验分组。有的受试者是在实验实施前就确定好的，有的是在实验的过程当中进行选择分配的。

    √ 实验实施是根据实验设计的方案进行实验，控制实验环境，引入自变量, 然后仔细观察，做好测量记录。

    √ 实验所要求的观察记录应当是定量化的数据，因为自变量对因变量的影响只能通过定量化的指标才能加以评定。测量工具一般有问卷、量表和仪器等工具，测量工具的选择首先要保证它们的准确性和可靠性。

3）资料整理总结阶段

    资料整理阶段是对前面两个阶段的总结，也是对实验结果的陈述，同时也是实验目的的体现。它一般分为两个部分的内容:

    ①整理汇总实验材料、对观测记录进行统计、分析，得出实验结果，以此检验假设，提出理论解释和推论。

    ②撰写研究报告。根据实验的结果和前期的文献资料撰写研究报告，研究报告是实验的最终成果。

2.5 研究对象选择

2.5.1 原则

为了体现概化原则，需要采用概率抽样，先把所有的研究对象作为抽样框，从中随机抽取两组样本，如果两组样本都各自与总体相似，那么二者也彼此相似。此方法很难贯彻，因为实验法很少包括足够多的受试者。但是为了保证实验的代表性和准确性，随机选择的逻辑仍然被应用于一些经过改进的方式当中。

2.5.2 经过改进的抽样方法

1）随机法（最常用，最有效的控制影响变量）

    在所有的受试者已经确定之后，研究者以随机的方式把受试者分派到实验组和对照组或者各个不同的实验组，各个组的成员在构成、条件方面不受人为因素的影响，可以说机会都是均等的。比如，可以把所有的受试者按序排号，然后利用随机数表来选取号码，或者由研究者把奇数与偶数的受试者分别分配给实验组和对照组。

    在这里，随机法和概率抽样是不一样的。例如，实验者选择了30名受试者，但他们不能保证这30名受试者一定会代表我们将要研究的总体。不过他们可以做到，通过随机法分派到实验组和控制组的各15名受试者是相似的。在这个例子中，我们可以把这30名受试者作为一个总体，从这个总体中可以抽取两组概率样本，每组由总体的半数组成。因为每一组样本都有均等的机会反映总体的特征，所以两组样本可以相互印证。

    但是，在样本很少的情况下，比如每组只有一个受试者，那么随机法就失去了作用。因此，随机法应用在有许多受试者的情况下才是合理的

2）配对法(实现实验组与对照组的可比性)

配对法是找出两个各种条件都完全相同的人，将其中的一人分派到实验组，一人分派到控制组。这样一对一地分派所形成的两个组在理论上是完全相同的，但是在实践中却很难做到，因为世界上很难找到两个完全相同的人。例如，两个人的文化程度、年龄和性别都相同，但是他们的家庭出身、性格、习惯等方面的不同对因变量同样具有影响作用。

为了克服这种困难，一般采用不太严格的配对法，也就是使两个组在各种特征上大致相同，或者在已知的某一主要变量的分布和方差上大致相同。尽管如此，配对法不能排除其他未控制因素的影响，因此常常结合随机法一起使用。

3）其他方法

    排除法，在实验之前把其他影响因素排除在外。例如，测量不同年龄的学生的智力水平时，性别、家庭背景等也可能对智力水平有影响，为排除这些影响，可以只对出身于知识分子家庭的男学生进行实验。不过，这种实验结果不能推论到女学生和其他家庭出身的学生。因此，排除法在实验中不常使用。

    纳入法，把其他主要的影响变量也当作自变量引人实验中，同时对几个自变量进行操作、测量和检验。这需要比较复杂的实验设计，并运用统计分析的方法考察各个自变量的影响和它们的相互作用。

    在大多数的实验中，以上方法并不是独立使用的，而是经常混合使用，或者说在选择研究对象不同的阶段，需要运用不同的方法。例如，概率抽样法在从总体中选择研究对象的时候运用；而随机法、配对法和其他方法是在研究对象已定，在实验组和控制组之间分派研究对象的方法。

3.实验法的类型

3.1 实验室实验和实地实验（根据实验研究场所的不同）

人们一般认为，实验是在实验室中进行的，这是从自然科学的实验中形成的常规思维定势。由于自然物自身的特点，实验并不受场所变化的影响，在实验室中对于物质活动规律的认识完全反映了物质的本质属性，可以应用到实践当中去。由于实验室中可以进行比较好的条件控制，可以集中配置所需要的实验设备，所以科学实验基本都是在实验室中进行的。

社会科学却不同，社会科学研究的对象是人，由于人是具有实践能动性的主体，所以场所的变化以及所研究的人对于事件的认识和感知都会影响到他们的行为。有鉴于此，实验室内的实验对于社会科学研究来说在推广性、普遍性和概括性上往往较差，需要引进一种能够排除实验设置对研究对象的影响的实验场所，实地实验便是其一，即研究者在调查对象所在处直接搜集社会资料而进行的研究，收集资料过程中的主要方法有观察法、个案研究法和访问法等。

3.2 标准实验和准实验（实验的规范程度，实验条件的控制能力）

    一个完备的标准的实验应当具备以下要素：两个或多个相同的组；前测和后测；封闭的实验环境，实验刺激的控制和操纵等。但是，社会科学研究的性质、对象和内容往往在许多方面限制了严格的实验设计在现实社会中的应用。

    准实验指的是并不具备标准实验所要求的所有条件，为了研究的需要而进行的必要的省略或者特殊设计的实验。当然，在实际研究中并不严格区分标准实验和准实验，准实验是以标准实验为依据，在设计和操作上向标准实验靠拢。在具体的实验中是采用标准实验还是准实验，完全取决于研究的性质、研究的目的和研究的精度。

    而且在社会科学中，不存在完美或准确无误的实验，恰当的实验设计取决于所要解决的问题，目前社会科学研究中大多数实验设计均属于准实验。

3.3 双盲实验（根据社会科学研究的特殊需要）

双盲实验指的是在一项实验中，究竟是实验组还是控制组被给予了实验刺激，参与实验的双方（指实验对象和实验人员）都不知道，实验刺激是由实验人员和实验对象以外的第三方任意分派和给定的。

双盲实验的缘由是为了避免“主试效应”和“被试效应”。所谓“主试效应”是指由于实验者对研究结果的期望而产生的实验偏差。主试效应常常被称做为“皮格马利翁效应”。 “被试效应” 是指由于实验对象对其被试身份的认识及态度而产生的实验偏差。被试效应又被称为“霍桑效应” 。

4.实验的设计

4.1 实验设计的基本原则

内在效度是指实验的结论是否正确地反映实验本身。在任何时候，只要实验以外的因素影响了因变量，就会造成内在无效度，主要来源有：

（1）历史事件。在实验过程中发生的历史事件将导致实验结果的模糊。比如，突发的地震灾害可能导致正在试行的公共医疗改革方案发生目标偏离。

（2）人们的成熟度。人的心理、生理状况总是在不断发生变化，所以一项长期或短期的实验结果或多或少都会受到这些因素的影响。

（3）实验本身的影响。实验过程本身会影响人们的行为，从而影响到实验结果。（比如前测）

（4）不同的度量尺度。如果事件的前测和后测度量的尺度不一致，就会影响实验结果。

（5）极端值的影响。如果因变量是一个极端值，即不可能再低或者再髙了，那么无论自变量是否发挥作用，结果都将变化，即变高或者变低，因而会导致研究的错误结论。这称之为向平均值的回归。

（6）选择的偏差。分组时产生的偏差，导致组与组之间缺乏可比性。

（7）多种交互作用。有时多种原因的交互作用会影响实验结果。

（8）实验处理中的传播与模仿。假如实验组和控制组可以相互沟通，实验受试者就可能把一些实验刺激的因素传递给对照组受试者，影响实验结果。

（9）补偿心理。在现实生活中所做的实验，有时会给对照组和控制组的对象带来利益或者损失，于是产生了补偿心理的问题，在这种情况下，控制组就不是真正的控制组了。实验结论就不能真正反映实验本身。

外在效度是指实验结果能否普遍推论到样本的总体和其他同类现象中去的程度，即实验结果的普遍代表性和适用性，影响实验外部效度的因素主要有：

影响实验信度的因素主要有：

1.观察量的大小

    观察量越大，样本更能够代表所在总体，多次得到的结果更可靠。比如：研究大学生的语言能力，第一次用男性被试，下一次用女性被试，两次结果不稳定。

2.研究工具的信度

    研究工具首先必须准确、可靠，即具有较高的信度。无论何种研究工具和仪器，如果其自身信度较低，就谈不上研究的信度的高低。

3.影响研究信度的随机因素

    被试方面的因素（身心健康状况、动机、注意力、持久性、对待研究的态度等）

    主试方面的因素（不按规定程序实施研究、制造紧张气氛、给予特别关注、评判主观等）

    研究设计方面的因素（有研究材料取样不当、问题陈述不清等）研究实施方面的因素（有研究环境的各种难以控制的变化条件等

4.2 基本实验设计

以上谈到的信度和效度问题是社会科学实验设计需要解决的基本问题，其解决的方法以及需要注意的问题构成了实验设计的基本原则。所有的实验设计方法的分类都是以这些基本原则为依据的，总体上实验设计可以分为两类：简单设计和多组设计。

1）简单实验设计考察的是一个自变量和一个因变量之间的因果关系。此外，它只分为一个实验组和一个控制组，或仅有一个实验组。所以操作比较容易，实验设计相对比较简单。简单实验设计又可以分为以下几种模式

2）多组实验则有三个以上的组，它可以考察多个自变量与因变量之间的关系

简单实验设计有两个主要的缺点:一是某些交互作用效应对实验结果有影响；二是它只考虑一个自变量和一个因变量之间的关系。这里的交互作用是指前测和实验刺激之间的交互作用所产生的另一种外加的影响

为了克服这两个缺点，解决外在无效度的问题，且可以分析多个自变量对因变量的影响，就需要多组实验设计。典型的代表是所罗门四组设计、重复测量设计、因子设计。

    所罗门四组设计核心思想是测量干扰因素和交互作用效应的影响。其中有两个实验组中，一个组有前测与后测，一个组只有后测；两个控制组中，也是一个组有前测与后测，另一个组只有后测。

    优点：可以区分出外部因素和测量干扰的影响，克服了实验组、控制组仅施后测设计和实验组、控制组前后测设计两种设计的缺点；实验者可对四个组的实验数据进行多种比较。

    缺点：设置四个组，必然会增加受试者人数，增加了实验的困难；所得结果需要经过复杂的统计检验，往往使简单的问题复杂化；它只能判断其他外部因素对因变量的影响，但无法确定哪些变量与因变量还存在因果关系

在例子中，假设结果变量在0-100的数值范围内进行测定。在实验组中，有前测的实验组得分为80,而无前测的实验组得分为70.如果我们假定这两组间没有其他的不同，那么这两个小组10分的差异应该归因于两个小组唯一的差别－前测。

同样的原理也可以应用到控制组。如果将交互效应去除，干预的真实影响就是消除了交互反应的实验组和控制组之间的差异。这种情况下的实验组得分为70,而控制组得分为50.我们可以推断干预具有20分的影响。

重复测量设计

在一些实验中，受试者要接受多次相同的测量。例如在学习实验中，受试者常常完成一系列任务，如解决一系列问题，以了解学习是否已经发生了。实验效果不是以不同组的观测值差异值来表示，而是通过每个组对不同刺激的差异来反映。例如，要测量不同学生解答形象思维和逻辑思维智力测验题的差异做下列设计

        重复测量是一种轮换的方法，即每个组都先后接受不同的测量，然后通过比较每一组不同测量的平均值就可以检验不同刺激造成的不同差异。

        优点在于①不用随机抽取实验组和控制组，而只需选取几组实验对象让他们参加各种项目的测验。因此，不用担心组间特征值随机误差的影响;②只需较少的受试者就可以达到目的;③它的实验假设可以有多个。

        缺点在于多次重复测量容易使人们熟悉这一特定的特征。解决这一问题的途径是均衡设计，即打乱问题的排列顺序，对实验处理进行平衡。

因子设计是为了考察两个以上的自变量对因变量的影响以及自变量之间交互作用对因变量的影响。它假定外部因素的影响等于零。并且为了消除前测引起的影响和减少工作量,一般都运用无前测的设计。

例如，要测量企业的劳动纪律和福利待遇对劳动生产率的影响时，可以做出如下的设计：

上述例子中有两个自变量（X1和X2），每个自变量有两个值（有和无），因此可以分为四个组，称为2X2的因子设计。因子设计可以同时包括多个自变量，每个自变量可以有多个取值。但是，随着自变量的增加，实验组的数目也要相应增加。

因子设计虽然可以阐明不同因素对于因变量的影响，但是它自身也有缺点。在分析多个因素的影响时，往往需要设置许多实验组，每增加一个变量，实验组的数目都要成倍增加，需要的受试者的数量也就越多。因此，在一般情况下是难以实施的。在实际操作中最常见的是2X2的因子设计。

5.实验法的评价

    自然科学的实验法不存在评价的问题，也可以说自然科学本来就是一门实验的科学。



    ※所以我们所评价的是社会科学的实验

5.1 影响实验正确性的因素

1）实验环境的人工化无法避免前后测环境不一致的影响。在实验研究中，    即使用的是同一份问卷,在同样的地点、由同样的研究人员参与，有时也会造成前、后两次测量在某些方面、某些细节、某些条件上出现差别，从而给实验对象带来不同的影响。



    比如，研究者和实验对象在前、后再次测量时的心理状态不同, 对实验说明的方式不同,或者对实验时间的控制、要求的掌握不同等，都会形成实验环境的不完全一致，这就会使前、后两次测量的结果中，掺杂进一些不属于实验刺激的效果

2）初试-复试效应的影响实验方法的一个典型特点是前测、后测形式内容的一致性,但是正是这一特点容易产生初试-复试效应影响问题。

比如参加英语四、六级考试时，通常后一次考试的成绩会好于前一次的成绩，这里面除了英语水平的实际提高外,每考一次，考生对考试的题型、内容、重点和答题方式等更加熟悉,参加考试时的心情更加放松，显然有利于考试成绩的提高。同样的现象在实验过程中也会出现并影响到实验研究的正确性、客观性

3）实验对象选择和缺损由于实验的特定目标、特定逻辑、特定方式,使实验对象的选择通常不像调查研究那样从某一总体中随机抽取，而大多是采用自愿参加、征募参加、强制参加的方式,这就会导致样本的抽取缺乏代表性,使实验法的正确性大打折扣。

另外，由于实验需要前测和后测，而且前、后两次测量的对象都必须是同一群人，所以，如果有的实验对象在完成前测以后就自己主动退出实验,或者在后测开始时，有的实验对象由于调动、搬迁、死亡等原因无法找到，这就会造成实验对象的缺损，导致实验的正确性受到影响。

5.2 标准实验的缺点

1）实验的人为造作性

    实验研究的环境是人为设置的，这意味着研究离现实比较远。

2）样本存在的缺陷

    实验研究中所选择的数量较少的受试者往往缺乏能够将实验结果推广到总体中的这种广泛的代表性。

3）容易受主观因素的影响

    在实验研究中，由于研究人员会有意无意地给受试者以某种暗示，某些受试者因此会有意去迎合研究者的期望，因而就有可能出现实验对象的行为受到研究者影响的情况，造成一种虚假的因果关系。

    另外,实验法还受到伦理及法律上的限制。由于社会研究的对象是人,因而实验所能操纵的自变量常常受到现实生活中伦理和法律的限制。比如我们想研究政府在突发公共危机事件中的应急能力,我们不可能让实验对象真正地去承受一场公共危机事件。

5.3 标准实验的优点

1）有利于明确地确立因果关系：标准实验的主要优点是能够把实验变量与它带来的影响分离开来。实验开始时，研究者就可以发现受试者的某些特征，然后引进实验刺激，如果发现了他们在实验之后具有了不同的特征，受试者在实验的过程中又没有受到其他的刺激或其他因素的干扰，那么，他们就可以认为，特征的改变归因于实验刺激，就在实验刺激和特征改变之间建立起了因果关系

2）控制程度高：与社会科学中的其他研究方法相比较，实验法对研究对象、研究环境、研究条件等具有较高的控制程度，这对于资料的分析和假设的检验来说是非常重要的，使得实验结果的可信度显著提高。

3）具有重复性：一般只需要很少的受试者，对于失败的研究，要想重复的话不需要花费大量的人力、物力和财力。另外，对经典实验的重复，有时是在稍微不同的环境中进行的，以保证其结果不是某种特定环境的产物。

5.4 准实验的特点

5.5 标准实验与准实验

准实验(quasi-experimental designs)指的是并不具备标准实验所要求的所有条件，为了研究的需要而进行的必要的省略或者特殊设计的实验。

在实际研究中并不严格区分标准实验和准实验,标准实验往往体现出某种弹性，准实验必然以标准实验为依据,在设计和操作上向标准实验靠拢。在具体的实验中是采用标准实验还是准实验，完全取决于研究的性质、研究的目的和研究的精度。