回归分析(regression analysis)是研究一个变量(被解释变量)关于另一个(些)变量(解释变量)的具体依赖关系的计算方法和理论。从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。在上个世纪七十年代,为了证明雇主在工资、晋升等方面是否对于不同性别或者种族的员工区别对待,统计学上的回归方法开始被引入。如果在回归模型中发现性别对工资水平有显著性的影响,比如男性对工资水平有显著性的的促进作用,就说明越是男性,工资可能越高,也意味着雇主基于性别在工资上区别对待。
就业歧视方面的回归模型的建构一般分为以下四步:第一,从理论出发,这些理论包括劳动力市场如何运行和一些因素(比如教育,工作年限,工作岗位,工作种类,包括歧视行为)如何影响工资;第二,建立一个统计模型,可以测量性别(或者种族)对于雇员需求曲线的显著性影响;第三,将其他有关的变量全部纳入模型,适用一种有意义的方法测量,第四,完成前三步后,确定这些结果是否具有显著性影响。
我们以Bazemore v. Frida为例来谈回归方法的应用(最高院在1986在该案中考察了这个方法用于司法实践的可行性)。在该案中,公司里的黑人员工声称遭受用人单位歧视,因为他们的工资低于相同资质下的白人员工。在法庭上,原告提供的多元回归模型显示,工资差异主要来自种族、教育程度、工作年限、职位名称以及工作绩效。但是基层法院和上诉法院都认为这个统计分析是不可接受的,因为这个模型没有包括法院所认为的比较重要的变量。但是最高院不同意下级法院的看法。它认为,很明显,一个没有包含全部可测量变量的多元回归模型可以用来证明原告的主张。只要这个分析可以解释主要的影响因素,即使没有包含其他因素,一般也仅仅影响统计的证明(probative)价值,但是不影响本身的可接受性。此外,一旦原告的统计分析被接受,这足够让原告处于有利地位,此时被告就有职责去怀疑或者驳斥这个歧视的推论。
当然,这种方法也是受到不少质疑。
首先是功能形式(functional form)方面的问题。这个主要和假设检验有关。当我们用一群人纳入到统计范围时,很可能其中的某些人具有与其他人不能匹配的特点,此时,就不能把这些人和其他人放在一起分析,不然结果可能就会有偏差。比如在Presselsenv. Swarthmore College一案中,原告声称在Swarthmore College里存在基于性别的工资方面的不平等,他们提供的回归模型,当控制了年龄、拿到最高学历后的年数、在Swarthmore College工作的年数、学位的种类以及他们受聘的学院等条件后,再考察工资与性别的相关性。但是Swarthmore College指出,这个回归模型有一些偏差,就是将那些由男性统治的院系与男女共存的院系混在一起分析,忽视了其中的差异,同样,物理系教授相比于英语系的教授更加稀缺,因此要求更高的工资,但模型同样忽略了其中的经济因素而将全部教授直接纳入模型。Swarthmore College修正了回归模型的错误以后,发现性别对于工资没有显著性影响,而法院也采纳了SwarthmoreCollege对于原告回归模型的批评。
其次是完整性(completeness)方面的问题。如Bazemore v. Frida一案中基层法院和上诉所言,很可能一些可能影响的变量并没有被纳入模型。其次是变量的测量问题。工作偏好、每个人的动机、教育的质量,这些因素很可能都会影响雇主的决策,但是这些因素都很难被量化而被放入统计模型。而缺少这些变量或者这些变量的测量不准确,统计模型可能会产生偏差。比如在EEOCv. International Business Machines Corp一案中,原告提供的回归模型显示用人单位存在种族歧视的行为,但是他的模型没有包括工作年限、岗位的级别以及教育程序。用人单位则提出,被原告忽略的那几个因素是雇佣关系的重要因素。当用人单位在原告的统计模型的基础上增加了这几个因素时,种族的影响因素消失了。(说明种族的影响因素被其他因素吸收了,黑人的工资比白人低,很可能不是因为种族的原因,而更可能是因为白人的工作年限更长,岗位级别更高,受教育程序更高——笔者注)。