时评

“偏向富裕的白人考生”的标化考试SAT

July 27, 2023

本文由《美国华人杂谈》与非营利调查新闻编辑室“Information Justice（信息正义）”联合发表。

策划｜信息正义编辑部

撰文 | 溪边愚人

编辑｜信息正义编辑部

全文共6680字，阅读大约需要15分钟

鉴于SAT不能完全真实地反映考生的实际水平，现在不少美国大学不再要求申请人提交SAT的考试成绩，而是让申请人自己选择要不要提交。就是说，你没有SAT成绩不会给你带来负面影响。

大学的这一决定被不少人骂作“极左”，“为了照顾弱势群体，走过头了”。

是不是过了，见仁见智。但估计很多人并不完全了解SAT背后的不公平故事。

SAT是一种能够通过训练提高成绩的考试项目。有钱人家的孩子可以通过补习班获得一点优势，所以说，SAT不是一个能够公平地衡量学生水平的工具。但这并不是我接下来要说的。我要说的，是SAT背后的系统性歧视。

我曾经讲过的两个SAT有偏向的故事。但当时限于篇幅和文章主题，只是作了简单的例举，没有展开。今天集中谈SAT，正好可以仔细审视一下故事背后的东西。

SAT的“传统”是偏向白人、贵族的

故事一：很多年的SAT类比测试都包括了一个类比问题，要求考生将“划桨手：帆船赛”确定为“赛跑者：马拉松”的正确答案。这道题白人学生的答对率高于有色人种学生——这不是因为先天智商，而是因为他们更有可能知道regatta这个词是“帆船赛”或“划艇赛”。

Regatta是个生僻词，它代表的体育项目真的是白人、有钱人才玩的。这也是藤校间竞技的保留节目。藤校当初就是贵族子弟的学校啊。

所以SAT的“传统”就是偏向白人、贵族的。

SAT考试中被认为不适宜词汇的例子还有pirouette，yachting和debutante balls等。

国家公平与公开考试中心（National Center for Fair & Open Testing）公共教育主任罗伯特·谢弗（Robert Schaeffer）说：“这是令人难以置信的以文化为中心（的考试）。你在洛杉矶市中心看不到帆船赛，在阿巴拉契亚山脉看不到，在新墨西哥看不到。”谢弗还问：“pirouette（代表芭蕾舞的一种旋转动作）是大多数高中生都会使用的词吗？”

故事二：SAT的正式题目往往都是经过预先测试的。1998年，SAT测试了A、B两个问题，发现黑人学生正确回答问题A的比例高于其他群体，而白人学生不成比例地正确回答了问题B。SAT后来放弃了问题A，保留了问题B。

之所以这样做，原因是，如果测试的问题复制了以往考试的结果，比如白人与黑人的对错比例与以往正式考试结果相接近，那么该问题就被认为是“好问题”，纳入正式题库，否则的话就认为题目出偏了，此题不适宜作为正式考题。

历史学家伊布拉姆·X·肯迪（Ibram X. Kendi）于2021年向全国教育协会解释说：“我们仍然认为孩子们有问题，而不是认识到考试有问题。标准化考试已成为有史以来最有效的种族主义武器，旨在以客观的名义贬低黑人和棕色人种孩子们的智力，并合法地将他们排除在名校之外。”

但是，以这样的原则来选题，部分却也是由SAT考试的性质决定的。

SAT生来就是偏向富裕的白人考生

美国的SAT考试往往被视为类似于中国的高考。其实，区别还是挺大的。

中国的高考，考生或者用全国统一试卷，或者用省/市统一试卷，而大学对各个省市的招生也往往有预先的名额分配，这样，招收某省或某市的考生时，被挑选的考生用的是同一张试卷，这样比较，可以认为用的是同一个标准。

SAT由美国私人非营利组织大学理事会（College Board）全资拥有，其开发和出版由教育考试服务中心（Educational Testing Service，简称ETS）代理。在美国，ETS每年共提供7次SAT考试机会，分别在三月、五月、六月、八月、十月、十一月和十二月。每一次的考卷，都是从一个题库里选题。不同时候的考卷可能有个别题目会相同，但没有两次考试的卷子是一模一样的。

这些考试分布于全国的各个“考场”。每个学生自己选择时间和考场报名。因为SAT成绩并没有过期作废一说，所以，从理论上来说，你随便什么时候考都行。美国高中四年制，一般都是高三时考SAT，但提前一两年考的也大有人在。

那么大学招生时，竞争同一个位置的那些学生很可能是参加了不同时候的SAT考试，用的是不同的考卷。但大学又是将申请人的SAT成绩看成是可以相互比较的。这就要求SAT的考卷能够保证稳定性和重复性，保证同一个人考不同张卷子时，得到的成绩基本上是没有变化的，只有这样，SAT的成绩才有可比性。

为了保证SAT考试的稳定性和重复性，ETS对新出的题目特别谨慎，要在实际考生那里测试过才敢放入题库。所以有些SAT考试的卷子是加长的，其中包括了测试题。考生并不知道哪道题是“真的”，哪道题是测试题。只有正式题目才计分，测试题只是为ETS提供参考。

上面故事二中说到的预先测试就是这种情形。而做出放弃问题A，保留问题B的决定，就是出于保证SAT考试的稳定性和重复性的目的。从这个原则出发，似乎这样的选择也无可厚非，是吧？

但是，这个看上去人畜无害的稳定性和重复性是有代价的。选题时，“复制以前考试的结果”，维持的就是以往一贯的白人高比例的好成绩。别忘了，早期的时候SAT被看成纯智商测试，能够测量“潜在的生物潜力”，而“潜在的生物潜力”只是“白人和富有”的一种编码表达方式。当然，白人的成绩遥遥领先也“证明”了白人的高人一等，反过来，这种优势又一直被稳定性和重复性“保护”着。

所以，SAT有史以来一直是偏向于白人考生的。但SAT系统性的歧视还远不止这些。

被忽略的黑人的优异表现

2003年，在ETS工作了三十多年，已于1998年退休的心理学家罗伊·弗里德尔（Roy Freedle）在《哈佛教育评论》发表了一篇长文，证明SAT考试存在种族偏见。与先前那些证明SAT有偏见的研究不同，弗里德尔特别指出了一个被忽略的现象——在SAT成绩相同的情况下，黑人在较难的考题上比非西班牙裔白人做得更好。所以他认为偏向白人的SAT其实掩盖了黑人以及所有在文化上被剥夺的人（也包括部分白人）的潜质。

弗里德尔的研究结果受到ETS的强烈攻击。但2015年，智利天主教大学（Catholic University of Chile）教育学助理教授玛丽亚·桑泰利斯（Maria Santelices）和加州大学伯克利分校教育学教授马克·威尔逊（Mark Wilson）的研究再次证实了弗里德尔的研究结果。这两个研究的重点都是去发现显示“差异项目功能”（differential item functioning，缩写为DIF）的问题。

所谓DIF问题，用个例子来说就是：一组黑人和一组白人，除了族裔不同，他们各方面条件，比如生长环境、个人水平等都相当，但他们对某个问题的回答却发生了黑人和白人之间的明显差异。这个问题就具备了白人和黑人的DIF特质。DIF问题适用于各种情况，并不限于白人与黑人的对比。

为什么那些DIF问题中，比较容易的对白人有利，比较难的则对黑人更有利呢？对此，弗里德尔的理论是，简单的问题可能反映在占主导地位的白人社会常用的文化表达方式中，因此白人学生的优势不是基于教育或学习技能或能力，而是因为他们很可能是在白人周围长大的。越难的单词越可能是“学”来的，而不是仅仅靠“吸收”获得。弗里德尔说：

首先必须说明的是，实际上所有这些DIF项目的影响通常都很小。例如，白人学生在一些简单的项目上可能会得到84%的正确率，而非洲裔美国人在同一项目上的正确率略低，比如82%。相反，对于某些特定的困难项目，白人学生可能会得到30%的正确率，而非裔美国人可能会得到稍高的分数，比如31%的正确率。这些效应的不同寻常之处在于其高度一致性，高度模式化。也就是说，许多简单的项目显示出非裔美国人表现不佳，而许多困难的项目显示出他们的表现优异，这些区别虽小但持久……

基于文化的解释有助于说明为什么非裔美国人（和其他少数族裔）考生通常在许多困难的语言题目上表现更好，但在许多简单的题目上比能力匹配的白人表现差。简单的类比题目往往包含高频词汇，而困难的类比题目往往包含低频词汇……例如，“马”、“蛇”、“独木舟”和“高尔夫”出现在几个简单的类比题目中。这些是日常对话中经常使用的词语。相比之下，诸如“vehemence（激烈）”、“anathema（诅咒）”、“sycophant（阿谀奉承者）”和“intractable（棘手的）”之类在较难的类比题目中出现的词，不会出现在日常对话中……但是，它们很可能出现在与学校相关的各种材料或教科书的内容中。

2015年的研究发现黑人和白人学生的SAT相较于2003年都有进步，但白人的进步更大。该研究认为，这是由SAT的评分方式造成的。如果给难度大的题目较多权重，黑人的成绩就会提升。

2015年的研究还有另外一层意义：2015年时的SAT考试形式已经与2003年有很大不同。很多改变就是为了缩小SAT题目中一些内在的容易造成族裔之间分数差异的因素。那么，2015年的研究证明，已有的改变还不够。

2003和2015年的研究都没有发现数学部分有DIF问题，就是说，各方面条件相当的白人和黑人，SAT的数学成绩没有差别。这说明族裔间SAT数学考试的分数差距很可能是家庭经济条件造成的。其实这也从反面证明了，SAT语文考试题目的确有族裔偏见。

抵制变革的SAT系统

在ETS工作了三十多年的弗里德尔，为什么是退休之后才发表那个研究结果呢？这事说来话长，背后的故事也挺有意思。

早在1987年，弗里德尔就提交了他与ETS的同事共同完成的一份关于DIF的报告草稿。研究部门负责人要求修改。他提交了第二稿。他们仍然不满意。弗里德尔认为，有些意见是合理的，因为他的结论与其他研究相矛盾，部门负责人希望他从其他角度审核数据。但每次重新检查都证实了最初的结果。当他被命令进行第十一次修改时，弗里德尔开始怀疑ETS是否在以学术方式试图阻止他发表“流氓”（rogue）结论。

该报告最终被接受了，但他进行后续研究的请求被礼貌地拒绝。于是弗里德尔开始专注于提高预测题目难度的技术，并就此主题撰写了几份报告。但到了90年代末，他的所有研究计划都被拒绝了。他知道他的主管对他的研究方向有看法，因此，他就在1998年10月退休了，并带走了大部分旧数据。他想继续这个研究。

SAT考试在向网络化转向。据说这会有助于减少族裔间的差距

弗里德尔在其2003年的文章里提出对SAT分数进行补偿，他称其为修订版SAT，或R-SAT，该分数仅对难度达到一定程度的问题进行计算，在R-SAT上给这些题目更大的权重，这将“大大增加高分少数族裔的数量”，因为已经“有证据表明SAT语言部分存在虽是无意但又无所不在的文化和统计偏见，对非裔美国人产生了不利影响。”当将数据落实到具体案例时，他发现，如果给难题更多的分数权重，许多少数族裔学生的SAT成绩会提高100分或更多。

弗里德尔并没有试图估计有多少学生会从附加分中受益，但他认为其影响范围应该足以使附加分有价值。比如，弗里德尔发现一名非裔美国人（弗里德尔的数据未透露姓名）的R-SAT语言成绩为600分，而他/她最初的SAT语言成绩仅为290分。弗里德尔写道：“该学生的附加分为310分——这是对他/她学术能力的一个惊人的、差别很大的重新评估。”可能有数千名学生在R-SAT上的得分比SAT高出100到200分。更高的分数可能意味着能否进入名牌大学。他们分数的提高也可能使他们有资格获得数千美元的奖学金。

《大考试：美国精英统治的秘史》（The Big Test: The Secret History of the American Meritocracy）一书的作者尼古拉斯·莱曼（Nicholas Lemann）说，弗里德尔的想法之所以失败，技术缺陷是一个原因，另一个原因是ETS高管对必然的商业后果的恐惧：对那些来自富裕家庭，但学术表现没有达到其背景所预期的水平的孩子来说，其分数等于是被下调了。

倒不是大学理事会不做努力，SAT这些年也发生了很大的变化，比如2005年的改革添加了30分钟论文部分，现在的SAT又回到以前的1600总分，而且语言部分不再有类比题目。这些变化都被认为是有利于缩小贫富家庭孩子间的差距。弗里德尔也说他喜欢大学理事会对考试所做的调整。

《纽约时报》对美国大学理事会在推出SAT的逆境分数后不久又在一片批判声中将其放弃的报道。（“SAT ‘Adversity Score’ Is Abandoned in Wake of Criticism”《SAT“逆境分数”因批评而被放弃》

其实ETS内部还提出过其他版本的类似R-SAT的变革，但都没有得到多少支持。为什么，我们不得而知，只能说SAT的改革举步维艰。还记得美国大学理事会2019年5月推出的逆境分数（adversity score）吗？当年秋季大概有100-150所大学使用了这个指数，但到了8月，理事会就宣布收回这个饱受争议的东西，称其将大学申请者面临的挑战浓缩为单一数字的做法是错误的。

也许逆境分数的确是个还不成熟的东西，也许收回逆境分数只是因为顶不住来自部分家长和学校的压力。好不容易终于有个东西出台了，最后是这样的结果，改革SAT有多难可想而知。但什么也不做不是选项。就像弗里德尔说的：实施R-SAT“费用其实是很小的，但道德义务却是极大的。”

不是说必须采用R-SAT，而是说我们不能放弃努力。

摆脱系统性歧视需要打破常态

系统性歧视是无法以个人之力逃脱的。要去除这种歧视，必须打破社会常态。现在不少大学决定不再要求SAT成绩就是这样的实践。

我们不是反对有一个公平和公正的衡量标准。应该说，一个公平、公正的标准是不可或缺的。那些不再要求SAT成绩的学校，还是有GPA等其他标准可以参照，对不对？事实上，专家学者普遍认同GPA比SAT更能反映出学生的学习能力，也能更准确地预测申请人在大学的表现。

如果SAT有了根本性的改变，重新回来用SAT也可以是一个选项。什么都不改变才是不能接受的。关键是，没有一个强烈的外力推动，SAT可能永远也不会有那种动其筋骨的改变。这才是那些大学放弃SAT的意义。

亚裔的不凡表现

写此文的一个副产品是，发现亚裔的SAT成绩很有特色。

下面两张图我觉得合起来看特别有意思。两张图都是分别比较各族裔SAT阅读（可以理解为语文）和数学的考试成绩。先看上图，1986-87学年到2004-05学年：左边是阅读，右边是数学。可以看出，成绩大致都是稳定的，而且各族裔之间的差距也基本不变。唯一有比较大变化的就是亚裔：两个成绩都稳定提高，其提升幅度远远超过其他族裔。有意思的是，虽然亚裔数学始终遥遥领先，阅读却不如白人，但追势强劲，差距越来越小。

再看下图，2020年的数据，这里是阅读和写作分数混一起了（SAT的写作是2005年新加的）。亚裔的数学和语文都领先于任何其他族裔了。问题是，这个“超越”的是阅读和写作的总分，如果单独看阅读又是如何呢？

SAT考试成绩与种族/民族的关联。图源：国家教育统计中心（National Center for Education Statistics）

按种族或民族划分的SAT考生达到大学准备基准（2020年）。图源：布鲁金斯学会（Brookings Institution）

上面这组数据中亚裔的语文成绩吊起了我的好奇心，我又去找来另一组类似数据（下图）。这个是阅读和写作分别提供的，亚裔两者都曾经分数不如白人。我把白人和亚裔的数据分别用红框和蓝框划出来。可以看出，亚裔是猛劲地追，虽然写作很快就超过了白人，但阅读在该图表的范围内没有追平。不过，最后几年的阅读和写作总和超过了白人，和上图是同样的结果。不知道现在是不是阅读单项也追上了。

1986-87学年至2012-13学年按种族/族裔划分的大学申请人SAT平均成绩。图源：国家教育统计中心（National Center for Education Statistics）

说实话，我没想到亚裔在语文上居然曾经比白人弱那么多。也没想到，要追上去需要花几十年的时间。这个追赶势头，是因为亚裔额外的努力，还是因为越来越多的亚裔移民是高科技的，他们的孩子出生于高中产家庭，从而有先天的优势？我想，很可能是两个因素都有吧。不管怎么说，亚裔的表现真的不凡。

但我又好奇，如果看同一批人，亚裔在学校课堂里语文上的表现与白人相比的结果是不是与SAT的类似。如果亚裔在学校的语文成绩是一直领先于白人的，那么在SAT上的差距，是不是又一个SAT偏向白人的证明呢？直到读了那个关于DIF问题的研究，我才恍然大悟：我的疑问不就是亚裔与白人在阅读上是不是有DIF问题吗？很可能亚裔在这方面与黑人有类似的问题，即家庭环境中缺乏白人家庭的文化特征。

为写此文，我读了很多与SAT相关的资料，包括其历史和公正性等等。其中有的文章的确提到有研究显示SAT对亚裔有不利因素。希望有更多这方面的研究。

如果真的是有这样的DIF，那我们的孩子们最终硬是在考分上减小/消除了这个差距，太不简单了！

参考资料：

https://en.wikipedia.org/wiki/SAT

https://www.bestcolleges.com/blog/history-of-sat/

https://nces.ed.gov/programs/digest/d13/tables/dt13_226.10.asp

https://www.latimes.com/archives/la-xpm-2003-jul-27-me-sat27-story.html

https://www.nea.org/advocating-for-change/new-from-nea/racist-beginnings-standardized-testing

https://www.insidehighered.com/news/2010/06/21/new-evidence-racial-bias-sat

https://www.theatlantic.com/magazine/archive/2003/11/the-bias-question/302825/

https://www.ivyscholars.com/2022/07/27/are-the-sats-biased/

https://reason.com/2019/10/22/orchestra-study-blind-auditions-gelman/