弗林效应：为何智商均值在一个世纪中持续上升

20 世纪，几乎每个被研究过的国家的平均智商测试分数都在逐年攀升。这一现象如今以新西兰哲学家詹姆斯·弗林（James Flynn）的名字命名，称为"弗林效应"。它提出了一个令人着迷的问题：如果智商分数真的衡量某种稳定的智力能力，那人类在短短几代人中变得更聪明了吗？还是说，被测量的东西本身发生了变化？本文从研究证据出发，逐一梳理这一现象的规模、成因、近年趋势以及它对智力测量的深层启示。

1. 弗林效应的规模与发现过程

弗林效应的核心事实并不复杂：在整个 20 世纪的大部分时间里，标准化智商测试的原始得分（即未经重新常模的分数）平均每十年上升约 3 分。

这意味着，如果以 2000 年的常模来评分，1900 年代初期的普通成年人可能会得到远低于 100 的分数。反过来说，如果用 100 年前的常模评分，今天的普通成年人可能会进入当时定义的"超常"区间。

詹姆斯·弗林在 1984 年和 1987 年发表的研究中，系统整理了来自 14 个国家的数据，证明了这一趋势的跨文化普遍性。此后，数十个国家的数据进一步证实了这一规律，尽管增幅因国家和测试类型有所不同。

值得注意的是，并非所有智商子项目的涨幅都相同。液态推理（fluid reasoning）——尤其是非语言矩阵推理（如瑞文渐进矩阵）——的增幅最为显著；而词汇和常识等晶态能力（crystallized ability）增幅较小，有时几乎持平。

2. 关键数据对比

时期	大致增幅（每十年）	增幅最明显的领域	代表性来源
1930–1980 年代	约 +3 分	液态推理、空间推理	Flynn (1987)，多国数据
1980–2000 年代	约 +2–3 分	矩阵推理持续上升	多国纵向研究
2000 年代至今	趋于平稳或出现逆转	某些国家出现负弗林效应	Bratsberg & Rogeberg (2018)

液态推理指在没有事先知识储备的情况下解决新问题的能力，它在弗林效应中表现出最大幅度的上升；而晶态智力（crystallized intelligence）——基于已有知识和词汇——增幅则温和得多。这种不对称性本身就是理解该效应的重要线索。

3. 主要成因：研究者的解释

研究者提出了多种可能的解释，目前没有单一因素被确认为完整答案。大多数学者认为弗林效应是多因素共同作用的结果。

教育与测试熟悉度

现代教育体系培养了一种抽象分类思维——"如果……那么……"的推理，将物体按类别而非按功能归组。弗林本人特别强调，学校教育让人们习惯用科学的、假设性的思维框架看待问题，而这正是智商测试所考察的。

此外，现代人更熟悉标准化测试的形式。即使测试内容从未被见过，测试情境本身也不再陌生，这消除了早期受测者面临的"情境焦虑"。

营养改善

婴幼儿期乃至孕期的营养状况与大脑发育密切相关。20 世纪中叶以来，普遍的营养改善——尤其是碘、铁和蛋白质摄入的增加——可能在一定程度上促进了认知发育。铅等有毒物质暴露的减少（如含铅汽油的禁用）也被认为是贡献因素之一。

更小的家庭规模

研究显示，在其他条件相同的情况下，家庭子女数量较少时，每个孩子获得的语言互动和认知刺激平均更多。20 世纪家庭规模缩小的趋势与分数上升有所重合。

城市化与认知刺激

城市环境提供了更多样化的认知刺激——更复杂的职业、更丰富的媒体信息、更广泛的社会互动。这些刺激可能对测试成绩有长期影响，尤其是对抽象推理能力。

基因与优生效应？

一些研究者早期猜测遗传因素可能发挥作用，但主流科学界认为，在如此短暂的历史时间尺度内，基因频率不可能发生足以解释这种变化的改变。弗林效应几乎可以肯定是环境性的，而非遗传性的。

4. 近年趋势：负弗林效应的出现

21 世纪初，一些发达国家——包括北欧国家、英国、法国——开始出现令研究者意外的现象：原始分数不再上升，甚至略有下滑。挪威研究者布拉茨伯格（Bratsberg）和罗格伯格（Rogeberg）2018 年在《美国国家科学院院刊》（PNAS）发表的研究，通过分析同一家庭兄弟的数据排除了代际遗传差异，证实了这种"负弗林效应"。

对这一逆转，研究者目前尚无定论。提出的解释包括：

教育体系的某些变化（例如更少的系统性推理训练）
数字媒体改变了认知习惯的方式
早期阶段带来增益的营养改善已接近边际效益递减点
早先推动增长的各因素叠加效应已趋于饱和

值得注意的是，负弗林效应目前并非全球普遍现象。一些发展中国家和新兴经济体仍可能处于弗林效应的上升阶段。

5. 弗林效应告诉我们关于智商测试的什么

弗林效应最深刻的意义，或许不在于分数本身的涨跌，而在于它揭示了智商测试的性质。

智商分数衡量的是当下认知习惯，而非固定的生物能力上限。 如果被测量的是某种纯粹的先天"g 因素"，它不应该因几十年的环境变化而系统性改变。弗林效应强烈暗示，测试捕捉的是人们在特定历史文化背景下发展出来的抽象推理模式，而这些模式受环境塑造。

这并不意味着智商测试没有价值，也不意味着被测量的认知能力是虚构的。大量研究证实，在同一时代的人群内部，智商分数与学业成就、职业复杂度的适应性等结果之间存在实质相关。但弗林效应提醒我们：跨时代、跨文化的分数比较需要极其谨慎。

常模更新的必要性也由此而来。智商测试出版商定期重新常模（normalization），确保"100"始终代表当代人群的中位数，而不是几十年前的基准。这就是为什么同样的原始答题表现，用新常模评分会得到更低的分数——并不是今天的人表现更差，而是参照点更新了。

6. 常见误解澄清

弗林效应是否意味着现代人比过去更聪明？

这取决于"聪明"的定义。在某些由现代教育培育的抽象推理任务上，现代人的平均表现确实优于先前的世代。但弗林本人明确指出，这并不必然意味着人类的原生认知能力（biological intelligence）在提升。他认为，变化的是人们在日常思维中使用抽象、假设性推理的频率和熟练度。

弗林效应会无限持续吗？

不会。近年多个发达国家的数据显示，增长已趋于停滞甚至出现轻微下降。研究者普遍认为，推动早期增长的各类环境改善存在"天花板效应"——当营养、教育等基础条件达到一定水平后，继续改善带来的边际认知增益会减小。

弗林效应是否支持"训练能提升智商"的观点？

不支持。弗林效应描述的是跨代际、历经数十年的群体水平变化，其背后是广泛的社会环境因素。这与个人通过短期训练改变自身智商分数是完全不同的问题。目前没有可靠证据表明个人能通过练习系统性地提升自己的智商分数。

常见问题

弗林效应是谁发现的？

该效应以新西兰哲学家和心理学家詹姆斯·弗林（James Flynn，1934–2020）命名。他在 1980 年代系统整理了来自多个国家的历史数据，发表了具有里程碑意义的研究报告，证明了 20 世纪智商原始分数的系统性上升。实际上，早在弗林之前，部分研究者已注意到这一趋势，但弗林的研究使其引起了广泛的学术关注。

弗林效应在所有国家都相同吗？

不相同。增幅的规模和时间节点因国而异。一些发展中国家在追赶教育和营养基础条件时，可能经历较快的上升阶段；而一些先行工业化国家目前已观察到增长停滞或轻微逆转。总体趋势具有跨文化普遍性，但细节差异显著。

弗林效应对我的个人智商分数意味着什么？

它主要影响对分数的历史性解读，而非个体在当代测试中的得分。智商测试出版商定期更新常模，确保你今天的分数与同时代人群相比较，而非与几十年前的基准相比。因此，你的分数仍然是对你在当代参照人群中位置的合理估计。

弗林效应和教育的关系是什么？

教育——尤其是培养抽象思维和假设性推理的教育——被认为是弗林效应的重要驱动力之一。现代学校教育系统地训练人们用类别化、逻辑化的方式思考问题，而这恰好与智商测试考察的认知习惯高度重叠。然而，教育并非唯一因素；营养、城市化和测试熟悉度等也同样重要。

近年来的负弗林效应是否意味着人类在变笨？

这种说法过于简化。负弗林效应描述的是某些国家中，特定类型测试的原始分数出现轻微下降。这可能反映了教育模式的变化、特定认知习惯的转变或其他环境因素，而非人类整体认知能力的退步。研究者对这一现象仍在探索之中，目前没有足够证据支持"人类在变笨"的笼统结论。

小结

弗林效应是 20 世纪最引人深思的认知科学发现之一。它告诉我们，在短短几代人的时间里，平均智商测试分数可以发生系统性的、实质性的变化——这种变化无法用遗传解释，只能归因于教育、营养、城市化等广泛的环境因素。

这一发现既不应被解读为"现代人比祖先天生更聪明"，也不应被用来否定智商测试的价值。它更深刻的启示在于：智商分数捕捉的是特定文化历史背景下的认知习惯，而非一成不变的生物能力；跨时代的分数比较需要格外谨慎；而当代测试的分数，在同时代人群内部的比较中，仍具有一定的参考意义。

Brambin 提供一个面向自我了解的八维认知剖面。它不是临床评估，不用于诊断或教育安置。请将任何在线分数——包括我们的分数——视为好奇心和自我探索的起点，而不是关于智力能力的最终裁定。

弗林效应：为何智商均值在一个世纪中持续上升