Cohen’s d测试的终结——美国反倾销调查中目标倾销和归零实践的新发展
Cohen’s d测试的终结——美国反倾销调查中目标倾销和归零实践的新发展
最近,美国商务部在笔者代理的针对中国进口的制冷剂R-125的反倾销行政复审案初裁中,正式宣布放弃已经使用了超过十年的Cohen’s d 测试,这一决定不仅标志着美国在反倾销调查中的重大转向,也引发了对目标倾销及归零问题的再度关注。在对美国反倾销实践的研究中,Cohen’s d 测试也许不是一个热门的议题,然而,它所涉及到的目标倾销和归零问题却是美国反倾销实践中极具争议的话题。本文以Cohen’s d 测试为引,将结合目标倾销、差别定价、归零做法等概念,探讨美国反倾销实践中的技术细节问题。
1、目标倾销和归零问题
Cohen’s d 测试是一根线头,要理解它,需要从倾销的基本概念说起。倾销,按照WTO反倾销协议的定义,意为某国的某一产品低于正常价值出口到另一国。[1]可以看出,要认定倾销,一个基本的要素就是要认定出口价格(export price)低于正常价值(normal value)。而如何比较出口价格和正常价值,既是一个法律问题,又是一个统计学问题,带来了独特的复杂性。
WTO和美国的反倾销法规规定了三种不同的比较方法,分别是:“平均对平均”、“单笔对单笔”和“平均对单笔”。“平均对平均”是指比较加权平均的正常价值和加权平均的出口价格,“单笔对单笔”是比较单笔交易的正常价值和单笔出口价格。而“平均对单笔”指的则是将加权平均的正常价值和逐笔出口价格进行比较,这种比较方式只能在所谓 “目标倾销”的情况下使用。
当出口价格模式在不同购买者、地区或时间段之间存在显著差异,美国商务部认为这类定价模式可能以部分高价掩盖整体的倾销行为,同时对特定市场领域造成损害,这就被称为“目标倾销”。在实践中,有的外国生产商可能有选择地以非倾销价格(即正常或高价)销售部分产品,同时以倾销价格(低价)向特定客户、特定地区或在特定时间段销售其他产品,如果只看加权平均的出口价格,可能会得出与正常价值非常接近的数字,从而掩盖了倾销行为。这种情况下,“平均对平均”或“单笔对单笔”的方法都无法捕捉到真实的倾销幅度。
在过去,这种目标倾销对美国商务部并不是大问题,因为美国在计算倾销幅度时,会将所有出口价高于正常值时负数的倾销幅度全部归零,自然也就不存在用部分高价掩盖整体倾销的情况了。这就是归零做法(zeroing)。然而,美国的归零做法受到越来越多的挑战、并于2006年和2012年宣布在平均对平均的比较方法中不再采取归零做法的大背景下[2],目标倾销和平均对单笔的比较方法开始在美国反倾销案件中被大量使用。美国商务部的立场是,对于存在差别定价和目标倾销的反倾销案件,为了反映真实、完整的倾销幅度,归零做法是必要的。对于差别定价的销售模式,如果不将负数的倾销幅度归零,最终得出的倾销幅度一定会被特定类别的高价销售所扭曲。这一立场也得到了WTO专家组的肯定。[3]
那么,如何在具体的反倾销案件中认定目标倾销,开始成为了各利害关系方争论的焦点。美国商务部给出的方法是——Cohen’s d 测试。
2、Cohen’s d 测试的前世今生
在WTO反倾销协定中,目标倾销的法律定义为“出口价格模式在不同购买者、地区或时间段之间存在显著差异”,而在实践中,美国商务部先后使用过不同的统计方法来测试某一具体反倾销案件中的出口价格是否存在差异模式、以及差异是否显著。
最初,在2008年针对进口钢钉的反倾销案中,美国商务部使用了基于标准差的两步测试。第一步是申请人首先指控确定某一具体的销售类别存在目标倾销,再比较所指控的这一销售类别与调查期内所有销售的加权平均价格之间的差异是否达到一个标准差,以及该类别销售是否占总销售的33%,以证明存在差别定价。第二步是比较这一类别的销售是否与下一个较高的非目标倾销类别之间差距超过所有非目标倾销类别的平均差价5%,以证明差别定价的程度达到“显著”。这被通俗地称为“钢钉测试”[4]。然而,美国商务部自身并未坚持这一“钢钉测试”的方法,在仅仅7个月后就在《联邦公报》(Federal Register)上宣布自己并没有打算确立任何适用测试的标准。相反,美国商务部认为在这一问题上,它需要更大的灵活性,并将“回归逐案裁决,直至积累更多经验使其能更深入地理解这一问题”。[5]在这之后五年,2013年3月,美国商务部才终于在针对中国和奥地利进口的黄原胶反倾销案中,最终确定了基于Cohen’s d 的新测试,并沿用至今年7月。
Cohen’s d 测试是一个被广泛接受的统计学方法,用于比较两组数据的均值差异大小,其公式为:d =(均值1-均值2)/合并的标准差。当d<0.2时,则差异较小,d>0.8时,则差异较大。在实践中,Cohen’s d 测试仅考虑定量标准,不考虑隐含的定性因素,因此不再需要如同“钢钉测试”中一样首先需要申请人指控某个具体的差别定价或目标倾销的类别,而是在SAS程序中自动对各种任意定义的类别(测试组)的平均价格与所有其他类别(比较组)的平均价格进行比较,并分别得出Cohen’s d 系数。如果最终得出Cohen’s d 系数大于0.8的销售类别占总销售金额的66%以上,则视为存在差别定价并且差别程度为显著,可以使用平均对单笔的比较方法以及归零。如果最终得出Cohen’s d 系数大于0.8的销售类别占总销售金额的33%到66%之间,则对通过了Cohen’s d 测试的部分可以适用平均对单笔比较以及归零,其余部分则只能使用平均对平均比较。最后,如果最终得出Cohen’s d 系数大于0.8的销售类别只占总销售金额的33%以下,则只能全部使用平均对平均比较,不能使用归零。
Cohen’s d 测试一经确定,美国商务部便在大量的反倾销案件中使用了这一测试。在Cohen’s d 测试被确立后一年,有咨询公司统计了这一年内所有的反倾销案件,发现有超过125项案件使用了这一测试。而在这之中,超过80%的案件中都发现了差别定价的存在(即存在Cohen’s d >0.8的类别),但只有30%的案件中最终运用(或部分运用)了平均对单笔的比较及归零做法(即,Cohen’s d >0.8的类别占总销售的33%或66%以上)。[6]
点击可查看大图
因此,即使在使用Cohen’s d 测试的大背景下,真正用到平均对单笔的比较方法和归零做法的反倾销案件占比也并不多。
此外,在实践中,美国商务部即使得出超过33%或66%的销售类别通过Cohen’s d 测试(即Cohen’s d 系数超过0.8),在适用平均对单笔的比较方法时,还会额外进行一个步骤以确定平均对单笔比较得出的倾销幅度是否与平均对平均比较得出的倾销幅度存在“有意义的差异”,即二者之间的差异是否超过25%。而在实践中,特别是在倾销幅度较高时,通常会发现这两种比较方法之间不存在任何有意义的差异,因为在这种情况下,不存在为负的倾销幅度(即不存在某类别的出口价高于正常值),自然归零做法也失去了意义。总之,虽然Cohen’s d 测试常常被视为美国归零做法的延续,但在实践中,归零做法仍是例外而非常态。
3、饱受争议的Cohen’s d 测试
尽管Cohen’s d 测试是被广泛采用的统计学方法,然而当它被运用于反倾销实践时,仍是显示出不合时宜的缺陷,并且受到了越来越多的批评和挑战。
首先,Cohen’s d 测试是一个纯粹统计学的工具,仅考虑定量标准,不考虑隐含的定性因素,不作任何有意义的假定,而是将任意定义的类别进行比较,这提高了价格随机波动可能被误认为是目标倾销的可能性。更何况,Cohen’s d 测试在实践中同时比较了客户、区域和时间段三个维度的变量,更容易造成超过0.8的Cohen’s d 系数。再者,美国商务部从客户、区域和时间段三个维度进行分类的实践也是任意和武断的。美国商务部使用了人口普查的区域划分以及季度作为时间周期,但并没有没有事实或法律依据支持这种划分。
其次,提出Cohen’s d 测试的统计学家本人也说过,Cohen’s d 测试更适合于比较不同单位测量结果的研究结果,或者分析难以理解的单位测量结果。换句话说,对于“易于理解的单位测量(如智商分数、金额、数量或天数等),平均差是衡量离散程度的绝佳指标”[7];而对于单位不一致或难以理解的情况,根据标准差的Cohen’s d 则是更合适的测量工具。在反倾销实践中,所衡量的出口价格显然是一致且易于理解的单位,因此Cohen’s d测试并不是最合适的统计工具。
并且,Cohen’s d 测试作为纯粹的统计学工具,不能反映出检测到的差异是否源于正当的商业因素,而非倾销意图。对于一些季节性商品,如制冷剂等需求随季节交替明显变化的商品,这个缺点尤为明显。
最后,也是最显而易见的,当用于计算的销售总数较少时,即样本量较小时,Cohen’s d 测试更容易偏离真实的离散程度,导致偏差。
伴随着学术界的批评,Cohen’s d 测试也逐渐受到司法质疑。在2021年的Stupp Corporation v United States一案中,联邦巡回上诉法院首次对美国商务部使用Cohen’s d 测试表达了质疑,认为当基础数据违反统计假定时,商务部必须充分解释其统计选择,并确保方法的合理性。[8]具体而言,法院提出,在“对比数据规模小、非正态分布且方差不一致”的情况下,美国商务部对Cohen’s d 测试的应用存在重大问题,这种做法尤其可能会削弱落在临界值(Cohen’s d > 0.8)的结论的有效性。
在这之后,2025年4月22日,迎来了具有里程碑意义的Marmen Inc., et al. v. United States一案。[9]继Stupp Corporation v United States之后,联邦巡回上诉法院再次明确裁定, “当基础数据不是正态分布、方差不等、数量不足且不均衡时,依赖Cohen’s d 测试来判定价格是否存在显著差异是不合理的” 。 Marmen Inc., et al. v. United States判决带来了多米诺骨牌式的连锁反应。不到一个月之后,美国商务部就在《联邦纪事》(Federal Register)上发布通知,征求公众对Cohen’s d 测试替代方法的意见。自从2013年3月正式确定Cohen’s d 测试以来,这是美国商务部首次承认可能需要改变方法,与其之前在反倾销实践和司法审查中一直为Cohen’s d 测试辩护的姿态相比发生了重大转变。
4、制冷剂R125一案初裁——行政实践的关键转折
在Marmen Inc., et al. v. United States一案判决之后,美国商务部并没有立刻在反倾销案件中放弃Cohen’s d 测试。 6月10日,在薄壁矩形钢管一案的终裁中,尽管应诉企业明确提出不应该继续使用Cohen’s d 测试,美国商务部却回应称,即使有了Marmen Inc., et al. v. United States的判决, 但“联邦巡回上诉法院尚未发布强制令,上诉申请期限也未届满,因此该判决还不是最终定论” ,并且继续使用了基于Cohen’s d 测试的差别定价分析。[10]
然而,7月7日,在制冷剂R-125反倾销行政复审一案的初裁中,美国商务部明确放弃使用Cohen’s d 测试。在裁决中,美国商务部写到,“联邦巡回法院近期判决,当Cohen’s d 检验应用于不满足正态分布、等方差和足够大数据量这些统计假设的数据时,使用该检验是不合理的”。因此,“为了遵循联邦巡回上诉法院的判决,美国商务部已停止使用Cohen’s d 测试,并且也不再将 ‘混合方法’ 作为一种潜在的替代比较方法。”制冷剂R-125的这一判决是美国商务部在行政实践中的关键转折点,正式标志着Cohen’s d 测试这一在美国反倾销实践中使用了超过十年的方法被彻底地放弃了。
同时,在制冷剂R-125案件中,放弃使用Cohen’s d 测试后,美国商务部采用了一种非常简单的比较差异的方式,即某一特定类别销售的加权平均价格是否在所有其他销售的加权平均价格的 2% 以内变动。如果超过了2%的阈值,则视为该类别的销售通过了测试,与所有其他的销售类别之间存在差别定价的情况。而后,对于差别是否显著的分析也放低了标准,只要超过33%的销售类别通过了测试,就可以考虑整体适用平均对单笔的比较。最后一步的做法与之前一致,确认“平均对单笔”比较得出的倾销幅度是否与“平均对平均”比较得出的倾销幅度存在有意义的差异,即二者之间的差异是否超过25%。只有在两种比较方法间有25%以上的差异时,才能认定在该案中存在“平均对平均”方法无法捕捉的目标倾销,从而在最终的结论中真正适用“平均对单笔”(以及归零做法)。
5、制冷剂R-125之后——新的替代方法?
在制冷剂R-125一案之后,美国商务部采取了统一的口径,在乘用车和轻型卡车轮胎行政复审一案和耐蚀钢产品行政复审一案中都表示遵循Marmen Inc., et al. v. United States的判决,停止使用Cohen’s d 测试,并且都采用了制冷剂R-125一案中的测试作为替代(为便于描述,下文将制冷剂R-125一案中使用的测试统一称为 “R-125测试” )。当然,美国商务部并没有正式确认R-125测试成为Cohen’s d 测试的替代方法,因为在耐蚀钢产品一案中,美国商务部特别表明, “[它]正在对差别定价的分析做出调整,并将对这一调整单独制定一份提交案件摘要(Case Brief)的时间表。”[11]这表明美国商务部在放弃Cohen’s d 测试的同时,仍然在征询多方意见、积极寻求替代方案。
我们认为,虽然R-125测试没有被正式确立为Cohen’s d 测试的替代做法,但这个新的测试方法象征着美国商务部正从复杂的统计学工具,逐步转向更易于操作和理解的通用测试。Cohen’s d 测试虽然在统计学领域受到广泛认可,然而实际应用在反倾销调查中时不仅造成了非专业人士难以快速理解的门槛,也不能准确地捕捉真实案件中的出口价差异程度。相比之下, R-125测试基于加权平均差异直接判定,具有操作简便、直观易懂的特点,是最常用的衡量误差、差异的做法,可以快速反映出口价格间的离散程度,无需复杂的统计假设也不易误导非专业读者。更重要的是,反倾销调查是针对具体商业行为的事实判断,而往往不具备抽样统计那样的模型前提。在此情形下,与其追求更复杂的统计学模型试图得出更精确的测量结果,不如结合定性分析与定量分析,以简单的统计规则辅助判断,再综合商业现实、法律条文解读等多维度分析,才能得出既符合法律要求、又符合商业现实的结论。
但另一方面,虽然R-125测试简单直观,我们仍然认为2%的阈值过于严格。在现实商业环境和出口价格波动的背景中,2% 的相对差异几乎可以忽略,往往不足以反映真正意义上的价格偏差或倾销行为。在商业统计、统计显著性设定等场景中,往往采用更宽松的10%或5%作为可接受的误差范围。因此,我们认为反倾销调查中的差别定价分析也应该沿用10%或5%这些更常用的阈值,才能在保持分析简洁性的同时,更好地符合商业现实、统计实践和决策要求。
6、目标倾销和归零实践的未来
虽然美国商务部正式放弃了使用Cohen’s d 测试,但这并不代表其放弃使用目标倾销和归零实践。相反,美国商务部积极寻求新替代方法的做法明确表明了其坚持保留归零做法的决心。但无论如何,Cohen’s d 测试的被否定导致美国商务部面临一项根本性挑战,即开发既能满足司法要求又符合实际行政需求的统计替代方法。任何替代方法都必须满足识别差异定价模式这一相同的法定要求,同时还要经得起对统计有效性更严格的司法审查。更重要的是,在使用新的替代方法时,证明该方法符合统计学合理性的举证责任部分转移到了美国商务部,这大大缓解了应诉企业挑战美国商务部不合理裁决的压力。
[注]
[1]WTO ADA Article 2.1:
For the purpose of this Agreement, a product is to be considered as being dumped, i.e. introduced into the commerce of another country at less than its normal value, if the export price of the product exported from one country to another is less than the comparable price, in the ordinary course of trade, for the like product when destined for consumption in the exporting country.
[2]Antidumping Proceedings: Calculation of the Weighted-Average Dumping Margin During an Antidumping Investigation; Final Modification, Federal Register/Vol. 71, No. 43/Monday, March 6, 2006/Notices; Antidumping Proceedings: Calculation of the Weighted-Average Dumping Margin and Assessment Rate in Certain Antidumping Duty Proceedings; Final Modification, 77 FR 8101, Federal Register Volume 77, Issue 30 (February 14, 2012).
[3]WT/DS471/R,19 October 2016,原文如下:We are cognizant that where an investigating authority applies the WA-T methodology to the export transactions falling within the pattern and one of the two normal methodologies to the export transactions falling outside the pattern, and the results of the calculations for the export transactions falling outside the pattern show negative dumping, it may be necessary, in order to give full meaning to the second sentence of Article 2.4.2, not to let that negative dumping offset the dumping found within the pattern. We make this observation bearing in mind the objective of the WA-T methodology which, as underlined by the Appellate Body, is to unmask targeted dumping.
[4]Certain Steel Nails from the United Arab Emirate: Notice of Preliminary Determination of Sales at Less Than Fair Value and Postponement of Final Determination, 73 Fed. Reg. 3945 (Department of Commerce, January 23, 2008); Certain Steel Nails from the People’s Republic of China: Preliminary Determination of Sales at Less Than Fair Value and Partial Affirmative Determination of Critical Circumstances and Postponement of Final Determination, 73 Fed. Reg. 3928 (Department of Commerce, January 23, 2008); Memorandum to David Spooner, titled “Post-Preliminary Determinations on Targeted Dumping,” A-520-802 and A-570-909 (April 21, 2008).
[5]Withdrawal of the Regulatory Provisions Governing Targeted Dumping in Antidumping Duty Investigations, 73 Fed. Reg. 74930 (Department of Commerce, December 10, 2008).
[6]See:https://www.captrade.com/blog/2014/06/differential-pricing-analysis-one-year-later.
[7]McFarland, H. B. (2015). The U.S. Department of Commerce’s approach to targeted dumping: the wrong test and the wrong response. Journal of Economic Policy Reform, 18(4), 293–308. https://doi.org/10.1080/17487870.2015.1013542.
[8]Fed. Cir. 2021.
[9]Fed. Cir. 2025.
[10]See Commerce’s memo, Issues and Decision Memorandum for the Final Results of Antidumping Duty Administrative Review of Light-Walled Rectangular Pipe and Tube from Mexico; 2022-2023, dated June 10, 2025 (barcode: 4774640-02).
[11]See Commerce’s memo, Decision Memorandum for the Post Preliminary Affirmative Determination in the Less-Than-Fair-Value Investigation of Certain Corrosion-Resistant Steel Products from the Socialist Republic of Vietnam, dated July 16, 2025 (barcode: 4795154-01).