欧博百家乐25种改变回归系数显著性的方法, P<0.05在实证研究中很容易被达到, 但不要随意

图片

凡是搞计量经济的,欧博百家乐都关注这个号了
邮箱:econometrics666@126.com所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前面我们讲过TOP3金融学刊RFS总结了实证金融中常用的12种调整变量显著性或调星星的方法(手段),下面我们在计量社群群友讨论的基础上将其增加到25种可能会存在P值操纵的方法。不是让学者们去这样做(不建议P hacking),而是提示咱们这些操作很可能会改变回归的显著性,要谨慎对待这些可能改变显著性的操作。1. Next most common with different denominator:比率型被解释变量换分母啥意思呢?当被解释变量是一个比率时(例如,负债/权益比率),改变这个比率的分母(例如,换成总资产)可能会改变变量的尺度和分布,从而影响回归结果的显著性。举个例子吧。假设研究公司规模对负债水平的影响,其中被解释变量是“总负债/总权益”。你发现公司规模(用总资产衡量)与这个比率呈显著正相关。现在,你将分母换成“总资产”,被解释变量变成“总负债/总资产”。如果大型公司倾向于拥有更高的权益比例,那么使用新的被解释变量可能会减弱公司规模的影响,导致回归结果的显著性降低。2. Retain outliers:保留数据中的极端值或对数据进行缩尾以剔除异常值啥意思呢?极端值(outliers)可能对回归结果产生很大的影响。保留这些极端值与剔除它们(例如通过缩尾 Winsorize)可能会导致不同的显著性结果。这里“Retain outliers”通常意味着不进行任何处理来移除或调整这些极端值。举个例子吧。假设研究盈利能力对公司投资支出的影响,你的数据中可能包含一些盈利能力极高的公司,它们的投资支出也非常高。这些极端值可能会增强盈利能力与投资支出之间的正相关关系,使得回归结果非常显著。如果你对数据进行缩尾处理(例如,将上下1%的极端值替换为更接近的值),这些极端值的影响会减弱,盈利能力与投资支出之间的关系可能变得不那么显著,甚至不显著。3. Convert the explanatory variable to a dummy:将解释变量从连续性变量转换成二值虚拟变量啥意思呢?将一个连续的解释变量(例如,公司年龄)转换为一个二值虚拟变量(例如,如果公司年龄大于10年则为1,否则为0)可以改变变量的形式,从而影响其在回归中的作用和显著性。举个例子吧。假设研究公司年龄对研发支出的影响,你发现公司年龄(连续变量)与研发支出之间存在一个微弱的负相关关系,但不显著。现在,你创建一个虚拟变量,如果公司年龄超过10年则为1,否则为0。你用这个虚拟变量替换原来的公司年龄进行回归。如果年轻公司和老公司在研发支出方面存在明显的差异,那么这个虚拟变量可能会显示出更强更显著的影响。反之,如果差异不明显,显著性可能会降低。4. Winsorize outliers at 5th/95th:对数据的缩尾从1%变成5%以剔除异常值啥意思呢?Winsorize 是一种处理极端值的方法,它将数据集中位于特定百分位数之外的值替换为该百分位数上的值。将缩尾的百分比从1%更改为5%意味着更多的数据点将被调整,这可能会影响回归结果的显著性。举个例子吧。假设研究杠杆率对公司风险的影响,你对杠杆率进行了上下1%的 Winsorize 处理后,发现杠杆率与公司风险之间存在显著的正相关关系。现在,你将 Winsorize 的百分比改为5%。这意味着更多极端杠杆率的公司的数据将被调整。如果最初的显著性是由最极端的1%的公司驱动的,那么扩大 Winsorize 的范围可能会减弱这种影响,导致显著性降低。相反,如果更广泛的极端值也支持这种关系,显著性可能会保持或增强。5. Next most common with different numerator:比率型被解释变量换分子啥意思呢?类似于改变分母,当被解释变量是一个比率时,改变分子(例如,将“息税前利润/总资产”改为“净利润/总资产”)会改变被解释变量的含义和尺度,从而可能影响回归结果的显著性。举个例子吧。假设研究研发支出对公司盈利能力的影响,被解释变量是“息税前利润/总资产”,你发现研发支出与这个比率呈显著正相关。现在,你将分子换成“净利润”,被解释变量变成“净利润/总资产”。如果研发支出对税收和利息的影响与对息税前利润的影响不同,那么使用新的被解释变量可能会改变研发支出的系数和显著性。6. Lagged explanatory variable:使用滞后期的解释变量啥意思呢?使用解释变量的滞后值(例如,使用前一年的解释变量来预测当年的被解释变量)可以帮助解决内生性问题,并考察解释变量对被解释变量的延迟影响。这可能会改变回归结果的显著性。举个例子吧。假设研究广告支出对销售收入的影响,你使用当期的广告支出和销售收入进行回归,发现关系不显著。现在,你使用滞后一期的广告支出(例如,去年的广告支出)来预测当期的销售收入。如果广告支出对销售收入的影响存在一定的延迟,那么使用滞后变量可能会发现一个更强更显著的关系。7. Logged dependent variable:对被解释变量取对数值啥意思呢?对被解释变量取对数通常用于处理数据分布的偏态性、缩小变量之间的尺度差异以及将系数解释为弹性。这可能会影响回归结果的显著性。举个例子吧。假设研究公司规模(用总资产衡量)对CEO薪酬的影响,你发现公司规模与CEO薪酬之间存在一个显著的正相关关系。现在,你对CEO薪酬取对数,然后再次进行回归。取对数可能会降低极端高薪的影响,并可能揭示一个非线性的关系。这可能会改变公司规模的系数大小和显著性。8. Logged explanatory variable:对解释变量取对数值啥意思呢?类似于对被解释变量取对数,对解释变量取对数也可以处理偏态性、缩小尺度差异,并将系数解释为弹性。这同样可能影响回归结果的显著性。举个例子吧。假设研究研发支出对公司市值的影响,你发现研发支出与公司市值之间存在一个显著的正相关关系。现在,你对研发支出取对数,然后再次进行回归。这可能会反映出研发支出每增加1%对公司市值的百分比影响,并且可能会改变原始回归中研发支出的系数和显著性。9. Trim outliers at 1st/99th:对数据的1%缩尾变成对数据的1%截断以剔除异常值啥意思呢? 缩尾(Winsorize)是将极端值替换为更接近的值,而截断(Trim)是直接将极端值从数据集中移除。将1%的缩尾改为1%的截断意味着你不再调整最极端的1%的数据,而是直接将它们删除,这可能会对回归结果的显著性产生不同的影响。举个例子吧。假设研究CEO任期对公司绩效的影响,你对CEO任期进行了上下1%的缩尾处理后,发现CEO任期与公司绩效之间存在一个显著的负相关关系。现在,你改为对CEO任期进行上下1%的截断处理,直接移除任期最长和最短的1%的CEO。如果最初的显著性是由这些极端任期的CEO驱动的,那么移除这些数据点可能会减弱这种负相关关系,导致显著性降低。10. Second most common size control:改变公司规模的衡量方式啥意思呢?公司规模是实证金融中常用的控制变量。规模的衡量方式有很多种(例如,总资产、市值、销售收入、员工人数)。使用不同的规模衡量方式可能会影响其他解释变量的系数和显著性。举个例子吧。假设研究资本结构对公司盈利能力的影响,并在回归中控制了公司规模(用总资产衡量)。你发现资本结构与盈利能力之间存在一个显著的负相关关系。现在,你将公司规模的衡量方式改为市值。由于总资产和市值反映了公司规模的不同方面,使用市值作为控制变量可能会改变资本结构变量的系数和显著性。11. Exclude financial firm:剔除金融公司啥意思呢?金融公司的经营模式、监管环境和财务结构与其他行业的公司有显著不同。在某些研究中,包含金融公司可能会干扰对非金融公司关系的分析。因此,剔除金融公司可能会改变回归结果的显著性。举个例子吧。假设研究研发支出对公司价值的影响,你的样本中包含各种行业的公司,包括金融公司。你发现研发支出与公司价值之间存在一个显著的正相关关系。现在,你将样本中的金融公司剔除,只分析非金融公司。由于金融公司的研发活动和价值驱动因素可能与其他行业不同,剔除它们可能会改变研发支出与公司价值之间的关系,导致显著性增强或减弱。12. Add next most common control variable:在回归方程中增加相关控制变量啥意思呢?在回归模型中加入额外的控制变量可以帮助控制可能影响被解释变量和解释变量的其他因素,从而减少遗漏变量偏差,并可能改变感兴趣的解释变量的显著性。举个例子吧。假设研究CEO的过度自信对公司投资水平的影响,你发现两者之间存在显著的正相关关系。现在,你意识到公司治理结构也可能影响投资水平,并且可能与CEO的过度自信相关。于是,你将一个衡量公司治理质量的指标作为控制变量加入回归方程。加入这个控制变量后,如果CEO的过度自信与公司治理质量存在一定的相关性,并且公司治理质量本身也影响投资水平,那么CEO过度自信的系数和显著性可能会发生变化。除此之外呢?我们增加13个可能改变P值显著性的操作方法。13.扩大样本量 (Increase Sample Size): 在其他条件相同的情况下,更大的样本量通常会降低标准误差,从而更容易获得统计上的显著性结果。14.改变研究的时间跨度 (Change Time Period): 不同的时间段可能受到不同的经济或市场环境的影响,导致变量之间的关系发生变化,从而影响回归结果的显著性。15.使用不同的数据频率 (Use Different Data Frequency): 例如,从年度数据改为季度或月度数据,可以增加观测值的数量,从而可能提高统计检验的效力。但这也可能引入新的问题,如季节性或短期波动。16.选择特定的子样本进行分析 (Focus on Specific Subsamples): 将整个样本划分为不同的子组(例如,按行业、公司规模、地理区域等),并对每个子组进行分析,可能会发现只在特定子样本中显著的关系。17.处理缺失数据的方式 (Handling Missing Data): 处理缺失数据的方法(例如,直接删除、均值填充、多重插补等)可能会影响最终的样本构成和回归结果的显著性。18.引入或删除交互项 (Include or Exclude Interaction Terms): 交互项可以捕捉变量之间更复杂的相互作用关系。引入或删除交互项可能会改变主要解释变量的系数和显著性。19.使用不同的变量转换方式 (Use Different Variable Transformations): 除了取对数,还可以使用平方项、立方项、倒数等其他函数对变量进行转换,以捕捉非线性关系,这可能影响显著性。20.改变控制变量的组合 (Change the Set of Control Variables): 在回归模型中加入或删除控制变量可能会影响感兴趣的解释变量的系数估计和标准误差,从而改变其显著性。这1个与上面的第12个操作类似。21.使用不同的计量经济学方法 (Employ Different Econometric Techniques): 根据数据的特性和研究问题,可以选择不同的计量经济学方法,例如普通最小二乘法 (OLS)、固定效应模型 (Fixed Effects Model)、随机效应模型 (Random Effects Model)、工具变量法 (Instrumental Variables, IV)、广义矩估计 (Generalized Method of Moments, GMM) 等。不同的方法对数据的假设和处理方式不同,可能导致显著性结果的差异。22.调整标准误差的计算方式 (Adjust Standard Errors): 可以使用稳健标准误差 (Robust Standard Errors)、聚类标准误差 (Clustered Standard Errors) 或 Newey-West 标准误差等方法来处理异方差性或序列相关性,这会直接影响统计检验的p值和显著性。23.使用不同的假设检验方法 (Use Different Hypothesis Testing Methods): 虽然常见的显著性水平是5%,但研究者也可以选择不同的显著性水平(例如1%或10%)。此外,对于某些特定的研究问题,可能需要使用更复杂的假设检验方法。24.关注特定的事件窗口 (Focus on Specific Event Windows): 在事件研究中,选择不同的事件窗口长度可能会影响事件发生后变量的反应以及结果的显著性。

25.选择性报告 (Selective Reporting): 虽然这不属于研究过程中的直接操作,但研究者可能会倾向于报告那些具有统计显著性的结果,而忽略或不报告那些不显著的结果,从而导致文献中存在显著性偏差。

图片

*可以进一步到社群交流讨论计量问题。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列 |  |  |  |  |     |  | 内部数据计量系列 |  |  |  |  |  |  |  |  |  |  |  |  | 数据处理 |  |  |  |  |干货系列 |  |  |  |  |  |  |  |  |  | 计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀通过感染优秀而互相成就彼此。

图片

图片

2025-12-29 02:08 点击量:3