问题描述
聚宽因子中的风格因子是原始值还是经过去极值和标准化的Z值?
另外描述因子daily_standard_deviation、cumulative_range分别指的是什么,可以简单说明一下吗?
解决方案
在聚宽(JoinQuant)因子库中,关于风格因子和描述因子的数据处理方式以及具体含义,官方文档有明确的说明。以下是详细的解答:
1. 风格因子是原始值还是处理后的值?
风格因子是经过处理的(包含了去极值和标准化等步骤),而描述因子是原始值。
根据聚宽的文档说明,数据的处理步骤如下:
- 描述因子(如
daily_standard_deviation等):通过 API 获取到的描述因子是原始值,没有经过数据处理。 - 风格因子(如
size,beta,momentum等):风格因子是经过严格的正规化处理的。处理步骤包括:- 先对底层的描述因子分别进行去极值和标准化(市值加权标准化)。
- 按照设定的权重对描述因子加权求和。
- 对合成后的风格因子进行缺失值填充(按行业以对数市值回归填充)。
- 最后,对风格因子再次进行市值加权标准化和去极值处理。
因此,您直接获取到的风格因子已经是经过去极值和标准化处理后的值(类似于 Z-score,但采用了市值加权等更精细的处理)。
2. 描述因子含义详解
您提到的这两个描述因子,主要用于合成残差波动率因子(residual_volatility),它们的具体含义和计算方法如下:
daily_standard_deviation(日收益率标准差)
- 含义:衡量股票近期超额收益的波动程度,赋予近期数据更高的权重。
- 计算方法:计算过去 252日 的超额收益的指数加权标准差,其中指数加权的半衰期设定为 42个交易日。
cumulative_range(收益离差)
- 含义:衡量股票在过去一年内月度收益率的极端波动范围。
- 计算方法:计算过去 12个月 中月收益率(以21个交易日为一个自然月)的最大值和最小值之间的差异。需要注意的是,计算该指标要求股票上市必须超过6个月,否则结果将返回
nan。
总结:
如果您需要直接用于多因子模型或回归分析,聚宽提供的风格因子已经做好了完善的预处理,可以直接使用;如果您希望自己构建因子或进行特殊处理,可以提取描述因子的原始值自行加工。