2023 年 1 月¶

2023年1月30日
统计, 机器学习, 量化研究
阅读时间 1 分钟

普通最小二乘估计的假设条件

因变量$Y$与自变量$X$之间是线性关系。
自变量之间不存在多重共线性，即$\left(X^{\prime} X\right)^{-1}$存在。
误差项的条件均值为$0$ ，即$E\left[u \mid X\right]=0$。
误差项之间同方差且不相关，即$E\left[u u^{\prime} \mid X\right]=\sigma^2 I_T$。
$\left(Y_t, X_t\right)$ 独立同分布。
误差项是正态分布的。

假设 1-4 可推出：普通最小二乘估计是最小方差线性无偏估计（BLUE）。

假设 1-3 与假设 5 可推出：普通最小二乘估计具有一致性。

假设 6 并不影响普通最小二乘估计是最小方差线性无偏估计，它是为了便于在有限样本下对回归系数进行统计检验。

2023年1月25日
统计, 机器学习, 量化研究
阅读时间 4 分钟

普通最小二乘估计的方差与高斯 - 马尔可夫定理

本文计算了普通最小二乘估计的方差，并证明了高斯 - 马尔可夫定理。

普通最小二乘估计的方差：

\[ \begin{aligned} \operatorname{Var}(\underbrace{\beta^{O L S}}_ {(K+1) \times 1} \mid X)&=\sigma^2 \underbrace{\left(X^{\prime} X\right)^{-1}} _ {(K+1) \times (K+1)} \end{aligned} \]

高斯 - 马尔可夫定理（Gauss-Markov Theorem）

在线性回归模型中，如果线性模型满足高斯马尔可夫假定，则回归系数的最佳线性无偏估计（BLUE, Best Linear Unbiased Estimator）就是普通最小二乘法估计。

2023年1月24日
统计, 机器学习, 量化研究
阅读时间 3 分钟

普通最小二乘估计的无偏性和一致性

本文证明了普通最小二乘估计的无偏性和一致性。

无偏性：

\[ E\left[\beta^{O L S}\right]=\beta \]

一致性

\[ \beta^{O L S}-\beta=\left(X^{\prime} X\right)^{-1} X^{\prime} u \stackrel{p}{\rightarrow} 0 \text { as } T \rightarrow \infty \]

2023年1月23日
统计, 机器学习, 量化研究
阅读时间 4 分钟

线性回归的普通最小二乘估计

ols

本文推导了线性回归的普通最小二乘估计量的矩阵形式，并在一元线性回归的情境下给出了求和形式的表达式。 $$ Y=X \widehat{\beta}+e $$

\[ \beta^{O L S}=\left(X^{\prime} X\right)^{-1} X^{\prime} Y \]

在一元线性回归的情境下：

\[ \beta_1^{O L S} =\frac{\overline{X Y}-\overline{X} * \overline{Y}}{\overline{X^2}-\left(\overline{X}\right)^2} \]

\[ \beta_0^{O L S} =\frac{\overline{X^2} * \overline{Y}-\overline{X} * \overline{X Y}}{\overline{X^2}-\left(\overline{X}\right)^2} \]

2023年1月22日
Python, 量化研究
阅读时间 3 分钟

Python 实现多列滚动计算——以“更优波动率”为例

对单列数据进行滚动计算，可以使用常规的.rolling()。

如果需要对多列数据进行滚动计算，可以考虑下面两种方法：

引入外部包numpy_ext，使用其中的rollling_apply()方法。
在.rolling()中加入参数method='table'。

本文以方正金工发表的一篇研报中提出的计算“更优波动率”为例，实现了对多列数据进行滚动计算，并对上述两种方法总结如下：

numpy_ext.rollling_apply()需要引入外部包numpy_ext，该方法接受需要进行滚动计算的多个 Series，并返回计算出的一个数组。
.rolling(method='table')是 Pandas 内置的函数（需要升级到较新的版本），指定method='table'后，就可以对数据框中的多列进行滚动计算，并返回一个数据框。若返回的多列结果相同，我们只需要取出其中一列即可。
.rolling(method='table')使用了engine='numba'，计算速度更快。

2023年1月19日
Python
阅读时间 2 分钟

修改 Jupyter Notebook 的默认 Python 解释器

Conda 可以十分方便地创建虚拟环境，便于在不同的项目中使用不同的 Python 版本、外部包等。今天在创建新的虚拟 Conda 环境后，在 VS Code 中没有找到刚刚创建的 Python 解释器。

解决方案是：

先按Ctrl+Shift+P，调出Select Interpreter选项，这里应该可以看到最新创建的 Conda 环境；
再按Ctrl+Shift+P，调出Clear Cache and Reload Window选项，重新加载窗口；
最后点击右上角的“选择内核”，可以看到刚才创建的环境。

2023年1月19日
Computer Science
阅读时间 4 分钟

中文技术文档的写作规范

本文转载了阮一峰的《中文技术文档的写作规范》。

本站之前发布的文章有许多并没有遵循这一规范（例如中英文之间应有空格）。在今后的工作和写作中，我会尽量书写规范的文档，提高文章的易读性。

2023年1月10日
Python
阅读时间 2 分钟

pandas 中的 axis

pandas 中的axis参数代表对数据进行处理时遵循的方向。在单行、单列操作（如drop）时，axis=0和axis=1分别代表删除行和删除列。在聚合操作（如求mean）时，axis=0和axis=1分别代表求列均值和行均值。

总结

axis=0：

如果是单行操作，就指的是某一行；

如果是聚合操作，指的是跨行 cross rows。

axis=1：

如果是单列操作，就指的是某一列；

如果是聚合操作，指的是跨列 cross columns。

2023年1月9日
机器学习
阅读时间 13 分钟

基于 XGBoost 的音乐流行度预测与推荐

本文基于音乐平台 Spotify 中的 30 万余条音乐数据与 10 万余条歌手数据，分析并构造了音乐流派、音乐语言等特征，与歌手热度、音乐发行时间等特征共同建模预测音乐流行度，使用 XGBoost 内置的特征重要性计算函数和 SHAP 值评估各特征的重要性及其对预测结果的影响方向与大小，并构建了基于内容余弦相似度的音乐推荐系统。

2023年1月4日
Computer Science
阅读时间 1 分钟

高级搜索技巧

搜索引擎和 GitHub 中一些高级搜索的方法。

2023年1月3日
量化研究
阅读时间 6 分钟

均值方差模型的有效前沿曲线

在无做空限制的情形下推导均值方差模型的有效前沿曲线，本质上是求解一个带有等式约束的最优化问题。

\[ \begin{aligned} & \underset{w}{\text{minimize}} & & \frac{1}{2} w^{\top} \sum w \\\ & \text{subject to} & & w^{\top} e=1 \\\ & & & w^{\top} \mu=\mu_0 \end{aligned} \]

2023年1月2日
统计, 机器学习, Python
阅读时间 1 分钟

梯度下降和 MCMC 实现逻辑回归的 LASSO 形式

本文使用梯度下降法、随机梯度下降法、坐标下降法和基于贝叶斯后验的 MCMC 采样法实现带有 L1 惩罚项的逻辑回归，并在银行客户流失数据集上进行实证检验。