机器学习¶

2023年6月6日
统计, 机器学习
阅读时间 3 分钟

使用 Conformal Learning 预测企业信贷违约情况

本文使用 8 种经典的分类器，基于逆概率错误进行 Conformal Learning。

本文使用了 nonconformist 包，它在使用 Conformal Learning 进行分类预测时的核心步骤是：

在训练集上训练，这一步和常规的机器学习训练相同。
在校准集上校准，得到每个校准集样本属于每个标签的预测概率。
用一个 ErrFunc 衡量每个校准集样本的预测效果，作为 nonconformity score。最简单的是 InverseProbabilityErrFunc，它等于 1-predict_probability[true_y]。例如，某个样本的真实标签是 1，而模型预测出该样本属于标签 1 的概率是 0.9，则 ErrFunc 的值是 1-0.9=0.1。
在测试集上测试，得到每个测试集样本属于每个标签的预测概率。
用 ErrFunc 衡量每个测试集样本的预测效果。
对每一个测试集样本，计算：有多少比例的校准集样本的 nonconformity score 大于或等于当前测试样本的 nonconformity score，记为 p。p 越大，说明校准集中有非常多的样本比当前测试集样本的预测效果更差，说明第 j 个测试样本属于第 i 个类的可能性越大。
返回 p > significance。得到一个 N*2 的 True 和 False 组成的二维矩阵，每一行代表一个测试集样本，每一列代表是否将该标签纳入该样本的 prediction set 中。

本项目的完整展示文件在这里。

2023年2月21日
机器学习, 量化研究, Python
阅读时间 3 分钟

LightGBM 的用法

LightGBM 是一种基于决策树的梯度提升机（GBM）算法，它是一种快速、准确的机器学习算法，可以用于分类和回归问题。

本文介绍了 LightGBM 的使用方法和代码示例，并记录了自定义损失函数、打印训练过程、迭代次数参数等问题的解决方法。

LightGBM_logo_black_text

2023年1月30日
统计, 机器学习, 量化研究
阅读时间 1 分钟

普通最小二乘估计的假设条件

因变量$Y$与自变量$X$之间是线性关系。
自变量之间不存在多重共线性，即$\left(X^{\prime} X\right)^{-1}$存在。
误差项的条件均值为$0$ ，即$E\left[u \mid X\right]=0$。
误差项之间同方差且不相关，即$E\left[u u^{\prime} \mid X\right]=\sigma^2 I_T$。
$\left(Y_t, X_t\right)$ 独立同分布。
误差项是正态分布的。

假设 1-4 可推出：普通最小二乘估计是最小方差线性无偏估计（BLUE）。

假设 1-3 与假设 5 可推出：普通最小二乘估计具有一致性。

假设 6 并不影响普通最小二乘估计是最小方差线性无偏估计，它是为了便于在有限样本下对回归系数进行统计检验。

2023年1月25日
统计, 机器学习, 量化研究
阅读时间 4 分钟

普通最小二乘估计的方差与高斯 - 马尔可夫定理

本文计算了普通最小二乘估计的方差，并证明了高斯 - 马尔可夫定理。

普通最小二乘估计的方差：

\[ \begin{aligned} \operatorname{Var}(\underbrace{\beta^{O L S}}_ {(K+1) \times 1} \mid X)&=\sigma^2 \underbrace{\left(X^{\prime} X\right)^{-1}} _ {(K+1) \times (K+1)} \end{aligned} \]

高斯 - 马尔可夫定理（Gauss-Markov Theorem）

在线性回归模型中，如果线性模型满足高斯马尔可夫假定，则回归系数的最佳线性无偏估计（BLUE, Best Linear Unbiased Estimator）就是普通最小二乘法估计。

2023年1月24日
统计, 机器学习, 量化研究
阅读时间 3 分钟

普通最小二乘估计的无偏性和一致性

本文证明了普通最小二乘估计的无偏性和一致性。

无偏性：

\[ E\left[\beta^{O L S}\right]=\beta \]

一致性

\[ \beta^{O L S}-\beta=\left(X^{\prime} X\right)^{-1} X^{\prime} u \stackrel{p}{\rightarrow} 0 \text { as } T \rightarrow \infty \]

2023年1月23日
统计, 机器学习, 量化研究
阅读时间 4 分钟

线性回归的普通最小二乘估计

ols

本文推导了线性回归的普通最小二乘估计量的矩阵形式，并在一元线性回归的情境下给出了求和形式的表达式。 $$ Y=X \widehat{\beta}+e $$

\[ \beta^{O L S}=\left(X^{\prime} X\right)^{-1} X^{\prime} Y \]

在一元线性回归的情境下：

\[ \beta_1^{O L S} =\frac{\overline{X Y}-\overline{X} * \overline{Y}}{\overline{X^2}-\left(\overline{X}\right)^2} \]

\[ \beta_0^{O L S} =\frac{\overline{X^2} * \overline{Y}-\overline{X} * \overline{X Y}}{\overline{X^2}-\left(\overline{X}\right)^2} \]

2023年1月9日
机器学习
阅读时间 13 分钟

基于 XGBoost 的音乐流行度预测与推荐

本文基于音乐平台 Spotify 中的 30 万余条音乐数据与 10 万余条歌手数据，分析并构造了音乐流派、音乐语言等特征，与歌手热度、音乐发行时间等特征共同建模预测音乐流行度，使用 XGBoost 内置的特征重要性计算函数和 SHAP 值评估各特征的重要性及其对预测结果的影响方向与大小，并构建了基于内容余弦相似度的音乐推荐系统。

2023年1月2日
统计, 机器学习, Python
阅读时间 1 分钟

梯度下降和 MCMC 实现逻辑回归的 LASSO 形式

本文使用梯度下降法、随机梯度下降法、坐标下降法和基于贝叶斯后验的 MCMC 采样法实现带有 L1 惩罚项的逻辑回归，并在银行客户流失数据集上进行实证检验。

2022年12月31日
机器学习
阅读时间 4 分钟

L1、L2 正则化与贝叶斯先验

从贝叶斯统计的视角看，L1 正则化的 Lasso 回归和 L2 正则化的岭回归，分别相当于参数具有拉普拉斯先验和高斯先验。

2022年12月29日
机器学习
阅读时间 2 分钟

当梯度下降陷入局部最优解

应用梯度下降法时，损失函数的值不再发生变化并不一定是找到了全局最优解，可能是陷入了局部最优解。为当前参数加上一个微小扰动，可以帮助跳出局部最优解。

2022年12月27日
机器学习
阅读时间 3 分钟

交叉熵损失函数

摘录微软 AI-Edu 中关于交叉熵损失函数的教程，并添加了部分学习注解。开源许可。

2022年12月15日
Python, 机器学习, 量化研究
阅读时间 11 分钟

K 折、随机和时间序列交叉验证的 Python 实现

相比 K 折、随机交叉验证方法，时序交叉验证方法不会用到未来信息预测历史结果，在测试集上的表现更稳健。时序交叉验证在时序数据上可以缓解过拟合问题，且训练耗时更少。

png

2022年12月11日
机器学习
阅读时间 1 分钟

AdaBoost、GBDT 和 XGBoost 的联系与区别

各类 Boost 方法是基于树模型的集成模型，理解它们的联系与区别有助于理解各个算法的优劣。

2022年12月11日
机器学习
阅读时间 2 分钟

自定义交叉验证的样本划分方法

交叉验证是缓解模型过拟合的手段之一。本文以 XGBoost 算法为例，介绍了如何自定义交叉验证中划分训练集和验证集的方法。

2022年12月10日
机器学习
阅读时间 1 分钟

XGBoost

推导 XGBoost 中的结构分数以及理解它对于构建 XGBoost 模型的作用。转载一篇写得非常棒的介绍 XGBoost 的文章，真正的通俗易懂。

2022年12月4日
机器学习
阅读时间 5 分钟

使用 Gradient Boost Decision Tree 进行回归预测

使用 GBDT 进行回归预测，并与决策树进行对比。

2022年11月29日
机器学习
阅读时间 1 分钟

AdaBoost 分类原理

话语权（Amount of say）、权重更新，是 AdaBoost 中十分重要的两个概念。

2022年11月27日
机器学习
阅读时间 6 分钟

使用 AdaBoost 进行回归预测

AdaBoost 是一种自适应提升的树模型，它对预测错误的样本增加权重，以提高预测准确率。

unnamed-chunk-14-1 — AdaBoost 的损失值随迭代次数的变化

2022年11月20日
机器学习, 数据可视化
阅读时间 1 分钟

决策树可视化

使用pydotplus和graphviz对决策树进行可视化。

2022年11月18日
机器学习
阅读时间 6 分钟

使用 sklearn 实现支持向量机分类算法

对银行客户流失数据进行特征筛选，构建 SVM 分类器，并与逻辑回归、决策树模型的分类效果进行对比。

2022年11月18日
机器学习
阅读时间 1 分钟

支持向量机软间隔最大化的对偶函数及其 KKT 条件

推导软间隔下的 SVM 的对偶函数及其 KKT 条件，得到最优分类超平面的参数求解公式。

2022年11月14日
机器学习, 深度学习
阅读时间 3 分钟

使用 Keras 绘制神经网络结构图

使用keras模块的plot_model绘制神经网络结构图，将神经网络可视化能够帮助理解模型是如何运行的。

2022年11月11日
机器学习, 深度学习
阅读时间 19 分钟

卷积神经网络 CNN 对 fer2013 数据集进行人脸表情识别

使用 Keras 构建卷积神经网络，对 Block 数量、卷积核大小、Dropout rate 进行参数调优，使用数据增强方法生成模型数据缓解过拟合问题。最优模型在测试集上的分类准确率、精确率和召回率均为 63%，比基准模型的分类效果提高了约 10%。

2022年11月8日
统计, 机器学习
阅读时间 8 分钟

基于 EM 算法的多元高斯混合模型聚类及其 Python 实现

基于 EM 算法，推导多元高斯混合模型聚类的参数迭代公式，并使用 Python 对数据集进行聚类和各类别的参数求解。

在编写代码的过程中，遇到了一个非常简单但一直没发现的 Bug。

定义数组用all_density = np.array([0]*K)，再用all_density[k] = k_density并不会让all_density的第k个元素改变。这是因为all_density是介于 0 到 1 之间的，而在定义all_density的时候没有指定数组内部的数据类型，默认是不支持小数的，因此赋值之后all_density的第k个元素仍然是 0。

解决方法：定义数组的时候一定要指定元素的数据类型，指定为dtype=flout64就可以存储高精度的浮点数。

result

2022年11月5日
机器学习
阅读时间 4 分钟

使用 sklearn 实现随机森林分类算法

基于随机森林分类算法，对客户流失进行分类预测，进行包外估计、特征重要性的展现和超参数调优。利用n_jobs多线程并行加速计算。

unnamed-chunk-9-1

2022年11月2日
机器学习
阅读时间 5 分钟

手写基于 ID3 算法的决策树模型

不借助现成的机器学习框架，使用 NumPy 实现基于 ID3 算法的决策树模型。

2022年10月30日
机器学习
阅读时间 4 分钟

使用 sklearn 实现决策树分类算法

基于 Information Value 对类别特征进行初步筛选，使用 sklearn 实现决策树分类算法，对客户流失情况进行分类预测，汇报 Accuracy、Presicion、Recall、F1、AUC 等评价指标。

unnamed-chunk-21-7

2022年10月15日
机器学习
阅读时间 5 分钟

牛顿法和拟牛顿 BFGS 法实现 Logistic 回归

推导二元 Logistic 回归的 Hessian 矩阵，利用牛顿法和拟牛顿 BFGS 法求回归系数的极大似然估计。所得模型在训练样本的预测准确度为 78%。

unnamed-chunk-7-1

2022年10月8日
机器学习, 量化研究
阅读时间 5 分钟

最小二乘法的矩阵形式推导

利用必要的矩阵求导法则，推导最小二乘法的矩阵形式。

\[ \begin{aligned} {\color{red}{\boldsymbol{\beta}}}&\color{red}{=(\boldsymbol{X}^{\top} \boldsymbol{X})^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}} \end{aligned} \]