DaNing
别再对类别变量独热编码 别再对类别变量独热编码
不要再对类别变量独热编码本文参考了Stop One-Hot Encoding Your Categorical Variables, 并对其内容在加以自身理解的情况下进行翻译. 独热编码对不同的类别变量就需要用到独热编码, 独热编码是将类别
2020-09-04
NLP相关知识 NLP相关知识
2020.08.24: 更新word2vec的部分内容. NLP相关知识整个流程: 分词 Tokenize -> 预处理 Preprocess -> 特征工程 Feature engine -> ML. 分词 Tok
2020-08-17
机器学习之XGBoost 机器学习之XGBoost
XGBoostXGBoost是Extreme Gradient Boosting的缩写, 作者是陈天奇大神. XGB因为其高准确率, 易于使用而在各类数据科学竞赛譬如Kaggle, 天池等十分流行. XGB与GBDT十分相似, 可以将XGB
2020-08-16
机器学习之随机森林 机器学习之随机森林
随机森林 Random Forest在集成学习中曾经提到过, Bagging + 决策树 = 随机森林. 这点很重要. Bagging(Bootstrap aggregating)并行训练多个同质弱学习器, 在取数据集时使用Boostra
2020-08-15
机器学习之K-means 机器学习之K-means
K-meansK-means是一种最为常用的硬聚类算法. 硬聚类指的是分出的样本必须只隶属于某一个类, 而不是给出隶属某几个类的概率. 流程对于给定的$k$类, 聚类所得的簇划分$C_k$, 以及样本$\boldsymbol{x}$,
2020-08-14
机器学习之支持向量机 机器学习之支持向量机
支持向量机SVM Support Vector MachineSVM是一个监督学习下运作的线性分类器. 但是由于核技巧的存在, 使得它本质上成为一个非线性分类器. 因为SVM涉及到很多关于凸优化的内容, 我自己本身不是很了解, 所以尽可能的
2020-08-12
机器学习之奇异值分解 机器学习之奇异值分解
奇异值分解SVD Singular Value DecompositionSVD(Singular Value Decomposition) 是一种基于原矩阵进行分解的特征分解手段. 主要是用小的多的数据来表示原始的数据集, 实质是对数据的
2020-08-10
机器学习之集成学习 机器学习之集成学习
集成学习 Ensemble LearningBoosting, Bagging, Stacking都是集成学习的方式, 都是考虑用多个弱学习器通过某种方式集合在一起, 形成一个泛化性能更强的强学习器. BoostingBoosting是一种
2020-08-09
机器学习之K邻近 机器学习之K邻近
K邻近KNN K-Nearest NeighborK邻近是一种非常简单的监督学习分类方法. KNN指的是每个样本都可以通过它最近的K个样本来代表. 比方说在下述图片中, 若K=3, 找到距离未知样本即绿色圆圈最近的3个样本, 在该范围内红色
2020-08-08
机器学习之决策树 机器学习之决策树
2020.09.08: 更新了剪枝. 决策树DT Desicion Tree决策树(Decision Tree) 是在已知各种情况发生概率的基础上, 通过构成决策树来求取净现值的期望值大于等于零的概率, 评价项目风险, 判断其可行性的决
2020-08-07
机器学习之朴素贝叶斯 机器学习之朴素贝叶斯
朴素贝叶斯NB Naive Bayes朴素贝叶斯有一个非常Naive的假设: 所有特征都是相互独立的, 因此所有特征总的条件概率总是每个特征条件概率的乘积. 这个算法的核心就在于贝叶斯公式. 条件概率条件概率是贝叶斯定理的铺垫. 指的是事件
2020-08-06
机器学习之逻辑回归与线性回归 机器学习之逻辑回归与线性回归
2020.08.22: 附加了后续的逻辑回归部分. 逻辑回归想要了解逻辑回归,必须了解线性回归. 线性回归 Logistcs Regression线性回归是监督学习中最简单的模型了, 它具有非常好的可解释性, 也有一种简洁的典雅美.
2020-08-05
1 / 2