Introduction本文主要记录一下最近在看的一本书《美团机器学习实践》,这本书和我们所熟知的PRML/MLAPP/DL Book等不同的是,它非常偏实践,而非理论,所以可作为参考书使用。一千个读者会产生一千个哈姆雷特,对这本书的评价也看读者自己吧,个人给3.5/5 $\star$,模型层面上可能没有太大的新意,但是结合了美团的具体业务场景,所以还是推荐阅读。 问题建模评估指标分类指标$$Precision=\frac{TP}{TP+FP}$$ $$Recall=\frac{TP}{T...
[DL] Batch Normalization
IntroductionBatch Normalization是现如今主流深度学习模型必备组件。笔者认为,这是一个和ResNet里提出的skip connection一样对深度学习发展十分insightful的idea。本文旨在对BatchNorm进行一下系统的梳理与讲解。 Paper: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 训练Deep ...
[CV] Face Anti-Spoofing
IntroductionFace Anti-spoofing,即人脸活体检测,随着iPhoneX FaceID的应用,人脸解锁得到了越来越多的关注,而anti-spoofing无疑是整个人脸解锁环节中非常重要的一环。试想一下,如果连真假脸都区分不出,那安全性无疑是会大打折扣。Face Anti-spoofing在近些年的顶会上也有相关的文献发表。但和众多research benchmark存在的问题一样,目前得dataset capacity太小了,往往很多时候各种model都是在相关数据...
[DL] Auto Encoder
IntroductionAuto Encoder是深度学习里一个用途非常广的无监督学习模型,常常用来降维或者特征学习(例如我在豆瓣评论情感挖掘这个repository里就使用了Deep AutoEncoder来学习300维word2vec里更discriminative的特征表达)。近年来随着GAN的火热,AutoEncoder也常常站在了generative model的前沿。 Undercomplete AutoEncoder从AutoEncoder里获得有用特征的一种方法是限制$h$...
[DIP] Image Feature
IntroductionComputer Vision已进入Deep Learning时代,但传统图像特征提取方法依然在很多方向有着不少的应用。毕竟DNN计算复杂度太高,且过于依赖Large Scale Labeled Dataset,所以Deep Learning也并非万能的。本文就传统图像特征提取算子做一下简单的归纳。 本文内容主要来源于TPAMI的一篇文章《TPAMI-A_performance_evaluation_of_local_descriptors》,详情请阅读原文! ...
[ML] Dimension Reduction and Metric Learning
Low-Dimension Embedding在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有ML算法共同面临的严重障碍,被称为curse of dimensionality。 Why dimension reduction works?在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维Embedding。 Multiple Dimensional ScalingMDS算法的目标是获得样本在$d^{‘}$维空间的...
[ML] Feature Engineering in Machine Learning
IntroductionFeature Engineering 是 Machine Learning 中一个非常非常重要的部分,尤其是工业界。很多时候,为了追求模型的可解释性,效率,我们会更加的倾向于选择合适的特征 + 较为简单的模型,而不会像research那样使用非常复杂的模型来刷分。因此本文主要对ML中常用的特征工程方法做一个简单的介绍。 Numerical FeaturesScaleExamples include k-means clustering, nearest neigh...
[Book] Storytelling With Data
Introduction数据可视化(Data Visualization)是Data Science领域一个非常非常核心的内容,很多时候,我们往往会花很多力气去建模分析数据,然而最终给你的老板汇报,或者是编写分析报告的时候,通常会以图形化的方式展现。这个时候,若你能够 利用数据讲故事 ,那么你的汇报就会十分精彩。本文内容来自一本我个人非常喜欢的书,作者是Google工作多年、数据可视化领域的专家。若你也对数据可视化感兴趣,欢迎去阅读原著:《Storytelling With Data》。 ...
[Algorithm] Sort
初级排序算法选择排序首先找到数组中最小的那个元素,其次,将它和数组中的第一个元素交换位置(如果第一个元素就是最小元素就和自己交换)。再次,在剩下的元素中找到最小的元素,将它与数组中第二个元素交换位置。如此往复,直至将整个数组排序。这叫做 选择排序,因为它总是在不断选择剩余元素中最小的元素。 对于长度为$N$的数组,选择排序需要大约$N^2/2$次比较与$N$次交换。 1234567891011121314151617public int[] selectSort (int[] inpu...
[ML] Clustering
Performance Metric聚类的性能度量大致有两类。一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考查聚类结果而不利用任何参考模型,称为“内部指标”。 对数据集$D=\{x_1,x_2,\cdots,x_m\}$,假定通过聚类给出的簇划分为$\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$,参考模型给出的簇划分为$\mathcal{C}^{\star}=\{C^{\star}_1,C^{\star}_2,\cdots,C^{\st...