[Book] ML Practice At MeiTuan

2018-12-04

Introduction本文主要记录一下最近在看的一本书《美团机器学习实践》，这本书和我们所熟知的PRML/MLAPP/DL Book等不同的是，它非常偏实践，而非理论，所以可作为参考书使用。一千个读者会产生一千个哈姆雷特，对这本书的评价也看读者自己吧，个人给3.5/5 $\star$，模型层面上可能没有太大的新意，但是结合了美团的具体业务场景，所以还是推荐阅读。问题建模评估指标分类指标$$Precision=\frac{TP}{TP+FP}$$ $$Recall=\frac{TP}{T...

[DL] Batch Normalization

2018-11-20

IntroductionBatch Normalization是现如今主流深度学习模型必备组件。笔者认为，这是一个和ResNet里提出的skip connection一样对深度学习发展十分insightful的idea。本文旨在对BatchNorm进行一下系统的梳理与讲解。 Paper: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 训练Deep ...

[CV] Face Anti-Spoofing

2018-10-30

IntroductionFace Anti-spoofing，即人脸活体检测，随着iPhoneX FaceID的应用，人脸解锁得到了越来越多的关注，而anti-spoofing无疑是整个人脸解锁环节中非常重要的一环。试想一下，如果连真假脸都区分不出，那安全性无疑是会大打折扣。Face Anti-spoofing在近些年的顶会上也有相关的文献发表。但和众多research benchmark存在的问题一样，目前得dataset capacity太小了，往往很多时候各种model都是在相关数据...

[DL] Auto Encoder

2018-08-22

IntroductionAuto Encoder是深度学习里一个用途非常广的无监督学习模型，常常用来降维或者特征学习(例如我在豆瓣评论情感挖掘这个repository里就使用了Deep AutoEncoder来学习300维word2vec里更discriminative的特征表达)。近年来随着GAN的火热，AutoEncoder也常常站在了generative model的前沿。 Undercomplete AutoEncoder从AutoEncoder里获得有用特征的一种方法是限制$h$...

[DIP] Image Feature

2018-08-22

IntroductionComputer Vision已进入Deep Learning时代，但传统图像特征提取方法依然在很多方向有着不少的应用。毕竟DNN计算复杂度太高，且过于依赖Large Scale Labeled Dataset，所以Deep Learning也并非万能的。本文就传统图像特征提取算子做一下简单的归纳。本文内容主要来源于TPAMI的一篇文章《TPAMI-A_performance_evaluation_of_local_descriptors》，详情请阅读原文！ ...

[ML] Dimension Reduction and Metric Learning

2018-08-20

Low-Dimension Embedding在高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有ML算法共同面临的严重障碍，被称为curse of dimensionality。 Why dimension reduction works?在很多时候，人们观测或收集到的数据样本虽是高维的，但与学习任务密切相关的也许仅仅是某个低维分布，即高维空间中的一个低维Embedding。 Multiple Dimensional ScalingMDS算法的目标是获得样本在$d^{‘}$维空间的...

[ML] Feature Engineering in Machine Learning

2018-08-20

IntroductionFeature Engineering 是 Machine Learning 中一个非常非常重要的部分，尤其是工业界。很多时候，为了追求模型的可解释性，效率，我们会更加的倾向于选择合适的特征 + 较为简单的模型，而不会像research那样使用非常复杂的模型来刷分。因此本文主要对ML中常用的特征工程方法做一个简单的介绍。 Numerical FeaturesScaleExamples include k-means clustering, nearest neigh...

[Book] Storytelling With Data

2018-08-11

Introduction数据可视化(Data Visualization)是Data Science领域一个非常非常核心的内容，很多时候，我们往往会花很多力气去建模分析数据，然而最终给你的老板汇报，或者是编写分析报告的时候，通常会以图形化的方式展现。这个时候，若你能够利用数据讲故事，那么你的汇报就会十分精彩。本文内容来自一本我个人非常喜欢的书，作者是Google工作多年、数据可视化领域的专家。若你也对数据可视化感兴趣，欢迎去阅读原著：《Storytelling With Data》。 ...

[Algorithm] Sort

2018-08-02

初级排序算法选择排序首先找到数组中最小的那个元素，其次，将它和数组中的第一个元素交换位置（如果第一个元素就是最小元素就和自己交换）。再次，在剩下的元素中找到最小的元素，将它与数组中第二个元素交换位置。如此往复，直至将整个数组排序。这叫做选择排序，因为它总是在不断选择剩余元素中最小的元素。对于长度为$N$的数组，选择排序需要大约$N^2/2$次比较与$N$次交换。 1234567891011121314151617public int[] selectSort (int[] inpu...

[ML] Clustering

2018-07-30

Performance Metric聚类的性能度量大致有两类。一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”；另一类是直接考查聚类结果而不利用任何参考模型，称为“内部指标”。对数据集$D=\{x_1,x_2,\cdots,x_m\}$，假定通过聚类给出的簇划分为$\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$，参考模型给出的簇划分为$\mathcal{C}^{\star}=\{C^{\star}_1,C^{\star}_2,\cdots,C^{\st...

LucasXU

To share something about ML/CV/Data Science

LucasXU

[Book] ML Practice At MeiTuan

[DL] Batch Normalization

[CV] Face Anti-Spoofing

[DL] Auto Encoder

[DIP] Image Feature

[ML] Dimension Reduction and Metric Learning

[ML] Feature Engineering in Machine Learning

[Book] Storytelling With Data

[Algorithm] Sort

[ML] Clustering