[CV] Face Anti-Spoofing

IntroductionFace Anti-spoofing,即人脸活体检测,随着iPhoneX FaceID的应用,人脸解锁得到了越来越多的关注,而anti-spoofing无疑是整个人脸解锁环节中非常重要的一环。试想一下,如果连真假脸都区分不出,那安全性无疑是会大打折扣。Face Anti-spoofing在近些年的顶会上也有相关的文献发表。但和众多research benchmark存在的问题一样,目前得dataset capacity太小了,往往很多时候各种model都是在相关数据...

Read More

[DL] Auto Encoder

IntroductionAuto Encoder是深度学习里一个用途非常广的无监督学习模型,常常用来降维或者特征学习(例如我在豆瓣评论情感挖掘这个repository里就使用了Deep AutoEncoder来学习300维word2vec里更discriminative的特征表达)。近年来随着GAN的火热,AutoEncoder也常常站在了generative model的前沿。 Undercomplete AutoEncoder从AutoEncoder里获得有用特征的一种方法是限制$h$...

Read More

[DIP] Image Feature

IntroductionComputer Vision已进入Deep Learning时代,但传统图像特征提取方法依然在很多方向有着不少的应用。毕竟DNN计算复杂度太高,且过于依赖Large Scale Labeled Dataset,所以Deep Learning也并非万能的。本文就传统图像特征提取算子做一下简单的归纳。 本文内容主要来源于TPAMI的一篇文章《TPAMI-A_performance_evaluation_of_local_descriptors》,详情请阅读原文! ...

Read More

[ML] Dimension Reduction and Metric Learning

Low-Dimension Embedding在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有ML算法共同面临的严重障碍,被称为curse of dimensionality。 Why dimension reduction works?在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维Embedding。 Multiple Dimensional ScalingMDS算法的目标是获得样本在$d^{‘}$维空间的...

Read More

[ML] Feature Engineering in Machine Learning

IntroductionFeature Engineering 是 Machine Learning 中一个非常非常重要的部分,尤其是工业界。很多时候,为了追求模型的可解释性,效率,我们会更加的倾向于选择合适的特征 + 较为简单的模型,而不会像research那样使用非常复杂的模型来刷分。因此本文主要对ML中常用的特征工程方法做一个简单的介绍。 Numerical FeaturesScaleExamples include k-means clustering, nearest neigh...

Read More

[Book] Storytelling With Data

Introduction数据可视化(Data Visualization)是Data Science领域一个非常非常核心的内容,很多时候,我们往往会花很多力气去建模分析数据,然而最终给你的老板汇报,或者是编写分析报告的时候,通常会以图形化的方式展现。这个时候,若你能够 利用数据讲故事 ,那么你的汇报就会十分精彩。本文内容来自一本我个人非常喜欢的书,作者是Google工作多年、数据可视化领域的专家。若你也对数据可视化感兴趣,欢迎去阅读原著:《Storytelling With Data》。 ...

Read More

[Algorithm] Sort

初级排序算法选择排序首先找到数组中最小的那个元素,其次,将它和数组中的第一个元素交换位置(如果第一个元素就是最小元素就和自己交换)。再次,在剩下的元素中找到最小的元素,将它与数组中第二个元素交换位置。如此往复,直至将整个数组排序。这叫做 选择排序,因为它总是在不断选择剩余元素中最小的元素。 对于长度为$N$的数组,选择排序需要大约$N^2/2$次比较与$N$次交换。 1234567891011121314151617public int[] selectSort (int[] inpu...

Read More

[ML] Clustering

Performance Metric聚类的性能度量大致有两类。一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考查聚类结果而不利用任何参考模型,称为“内部指标”。 对数据集$D=\{x_1,x_2,\cdots,x_m\}$,假定通过聚类给出的簇划分为$\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$,参考模型给出的簇划分为$\mathcal{C}^{\star}=\{C^{\star}_1,C^{\star}_2,\cdots,C^{\st...

Read More

[DL] BackPropogation

Introduction反向传播是神经网络训练过程中非常重要的步骤。目前许多深度学习框架以(例如Tensorflow)已在定义的computational graph中自行帮开发者完成了反向传播算法的计算。但是作为深度学习领域的研究人员,还是应该了解该算法的本质。本文就对该算法进行深入讲解(素材来自Stanford CS231n Spring,2017):一个简单的computational graph $f(x, y, z)=(x + y)z$ (e.g. $x = -2$, $y = ...

Read More

[ML] Ensemble Learning

IntroductionEnsemble Learning是ML中一个非常热门的领域,也是很多比赛Top方案的必选。本文对常见的Ensemble Learning做一个简要介绍。 根据Base Learner的生成方式,目前的Ensemble Learning方法大致可以分为两大类:即base learner之间存在强依赖关系、必须串行生成的序列化方法,以及base learner间不存在强依赖关系、可同时生成的并行化方法;前者的代表是Boosting,后者的代表是Bagging和Rand...

Read More


Powered by Hexo and Hexo-theme-hiker

Copyright © 2018 - 2023 LucasX All Rights Reserved.

UV : | PV :