Mahout 算法库
聚类算法
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式时一个度量(Measurement)的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
算法类 | 算法名 | 中文名 |
---|---|---|
聚类算法 | Canopy Clustering | Canopy聚类 |
K-Means Clustering | K均值算法 | |
Fuzzy K-Means | 模糊K均值 | |
Expectation Maxmization | EM聚类(期望最大化聚类) | |
Mean Shift Clustering | 均值漂移聚类 | |
Hierarchical Clustering | 层次聚类 | |
Dirichlet Process clustering | 狄利克雷过程聚类 | |
Latent Dirichlet Allocation | LDA聚类 | |
Spectral clustering | 谱聚类 |
分类算法
分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
分类是事先定义好类别,类别数不变。
算法类 | 算法名 | 中文名 |
---|---|---|
分类算法 | Logistic Regression | 逻辑回归 |
Bayesian | 贝叶斯 | |
Support Vector Machines | 支持向量机 | |
Perceptron and Winnow | 感知器算法 | |
Neural Network | 神经网络 | |
Random Forests | 随机森林 | |
Restricted Boltzmann Machines | 有限玻尔兹曼机 |
协同过滤
协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。