Mahout 算法库


聚类算法

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式时一个度量(Measurement)的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

算法类 算法名 中文名
聚类算法 Canopy Clustering Canopy聚类
K-Means Clustering K均值算法
Fuzzy K-Means 模糊K均值
Expectation Maxmization EM聚类(期望最大化聚类)
Mean Shift Clustering 均值漂移聚类
Hierarchical Clustering 层次聚类
Dirichlet Process clustering 狄利克雷过程聚类
Latent Dirichlet Allocation LDA聚类
Spectral clustering 谱聚类

分类算法

分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
分类是事先定义好类别,类别数不变。

算法类 算法名 中文名
分类算法 Logistic Regression 逻辑回归
Bayesian 贝叶斯
Support Vector Machines 支持向量机
Perceptron and Winnow 感知器算法
Neural Network 神经网络
Random Forests 随机森林
Restricted Boltzmann Machines 有限玻尔兹曼机

协同过滤

协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。