Mahout 算法库

发表于 2017-02-28 更新于 2018-06-08 分类于技术阅读次数：本文字数： 453 阅读时长 ≈ 2 分钟

聚类算法

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式时一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

算法类	算法名	中文名
聚类算法	Canopy Clustering	Canopy聚类
	K-Means Clustering	K均值算法
	Fuzzy K-Means	模糊K均值
	Expectation Maxmization	EM聚类（期望最大化聚类）
	Mean Shift Clustering	均值漂移聚类
	Hierarchical Clustering	层次聚类
	Dirichlet Process clustering	狄利克雷过程聚类
	Latent Dirichlet Allocation	LDA聚类
	Spectral clustering	谱聚类

分类算法

分类（Categorization or Classification）就是按照某种标准给对象贴标签（label），再根据标签来区分归类。分类是事先定义好类别，类别数不变。

算法类	算法名	中文名
分类算法	Logistic Regression	逻辑回归
	Bayesian	贝叶斯
	Support Vector Machines	支持向量机
	Perceptron and Winnow	感知器算法
	Neural Network	神经网络
	Random Forests	随机森林
	Restricted Boltzmann Machines	有限玻尔兹曼机

协同过滤

协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。