聚类算法

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式时一个度量(Measurement)的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

算法类 算法名 中文名
聚类算法 Canopy Clustering Canopy聚类
K-Means Clustering K均值算法
Fuzzy K-Means 模糊K均值
Expectation Maxmization EM聚类(期望最大化聚类)
Mean Shift Clustering 均值漂移聚类
Hierarchical Clustering 层次聚类
Dirichlet Process clustering 狄利克雷过程聚类
Latent Dirichlet Allocation LDA聚类
Spectral clustering 谱聚类
阅读全文 »


学习《爱上统计学》,为了加深记忆,边读边做笔记。如有侵权,立即删除。

计算和理解平均数

描述统计(descriptive statistics)

描述统计常用于整理、描述所收集数据的特征。如描述大学最流行的的专业是什么。

推论统计(inferential statistics)

推论统计通常是(但并非总是)数据收集和汇总的下一步。推论统计常利用较小群体的数据来推论可能的较大群体的特征。

计算和理解平均数

平均数也叫做几种趋势量数(measures 偶发central tendency),一般有三种形式:均值、中位数和众数。参看Wiki百科

阅读全文 »


本文转载自《Spring 3.x企业应用开发实战》作者:陈雄华 ,出版社:电子工业出版社出版,版权归期所有。

在实际应用中,一般不会直接在数据库中以明文的方式保存用户的密码,因为这样很容易造成密码泄密问题。所以需要将密码加密后以密文的方式进行保存;另外一种更有效的办法是仅保存密码的MD5摘要,由于相等的两字符串摘要值也相等,在登录验证时,通过比较摘要的方式就可以判断用户所输入的密码是否正确。由于不能通过密码摘要反推出原来的密码,即使内部人员可以查看用户信息也无法知道用户的密码。所以,摘要存储方式已经成为大部分系统密码存储的通用方式。此外,为了防止黑客通过工具进行密码的暴力破解,目前大多数Web应用都使用了图片验证码功能,验证码具有一次性消费的特征,每次登录都不相同,这样工具暴力破解就无用武之地了。


最近打算做一个图书管理系统,其中图书的详细信息通过爬虫程序爬取云图网站上所有图书的详细信息,有效避免了手动输入,节约了大量的时间。因为Python也是现学现用,程序还存在很多问题,但是目前的主要目的不是写爬虫,等后续有时间了,再来深入学习下Python,并完善我的爬虫程序。

爬取到的信息包括了每本书的:标题、作者、出版社、出版年、ISBN、简介、目录和图书缩略图。并且将这些信息保存在MySQL数据库中,如果有感兴趣的小伙伴可以留言给我哦。

为什么选择爬取云图网站呢?主要是因为我学艺不精(゚ー゚),而这个网站很好爬……好了,话不多说,让我们开始吧!

阅读全文 »


总结一下git的常用命令,方便复习。

创建版本库

1
2
3
4
5
6
7
8
9
10
11
# 创建仓库
git init

# 将文件添加到仓库
git add readme.txt

# 将文件提交到仓库
git commit -m "wrote a readme file"

# 查看仓库状态
git status
阅读全文 »
0%