机器学习概念及算法类型

mark

机器学习

机器学习是什么?Arthur Samuel在1959年将机器学习定义为在特定编程的情况下,给予计算机学习能力的领域。他编写了一个西洋棋程序让计算机自己不断下棋进而进行学习,最后棋艺大涨,远远超过了Samuel自己的水平。 来自卡内基梅隆大学的Tom Mitchell在1998年将机器学习定义为:一个程序被认为能够从经验E中学习,解决了任务T,达到性能度量值P,当且仅当有了经验E后经过P评判,程序在处理T时的性能有所提升。E也就是计算机自己不断学习,学会了如何解决问题T,并且达到了一定的成功率P。

目前存在几种不同类型的学习算法,主要的两种类型为监督学习(Supervised learning)以及无监督学习(Unsuoervised learning)。

监督学习

监督学习又叫回归问题,意指要预测一个连续值的输出,也可以用于分类问题预测,在监督学习中,数据集中的每个例子,算法将预测得到例子的“正确答案”,比如预测房价、肿瘤类型等。监督学习实际运用中我们需合理判断出我们要解决的问题是回归问题还是分类问题。

无监督学习

监督学习中的数据集我们知道每一个数据代表的意思,比如房子多大对应房价多少,肿瘤多大对应是恶性肿瘤。但是在无监督学习中只有数据集,我们对这个数据集完全不了解,数据集中的数据没有属性或标签这一概念。也就是说数据集中的数据都是一样的没有区别。 mark

比如上图中我们看到所有的数据都是一样的,没有属性与标签的区别,计算机通过无监督学习可能会将数据分成两类,也就是聚类。

联系方式:

wechat: yt056410 Email: tyan@zju.edu.cn QQ: 1051927088 GitHub: https://github.com/YTLogos JianShu: http://www.jianshu.com/u/bd001545cf0b Blog: https://ytlogos.github.io/

个人简介:

严涛 浙江大学作物遗传育种在读研究生(生物信息学方向) 伪码农,R语言爱好者,爱开源

Researcher

I am a PhD student of Crop Genetics and Breeding at the Zhejiang University Crop Science Lab. My research interests covers a range of issues:Population Genetics Evolution and Ecotype Divergence Analysis of Oilseed Rape, Genome-wide Association Study (GWAS) of Agronomic Traits.

comments powered by Disqus