由于论文需要,需要学习一下机器学习相关的知识,本文主要作为抛砖引玉,介绍机器学习的一些基础概念。

概念学习

概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数,可以表示为:X->Y/C(x)。

X:实例集,概念就是基于这个实例集的。
x:具体的实例。
C(x):待学习的目标概念/函数。

###训练集和测试集
训练集:用来进行训练,产生模型/算法的数据集。

测试集:用来测试已经学习好的模型或算法。

特征向量和标记

特征向量:属性的集合,通常用一个向量表示,附属于一个实例(x)。

标记:C(x),实例类别的标记。

正例和反例

正例:目标概念的成员。

反例:非目标概念的成员。

分类和回归

分类和回归在机器学习中是很重要的两个领域,暂且先做如下简单的解释,不做深入的探讨。

分类

分类(classification)的目标标记(label)为类别性数据(离散型)。

回归

回归(regression)的目标标记(label)为连续性数值。

##有监督、无监督和半监督学习
机器学习主要分为三类:有监督学习、无监督学习和半监督学习。

有监督学习

训练集有类别标记(即数据中包含分类的结果)。计算机进行学习之后,在丢给它新的数据,它能够算出结果。可以理解为“在类别标记的监督下进行学习”。

主要包括:分类和回归。

无监督学习

训练集无类别标记。单纯凭借计算机强大的计算能力分析数据的特征,得出结果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。可以理解为“没有在类别标记的监督下进行学习”。

主要包括:聚类。

半监督学习

训练集一部分有类别标记,一部分没有类别标记。无类别标记的数据量往往远远大于有有标记的数据。
可以通过一些有类别标记的数据局部特征,和没类别标记数据的整体分布,得到可以接受甚至是非常好的分类结果。

主要包括:分类、回归、聚类和降维。

机器学习一般步骤

这里不做详细的阐述,只列举一般的机器学习的步骤:

1.问题定义

通过观察类别确定究竟是分类还是回归问题。

2.样本划分

将数据划分为训练集和测试集。

3.训练算法

用训练集和训练集的特征向量训练算法。

4.评估算法

用学习来的算法用在测试集。其中,涉及调参和优化(调参还涉及到验证集)这里不做赘述。

本文主要起到一个抛砖引玉,为后面的学习,梳理一些基本的概念,本文完。