机器学习新技术如何助力大数据创新应用 - 安防知识网

随着数据存储成本下降、分布式处理、更强大的计算机和出现的分析机会，人们对于机器学习系统的兴趣愈加强烈，本文主要介绍了机器学习新技术如何助力大数据的创新应用。

　　机器学习的概念有几十年，已经在金融风险控制、患者症状识别及治疗建议、识别恐怖分子等领域得到应用，目前最新进展即是用于大数据分析，随着数据存储成本下降、分布式处理、更强大的计算机和出现的分析机会，人们对于机器学习系统的兴趣愈加强烈。本文主要介绍了机器学习新技术如何助力大数据的创新应用。

数据科学、机器学习和统计

　　随着企业收集大数据，他们开始采用数据科学从中提取知识和重要含义。数据科学是在许多学科技术和理论基础上建立形成的，包括统计、数据挖掘、机器学习、人工智能等。数据科学跨学科性质意味着团队成员需要掌握各种学科的专业知识。

　　在数据科学领域中，机器学习是人工智能的一个分支，重点实现计算机工作不用明确编程。这个概念是利用交互式数据学习算法自动构建分析模型。通过选择更好的模型不断改进结果，减少人工干预。然后，利用这些模型做出可靠、可重复的决定。

　　SAS数据科学部经理Thompson指出：“机器学习以构建和研究系统为重点，通过数据学习优化性能函数，如优化预期回报或减少损失函数。目的是更快地获得数据资源的深入洞察，更加精确地提取数据中的知识，提高利润并降低风险。”

　　统计和机器学习在很大程度上存在重叠。这两个学科均着重于研究数据概括(或预测)。“统计和机器学习之间的最大区别是，”Thompson说，“统计更侧重于推理分析或假设检验，从而对规模远大于样本的数据全体进行预测。统计还研究参数估计、错误率、分布假设等，了解具有随机成分的经验数据。

　　Thompson补充道：“机器学习使用海量观测数据，作为人工智能的一个分支，专注于自动化。[它侧重于]算法，如随机森林或梯度上升，自动处理缺失值、发现相互作用关系等。”

　　机器学习的核心概念是算法通过每次迭代，从数据中学习。Thompson说，“要衡量是否改进性能，可以看目标函数，如减少损失函数。算法通过数据迭代，直至符合收敛准则。通常可以用保留数据验证是否过度拟合。”

机器学习的算法类型

　　机器学习算法有四种不同类型，可根据所需算法的结果或训练机器输入的变量类型进行分类。Thompson指出，“机器学习中使用的术语不同于统计。例如，机器学习中目标称为标签，而在统计中，称为因变量。”四种机器学习类型包监督学习、无监督学习、半监督学习及增强学习。

　　1.监督学习

　　“大多数机器学习是监督学习–约占70%，” Thompson说。监督学习算法采用已知预期结果的标记样本进行“训练”。监督学习通常用于利用历史数据预测未来可能出现事件的应用。

　　例如，它可以预测哪些信用卡交易很可能欺诈，哪个保险客户可能提出索赔。发生欺诈的情况下，您已经知道客户欺诈，不属于训练数据。学习算法接收一组输入以及相应的正确输出，算法学习过程中比较正确输出与实际输出，因此可以找出错误并相应修改模型。输入在机器学习称为特征。发生欺诈的情况下，样本特征可以是帐户余额、每日交易金额等。通过分类、回归、预测和梯度上升等方法，监督学习利用输入预测标签值。这种模型适用于称为评分的新场景，无论交易是否欺诈。

　　2.无监督学习

　　约10%至20%的机器学习是无监督学习，虽然这方面正在迅速增长。无监督学习是一种系统采用未标记样本运算的机器学习。这种情况下，系统不告诉“正确答案”。算法找出未标记数据中的隐藏结构或流形结构。与监督学习和强化学习相比，学习器的给定样本没有明确目标输出，或每个输入相关的回报信号。

　　Thompson指出：“无监督学习的目标是探索数据，采用聚类或降维等方法发现其中的内在结构。[无监督学习] 特别适合用于交易型数据。”

　　内在结构和无监督学习相关方法依数据性质而不同。例如，欧几里得空间中的数据可按概率、密度进行结构建模，并可采用k均值聚类、高斯混合模型和主成分分析 (PCA) 等方法降维;而一般拓扑空间中的数据只是局部欧几里德，其结构最好按非线性流形建模，可通过 ISOMAP、局部线性嵌入 (LLE)、拉普拉斯特征映射、核PCA和其他方法实现降维。此外，矩阵分解、主题模型和图形是文本、图像和社交媒体数据无监督学习流行的结构模型。

　　3.半监督学习

　　半监督学习用于监督学习相同的应用。但这种技术使用标记和未标记数据进行训练–通常标记数据数量小，未标记数据数量大。

　　这种学习与分类、回归和预测等方法结合使用。当标记数据成本过高，无法全部采用标记数据进行训练，而获取未标记数据相对廉价的情况下，适合采用半监督学习。

　　半监督学习至少有两种不同方式的解释。第一种解释，使用未标记数据通知计算机算法监督学习相关的结构化数据信息，这被认为是主要目的。这种观点认为，当标签不足时，无标记数据提供辅助信息有助于强化监督学习。第二种解释，主要目的是将无监督学习(例如聚类)，以及标签视为辅助信息 (聚类情况下的聚类指标)，帮助算法找到正确的内在数据结构。这种情况下，当内在数据结构不是很清楚，对常规无监督学习方法构成挑战时，标签特别有用。

　　这方面早期例子包括图像分析 –如摄像头人脸识别–文本分析和

　　疾病检测。

　　4.增强学习

　　采用增强学习，算法通过试验和错误发现产生最大回报的动作。增强学习三个主要组成部分：代理(学习者或决策者)、环境（代理交互的所有系统）、动作（代理可以做的动作）。

　　Thompson指出：“目的是支持代理选择给定时间周期内实现最大预期回报的动作。代理遵守良好策略可以更快地实现目标，因此增强学习的目的是学习最佳策略。”增强学习通用于机器人和导航。

　　增强学习与最优控制、统计及运筹学具有紧密联系。马尔可夫决策过程 (MDP) 是增强学习常用模型。MDP假设代理观测的是理想环境状态。如果不是这样，可以使用一种叫做部分观测马尔可夫决策过程 (或POMDP) 更普通的模型，查找解决状态不确定性、同时最大化长期回报的策略。