a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

机器学习新技术如何助力大数据创新应用

随着数据存储成本下降、分布式处理、更强大的计算机和出现的分析机会,人们对于机器学习系统的兴趣愈加强烈,本文主要介绍了机器学习新技术如何助力大数据的创新应用。
资讯频道文章B

  机器学习的概念有几十年,已经在金融风险控制、患者症状识别及治疗建议、识别恐怖分子等领域得到应用,目前最新进展即是用于大数据分析,随着数据存储成本下降、分布式处理、更强大的计算机和出现的分析机会,人们对于机器学习系统的兴趣愈加强烈。本文主要介绍了机器学习新技术如何助力大数据的创新应用。

数据科学、机器学习和统计

  随着企业收集大数据,他们开始采用数据科学从中提取知识和重要含义。数据科学是在许多学科技术和理论基础上建立形成的,包括统计、数据挖掘、机器学习、人工智能等。 数据科学跨学科性质意味着团队成员需要掌握各种学科的专业知识。

  在数据科学领域中,机器学习是人工智能的一个分支,重点实现计算机工作不用明确编程。这个概念是利用交互式数据学习算法自动构建分析模型。通过选择更好的模型不断改进结果,减少人工干预。然后,利用这些模型做出可靠、可重复的决定。

  SAS数据科学部经理Thompson指出:“机器学习以构建和研究系统为重点,通过数据学习优化性能函数,如优化预期回报或减少损失函数。目的是更快地获得数据资源的深入洞察,更加精确地提取数据中的知识,提高利润并降低风险。”

  统计和机器学习在很大程度上存在重叠。这两个学科均着重于研究数据概括(或预测)。“统计和机器学习之间的最大区别是,”Thompson说,“统计更侧重于推理分析或假设检验,从而对规模远大于样本的数据全体进行预测。统计还研究参数估计、错误率、分布假设等,了解具有随机成分的经验数据。

  Thompson补充道:“机器学习使用海量观测数据,作为人工智能的一个分支,专注于自动化。[它侧重于]算法,如随机森林或梯度上升,自动处理缺失值、发现相互作用关系等。”

  机器学习的核心概念是算法通过每次迭代,从数据中学习。Thompson说,“要衡量是否改进性能,可以看目标函数,如减少损失函数。算法通过数据迭代,直至符合收敛准则。通常可以用保留数据验证是否过度拟合。”

机器学习的算法类型

  机器学习算法有四种不同类型,可根据所需算法的结果或训练机器输入的变量类型进行分类。Thompson指出,“机器学习中使用的术语不同于统计。例如,机器学习中目标称为标签,而在统计中,称为因变量。”四种机器学习类型包 监督学习、无监督学习、半监督学习及增强学习。

  1.监督学习

  “大多数机器学习是监督学习–约占70%,” Thompson说。监督学习算法采用已知预期结果的标记样本进行“训练”。监督学习通常用于利用历史数据预测未来可能出现事件的应用。

  例如,它可以预测哪些信用卡交易很可能欺诈,哪个保险客户可能提出索赔。发生欺诈的情况下,您已经知道客户欺诈,不属于训练数据。学习算法接收一组输入以及相应的正确输出,算法学习过程中比较正确输出与实际输出,因此可以找出错误并相应修改模型。输入在机器学习称为特征。发生欺诈的情况下,样本特征可以是帐户余额、每日交易金额等。通过分类、回归、预测和梯度上升等方法,监督学习利用输入预测标签值。这种模型适用于称为评分的新场景,无论交易是否欺诈。

  2.无监督学习

  约10%至20%的机器学习是无监督学习,虽然这方面正在迅速增长。无监督学习是一种系统采用未标记样本运算的机器学习。这种情况下,系统不告诉“正确答案”。算法找出未标记数据中的隐藏结构或流形结构。与监督学习和强化学习相比,学习器的给定样本没有明确目标输出,或每个输入相关的回报信号。

  Thompson指出:“无监督学习的目标是探索数据,采用聚类或降维等方法发现其中的内在结构。[无监督学习] 特别适合用于交易型数据。”

  内在结构和无监督学习相关方法依数据性质而不同。例如,欧几里得空间中的数据可按概率、密度进行结构建模,并可采用k均值聚类、高斯混合模型和主成分分析 (PCA) 等方法降维;而一般拓扑空间中的数据只是局部欧几里德,其结构最好按非线性流形建模,可通过 ISOMAP、局部线性嵌入 (LLE)、拉普拉斯特征映射、核PCA和其他方法实现降维。此外,矩阵分解、主题模型和图形是文本、图像和社交媒体数据无监督学习流行的结构模型。

  3.半监督学习

  半监督学习用于监督学习相同的应用。但这种技术使用标记和未标记数据进行训练–通常标记数据数量小,未标记数据数量大。

  这种学习与分类、回归和预测等方法结合使用。当标记数据成本过高,无法全部采用标记数据进行训练,而获取未标记数据相对廉价的情况下,适合采用半监督学习。

  半监督学习至少有两种不同方式的解释。第一种解释,使用未标记数据通知计算机算法监督学习相关的结构化数据信息,这被认为是主要目的。这种观点认为,当标签不足时,无标记数据提供辅助信息有助于强化监督学习。第二种解释,主要目的是将无监督学习(例如聚类),以及标签视为辅助信息 (聚类情况下的聚类指标),帮助算法找到正确的内在数据结构。这种情况下,当内在数据结构不是很清楚,对常规无监督学习方法构成挑战时,标签特别有用。

  这方面早期例子包括图像分析 –如摄像头人脸识别–文本分析和

  疾病检测。

  4.增强学习

  采用增强学习,算法通过试验和错误发现产生最大回报的动作。增强学习三个主要组成部分:代理(学习者或决策者)、环境(代理交互的所有系统)、动作(代理可以做的动作)。

  Thompson指出:“目的是支持代理选择给定时间周期内实现最大预期回报的动作。代理遵守良好策略可以更快地实现目标,因此增强学习的目的是学习最佳策略。”增强学习通用于机器人和导航。

  增强学习与最优控制、统计及运筹学具有紧密联系。马尔可夫决策过程 (MDP) 是增强学习常用模型。MDP假设代理观测的是理想环境状态。如果不是这样,可以使用一种叫做部分观测马尔可夫决策过程 (或POMDP) 更普通的模型,查找解决状态不确定性、同时最大化长期回报的策略。

  

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s是国际知名展览公司——德国法兰克福展览集团旗下专业的自动化&安全生态服务平台,为智慧安防、智慧生活、智能交通、智能建筑、IT通讯&网络等从业者提供市场分析、技术资讯、方案评估、行业预测等,为读者搭建专业的行业交流平台。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈