别陷入机器学习的这9个误区

机器学习已经被证明是很有用的,但也容易被假设可以解决所有问题、适用于所有情况。

至顶网CIO与应用频道 03月24日 北京消息:机器学习已经被证明是很有用的,但也容易被假设可以解决所有问题、适用于所有情况。和其他工具一样,机器学习在特定领域很有用处,特别是那些你一直都知道有、但永远无法雇佣足够的人来解决的问题;或者是那些有明确目标、但没有明确实现方法的问题。

尽管如此,每个企业组织都可以以某种方式利用机器学习,在埃森哲最近的一项调查中,有42%的高管表示,他们预计到2021年我们几乎所有创新项目背后都有人工智能的支持。但是,如果除去炒作的话你能得到更好的结果,通过了解机器学习能做什么、不能做什么,避免常见的误区。

误区:机器学习就是人工智能

机器学习和人工智能经常当作是同义词,机器学习是从研究实验室走出现实世界最成功的一项技术,而人工智能则是一个广泛的领域,覆盖了计算机视觉、机器人和自然语言处理等领域,以及不包含机器学习的约束满足等方法。可以把人工智能看到一切能让机器变聪明的方法。所有这些都不是一些人担心会与人类竞争甚至是攻击人类的那种“人工智能”。

你要谨慎看待各种流行词汇,尽量做到精准。机器学习是关于学习模式和预测大数据集的结果;其结果可能看起来很“聪明”,但核心是以前所未有的速度和规模运用统计学。

误区:所有数据都是有用的

要做机器学习的话就需要数据,但并非所有数据都可用于机器学习。为了训练系统,你需要有代表性的数据,以涵盖机器学习系统需要处理的模式和结果。你所需的数据不应该包含那些不相关的模式(例如照片显示所有站立起来的男士和所有坐着的女士,或者所有车辆都在车库中,所有自行车都在泥泞的场地中),因为你创建的机器学习模型将反映那些过于具体的模式,在你使用的数据中心查找这些模式。所有用于训练的数据都需要贴上标签,并且标记上那些与你向机器学习系统提问相匹配的特征,这就需要大量的工作。

不要假设你已经拥有干净的、清晰的、具有代表性或易于标记的数据。

误区:你总是需要大量的数据

最近在图像识别、机器阅读理解、语言翻译和其他领域所取得的重大进展,主要是因为现在我们有了更好的工具、能够并行处理大量数据的GPU等计算硬件、以及已经标记的大型数据集,包括ImageNet和Stanford Question Answering Datase。但是,因为有一种名为转移学习的技巧,所以你并不总是需要大量数据才能在特定领域获得良好结果;相反,你可以训练机器学习系统如何使用一个大型数据集进行学习,然后将其转移到你自己的小型训练数据集中去。这就是Salesforce和Microsoft Azure的自定义视觉API的工作原理:你只需要30-50张图像即可显示想要分类的内容以获得好的结果。

转移学习让你使用相对较少的数据就可以为你的问题定制预先训练好的系统。

误区:任何人都可以建立一个机器学习系统

有很多用于机器学习的开源工具和框架,以及无数课程向教你如何使用机器学习。但机器学习仍然是一项专有技术;你需要知道如何准备数据并对其进行分区、训练和测试,你需要知道如何选择最佳算法以及使用何种启发式算法,如何将其转化为可靠的生产系统。你还需要监控系统以确保随时间推移结果保持相关性;无论你所在市场的变化,还是你的机器学习系统足够好,最终你都会遇到不同的客户群,你需要持续检查该模型是否与你的问题相一致。

正确利用机器学习需要经验;如果你刚刚起步的时候,可以借助API预先训练可以从代码中调用的模型,同时聘用数据科学专家和机器学习专家来构建自定义系统。

误区:数据中所有模式都是有用的

哮喘患者、胸痛或心脏病患者、任何100岁以上老人的肺炎存活率远高于预期。不错,实际上,一套简单的、设计可自动发送住院通知的机器学习系统可能会通知他们回家(一种基于规则的系统,用相同的数据进行训练,就像神经网络那样)。之所以存活率这么高,是因为肺炎非常危险,患者会被立即送到医院住院。

这个系统从数据中看到了一个有效的模式;这对于选择谁需要住院来说并不是一种有用的模式(但是它可以帮助保险公司来预测治疗费用)。更危险的是,你并不知道你的数据集中有这种无用的反数据集,除非你已经知道它的存在。

在其他情况下,一个系统可以学习一种有效的模式(比如一种有争议的面部识别系统,可以从自拍中准确预测性取向),因为它没有清晰而明显的解释,所以是无用的(在这种情况下,照片会显示出一些社交线索,例如拍照姿势,而不是显示天生的某些特征)。

“黑匣子”模型是有效的,但没有说清楚它们到底学到了什么模式。像通用附加模型这样的则更透明一些,可理解的算法可以让我们更清楚模型的学习内容,从而可以决定是否适合部署。

误区:随时可以使用增强学习

如今几乎所有在使用中的机器学习系统都采用了监督式学习;在大多数情况下,系统是基于明确标记的数据集进行训练,在准备这些数据集的过程中人类也参与其中。组织这些数据集需要时间和精力,所以人们对非监督形式的学习、特别是强化学习(RL)有很大的兴趣——强化学习是指学习者通过反复试错,通过与环境交互、预测正确行为得到奖励。DeepMind的AlphaGo系统结合使用增强学习与监督式学习,击败高级Go玩家,而由卡内基梅隆大学团队打造的Libratus系统结增强学习和其他两种人工智能技术,在“无限注德州扑克”中击败了全球顶尖德扑选手。研究人员正在试验将增强学习用于方方面面,从机器人到测试安全软件。

但是在实验室之外,增强学习并不常见。谷歌DeepMind通过学习如何更有效地进行冷却,来降低数据中心的功耗;微软采用了一个名为下文赌博机(Contextual Bandit)的特定且有限的增强学习版本,MSN.com的访问者显示个性化新闻标题。问题在于很少有现实世界的环境具有可以轻松发现的奖励和即时反馈,特别是代理在任何事情发生前采取多项措施的时候。

误区:机器学习不存在偏见

因为机器学习是从数据中进行学习的,所以它会复制数据集中的任何偏见。搜索CEO的图像,结果可能会显示白人男性CEO的照片,因为更多的首席执行官是白人男性。但事实证明,机器学习也会放大偏见。

经常用于训练图像识别系统的COCO数据集有男性和女性的照片;但其中更多的女性形象是出现在厨房家电旁边的,更多的男性形象是和电脑键盘、鼠标或网球拍和滑雪板一起出现的。在COCO上训练系统,它会把男性与计算机硬件更紧密地绑定在一起。

一个机器学习系统也可能给另一个机器学习系统施加偏见。用流行的框架来培训一个机器学习系统,用单词来表达它们之间关系的向量,学习像“男人相对与女人就像是计算机程序员相对与家庭主妇”,或者“医生相对于护士就像是老板相对于接待员”这样的刻板印象。如果你使用这个系统,系统会把he和she(英语)翻译成具有性别中性代词的语言(如芬兰语或土耳其语),“他们是医生”变成“他是医生”,“他们是护士”变成“她是护士”。

如果是在购物网站上得到类似的建议是有用的,但在涉及敏感林能够与时就会引发问题,并且会产生反馈回路;如果你加入Facebook反对接种疫苗的组织,Facebook的推荐引擎会推荐其他关注阴谋论或者认为地球是平坦的组织。

了解机器学习中的偏见问题很重要。如果你无法消除训练数据集中的偏差,可以使用一些技巧,例如在词对之间规则化性别关联,来减少偏见或将不相关的条目添加到建议中,以避免“过滤泡沫”。

误区:利用机器学习都是好的一面

机器学习为防病毒工具提供了强大的功能,进一步着眼于全新攻击的行为,以便尽快发现这些行为。但同样,黑客也在利用机器学习研究防病毒工具的防御措施,通过分析大量公共数据或以前成功的网络钓鱼事件,大规模地发起有针对性的网络钓鱼攻击。

误区:机器学习将取代人类

人们常常担心人工智能会抢了人类的工作,而且肯定会改变我们的工作方式;机器学习系统可以提高效率和合规性并降低成本。从长远来看,人工智能将在业务中创造新的角色,并使淘汰掉当前的一些职位。但是许多机器学习实现了自动化的任务在之前是不可想象的,无论是复杂性还是规模,例如,您无法聘请足够的人员来查看发布到社交媒体的每张图片,以查看这些图片中是否含有你企业的品牌特征。

现在机器学习已经开始创造了一些新的业务机会,例如通过预测性维护改善客户体验,并向业务决策者提供建议和支持。和前几代的自动化一样,机器学习可以让员工自由使用他们的专业知识和创造力。

来源:cio.com

0赞

好文章,需要你的鼓励

2018

03/24

10:12

分享

点赞

邮件订阅