切莫陷入机器学习的这9个误区

机器学习已经被证明是很有用的, 但也容易被假设可以解决所有问题、适用于所有情况 。 和其他工具一样, 机器学习在特定领域很有用处, 特别是那些你一直都知道有、但永远无法雇佣足够的人来解决的问题;或者是那些有明确目标、但没有明确实现方法的问题 。
尽管如此, 每个企业组织都可以以某种方式利用机器学习, 在埃森哲最近的一项调查中, 有42%的高管表示, 他们预计到2021年我们几乎所有创新项目背后都有人工智能的支持 。 但是, 如果除去炒作的话你能得到更好的结果, 通过了解机器学习能做什么、不能做什么, 避免常见的误区 。
误区1:机器学习就是人工智能
机器学习和人工智能经常当作是同义词, 机器学习是从研究实验室走出现实世界最成功的一项技术, 而人工智能则是一个广泛的领域, 覆盖了计算机视觉、机器人和自然语言处理等领域, 以及不包含机器学习的约束满足等方法 。 可以把人工智能看到一切能让机器变聪明的方法 。 所有这些都不是一些人担心会与人类竞争甚至是攻击人类的那种“人工智能” 。
你要谨慎看待各种流行词汇, 尽量做到精准 。 机器学习是关于学习模式和预测大数据集的结果;其结果可能看起来很“聪明”, 但核心是以前所未有的速度和规模运用统计学 。
误区2:所有数据都是有用的
要做机器学习的话就需要数据, 但并非所有数据都可用于机器学习 。 为了训练系统, 你需要有代表性的数据, 以涵盖机器学习系统需要处理的模式和结果 。 你所需的数据不应该包含那些不相关的模式(例如照片显示所有站立起来的男士和所有坐着的女士, 或者所有车辆都在车库中, 所有自行车都在泥泞的场地中), 因为你创建的机器学习模型将反映那些过于具体的模式, 在你使用的数据中心查找这些模式 。 所有用于训练的数据都需要贴上标签, 并且标记上那些与你向机器学习系统提问相匹配的特征, 这就需要大量的工作 。
不要假设你已经拥有干净的、清晰的、具有代表性或易于标记的数据 。
误区3:你总是需要大量的数据
最近在图像识别、机器阅读理解、语言翻译和其他领域所取得的重大进展, 主要是因为现在我们有了更好的工具、能够并行处理大量数据的GPU等计算硬件、以及已经标记的大型数据集, 包括ImageNet和Stanford Question Answering Datase 。 但是, 因为有一种名为转移学习的技巧, 所以你并不总是需要大量数据才能在特定领域获得良好结果;相反, 你可以训练机器学习系统如何使用一个大型数据集进行学习, 然后将其转移到你自己的小型训练数据集中去 。 这就是Salesforce和Microsoft Azure的自定义视觉API的工作原理:你只需要30-50张图像即可显示想要分类的内容以获得好的结果 。
转移学习让你使用相对较少的数据就可以为你的问题定制预先训练好的系统 。
误区4:任何人都可以建立一个机器学习系统
有很多用于机器学习的开源工具和框架, 以及无数课程向教你如何使用机器学习 。 但机器学习仍然是一项专有技术;你需要知道如何准备数据并对其进行分区、训练和测试, 你需要知道如何选择最佳算法以及使用何种启发式算法, 如何将其转化为可靠的生产系统 。 你还需要监控系统以确保随时间推移结果保持相关性;无论你所在市场的变化, 还是你的机器学习系统足够好, 最终你都会遇到不同的客户群, 你需要持续检查该模型是否与你的问题相一致 。
正确利用机器学习需要经验;如果你刚刚起步的时候, 可以借助API预先训练可以从代码中调用的模型, 同时聘用数据科学专家和机器学习专家来构建自定义系统 。
误区5:数据中所有模式都是有用的
哮喘患者、胸痛或心脏病患者、任何100岁以上老人的肺炎存活率远高于预期 。 不错, 实际上, 一套简单的、设计可自动发送住院通知的机器学习系统可能会通知他们回家(一种基于规则的系统, 用相同的数据进行训练, 就像神经网络那样) 。 之所以存活率这么高, 是因为肺炎非常危险, 患者会被立即送到医院住院 。
这个系统从数据中看到了一个有效的模式;这对于选择谁需要住院来说并不是一种有用的模式(但是它可以帮助保险公司来预测治疗费用) 。 更危险的是, 你并不知道你的数据集中有这种无用的反数据集, 除非你已经知道它的存在 。
在其他情况下, 一个系统可以学习一种有效的模式(比如一种有争议的面部识别系统, 可以从自拍中准确预测性取向), 因为它没有清晰而明显的解释, 所以是无用的(在这种情况下, 照片会显示出一些社交线索, 例如拍照姿势, 而不是显示天生的某些特征) 。
“黑匣子”模型是有效的, 但没有说清楚它们到底学到了什么模式 。 像通用附加模型这样的则更透明一些, 可理解的算法可以让我们更清楚模型的学习内容, 从而可以决定是否适合部署 。
误区6:随时可以使用增强学习
如今几乎所有在使用中的机器学习系统都采用了监督式学习;在大多数情况下, 系统是基于明确标记的数据集进行训练, 在准备这些数据集的过程中人类也参与其中 。 组织这些数据集需要时间和精力, 所以人们对非监督形式的学习、特别是强化学习(RL)有很大的兴趣——强化学习是指学习者通过反复试错, 通过与环境交互、预测正确行为得到奖励 。 DeepMind的AlphaGo系统结合使用增强学习与监督式学习, 击败高级Go玩家, 而由卡内基梅隆大学团队打造的Libratus系统结增强学习和其他两种人工智能技术, 在“无限注德州扑克”中击败了全球顶尖德扑选手 。 研究人员正在试验将增强学习用于方方面面, 从机器人到测试安全软件 。
但是在实验室之外, 增强学习并不常见 。 谷歌DeepMind通过学习如何更有效地进行冷却, 来降低数据中心的功耗;微软采用了一个名为下文赌博机(Co