|
|
51CTO旗下网站
|
|
移步端
  • 12个实际世界中的机器学习真相

    顶你在实际世界中劳作时,有几个实际是你不能不面对的,这也是本文的首要内容。

    笔者:AI花园 来源:当日第一| 2020-01-15 12:43

     导读

    顶你在实际世界中劳作时,有几个实际是你不能不面对的,这也是本文的首要内容。

    上次,我在一番亲切的爱人聚会上做了一番非正式的讲演,我把这个问题记下来。这篇文章主要是写给这些使用机器学习来构造东西的人数,而不是这些研究机器学习的人数,尽管后一组人会很好地听取这些真理并检查他们的上班。

    0. 你不是一番艺术家

    科学,虽然你们的 title 是“教育学家”,包括你们所有拥有博士学位的人数,以及涉足这个行业之专家。但是,机器学习(以及其他必发娱乐手机版应用领域,如 NLP、视觉、语音……)是一门工程研究学科(与科研相对)。

    你会问,科研和工程研究有什么区别?George A. Hazelrigg 在它的“HONING YOUR PROPOSAL WRITING SKILLS”官方写道:

    一部分艺术家会学习如何制定研究计划。很少有工程师是博士级别的技术员。让咱先试着理解科学研究和工程研究之间的分别。对我来说,分别很显然。教育学家力图了解天体之实质,以了解其首要之实质。为了完成这一点,教育学家通常剥离无关的影响,深入到一个奇异狭窄的风流元素。这就是咱们所说的风流法则:能量和质量是一样的,每一个作用力都有一度大小相等、方向相反的反作用力,举一反三。有成千上万自然法则,它们随时随地都选用。工程师遵循自然法则。她们别无选择。她们的对象是计划出在自然允许的范围内工作之东西。要到位这一点,她们必须能够预测系统之所作所为。故此工程师们面临的一个大题目是,咱们如何理解和预测一个系统之所作所为,在这个系统中,整整的风流法则在其他时候都选用于其他地方。这是一番整合的题材,他就像找到一开始的规则一样困难。每时每刻把整个的自然规律都考虑进去是不可能的。故此,工程师必须找到方法来确定哪些定律是至关重要的,哪些可以忽略,以及如何近似那些在岁月和空中上都很重大的定律。工程师不仅仅是展望未来。她们做出的决定部分是基于他们的预测,因为他们懂得自己之预测不可能既准确又确定。了解和运用新闻学也很重大。这包括概率论、决定理论、邓小平理论、最优化、控制理论和任何哲学在水利决策环境中的应用。这也是一番合理的水利研究领域。

    表现 ML 的研讨人员和实践者,你不能不考虑你拥有的多寡的科学模型,而不是你拥有的模子的科学数据集(就像许多研究论文一样)。如果你曾经问过“其一模型的科学数据集是什么”,这就是说你并不是在实际世界中。到底什么是实际的时尚?在实际世界中,你对要处理的多寡是没有选择的。在此间,数量定义了问题,而不是相反。有时,在实际世界中,ML 实践者创建了一番温馨之时尚作为他们的建模游乐场,故而假装他们是“教育学家”,例如“表明”一种用于做 NLP 的语言,或者通过简化假设来创造封闭的气氛来强化学习。该署研究得出了有趣的结果,但它们的框框仅限于它们所来自的时尚,即使研究人员喜欢在舆论中把它们当作适用于具体世界之东西来兜售。在实际世界中,步入的分布更有可能发生变化,长尾的“curve balls”不知从何而来,你并不总是有答案。

    顶你在实际世界中劳作时,有几个实际是你不能不面对的,这也是本文的首要内容。但这个开场白是不可或缺的。如果你在实际世界中做 ML 研讨,你是工程师而不是艺术家。

    1. 要求可以工作

    虽然这听起来很简单,但我很奇怪有好多人,甭管是新手还是有经历的人数,都把一些听起来很花哨的名字吸引住了,或者因为一些东西来自 DeepMind、OpenAI、斯坦福大学、顺德理工必发娱乐登录等等。如果你的模子确实只能够在它们的气氛和自然资源约束下处理他们的多寡集和,这就是说现实世界名将无情地拒绝它。arXiv 上的成千上万结果只能在个别数目集上工作,或者只能在只有谷歌基础设施支持的百洞级 gpu 上工作。起社区一个忙,无需再公布那些平常的结果了。他必须能工作。这也是为什么我们今天不考虑在没有卷积神经网络的微机视觉中做其他工作,或者为什么我们很容易在队模型中采用注意力的由来。他必须要能工作。

    推测:这么多人口,特别是 ML 的新手,把花哨的模子名称冲昏了心血,急忙地想要尝试它们,或者写关于它们的博客帖子,等等。我以为这就像一个初学写作的人数。她们觉得使用华丽的词语会使她们的作文更好,但经验会告诉他们其他的。

    2. 不论是你如何努力,不论是你的优先级是什么,你都不能提高光速

    缓存层次结构已经是原则性的,你不能不在这个前提下工作,网络开发会让分布式训练变慢,在总量中只能塞入那么多内容,等等。

    3. 只要有足够的水力,鼠就能飞得很高,然而,这并不一定是一番好主意

    一度研究生或大型的超参数扫描器可以在一番巨大的数据中心中得以找到一组超参数,可以让非常复杂的模子工作得很好,甚至产生良好的结果。但没有人在实际世界中调剂那么大的模子。我在赞助企业管理他们的 ML 团组织时发现了一番秘密 — 绝大多数人口不知晓/不关心超参数调优。

    4. 生存中的一些作业,除非亲身经历过,否则永远不会把完全欣赏或理解

    对于既不构建生产 ML 模型也不维护它们的人数来说,机器学习中的某些东西是永恒无法完全知道的。再多之课件,再多之 mooc,再多之 Kaggling,都无法让你为此做好准备。没有什么可以代替部署模型、考察用户与模型的交互、拍卖代码/模型分解等等。

    5. 总是有可能将多个挺立的题材聚合成一个复杂的相互依赖的解决方案,在大部分情况下,这是一番坏主意

    头到头学习在理论上听起来是一番好主意,但是对于绝大多数部署场景,分段优化的管道架构将持续存在。这并不意味着我们将完全没有端到头系统(语音识别和机器翻译有很好的嘴到头生产价值解决方案),但在大部分情况下,具有可观察的调节路径将胜过其他选择。

    6. 把一个问题转移到那里,甚至是忽视它,都比解决它要容易得多

    例如,在语音方面,考古学建模是艰难之,但是你可以让网络在消灭不同问题(例如语音识别)的主意中找到这些细节。在 NLP 官方,很难进行科学的剖析。但值得庆幸的是,对于 99%的实际任务,咱们可以不进行分析。

    推论:除非迫不得已,否则不要解决问题。

    7. 你总是要在部分作业上做权衡

    速度 vs 内存,电池寿命 vs 准确性,公正性 vs 准确性,轻而易举实现 vs 可保护性,……

    8. 任何都比你想象之复杂性

    与购物时的价位冲击类似,上班中也有“艰苦奋斗冲击”。绝大多数经验丰富的研讨人员和技术员都经历过“艰苦奋斗冲击”,要么是因为他们低估了处理大型数据集的水利问题,要么是因为他们低估了正在与之搏斗的园地的纷繁,要么是因为他们低估了对方。绝大多数论文让读者读起来觉得事情很简单,而忽视了这背后是经由了几百万次破产才有之成功。故此,舆论不是研讨,而是做研究之结果。因为这个原因,你永远可能通过阅读论文来体验做研究之经过。

    9. 你永远都会是准备不足

    这可以和程序 8 点结合起来,事实上任何远程调用的成功之模子如果没有适当的准备,都可能由于自身的成功而崩溃。

    10. 一度尺码不可能适合所有人,你的模子会一直犯令人啼笑皆非的错误,尽管你的着眼点是好的

    角落案例和长尾失败模式将困扰你。值得庆幸的是,对于广大非关键的 ML 布局来说,这并不是什么大题目。最坏的情况下,他会变成一枝搞笑的推文。但是,如果你在诊治保健或其它高风险情况下工作,ML 布局将因此成为一场噩梦。

    11. 每一个旧的想法都会以不同之名字和不同之样式被再次提出,甭管它是否有效

    Schimdhuber 可能提出了一番更大的意见。没有人听他的,像它一样,咱们把旧酒重新装进新瓶子,被迫重复错误的历史。

    12. 到达宏观不是因为没有什么可以补充的,而是因为没有什么可以去丢的

    生存中的每件事都是如此,具体世界中的机器学习也是如此。唉,咱们的茶话会回顾了她们对“新型性”的爱好,产生了不想要的 arxi -spam,其中包含了大量本来就不需要存在的污染源。除非做“是的”能够鼓励宣传什么是行之有效的,而不是什么是新的,否则我不觉得这种情景会改变。

    【编纂推荐】

    1. 必发娱乐手机版走进幼儿校园 全部保障园区安全
    2. 告知:2022年中国必发娱乐手机版产业规模逼近300京港币
    3. 必发娱乐手机版如何拯救企业数量目录?
    4. 必发娱乐手机版还是人为智障?该署想不到的特大型算法翻车现场
    5. 多师AI商店HR/面试官爆料:咱们是怎样招机器学习工程师的
    【义务编辑: 华轩 TEL:(010)68476606】

    点赞 0
  • 必发娱乐手机版  机器学习  工程师
  • 分享:
    大家都在看
    猜你喜欢
  • 订阅专栏+更多

    Python使用场景实战手册

    Python使用场景实战手册

    Python使用场景实战手册
    共3章 | KaliArch

    16人口订阅学习

    一步到位玩儿透Ansible

    一步到位玩儿透Ansible

    Ansible
    共17章 | 骏马金龙1

    182人口订阅学习

    云架构师修炼手册

    云架构师修炼手册

    云架构师之必不可少技能
    共3章 | Allen在路上

    131人口订阅学习

    视频课程+更多

    网络安全训练营视频课程

    网络安全训练营视频课程

    教授:Web安全探究者56105人口学习过

    2019本版HCNP|HCIP-R&S|CCNP

    2019本版HCNP|HCIP-R&S|CCNP

    教授:郝旺10921人口学习过

    java京基础至项目实战(javase+javaweb+办理反射注解+框架+

    java京基础至项目实战(javase+javaweb+办理

    教授:Long2602人口学习过

    读 书 +更多

    Groovy入夜经典

    该书详细介绍脚本语言Groovy,第一介绍Groovy语言的中心特点,包括讨论Groovy办法、先后闭包、列表、照耀以及对类和持续的支持,下一场介绍如...

    订阅51CTO邮刊

    点击这里查看样刊

    订阅51CTO邮刊

    51CTO劳务号

    51CTO官微

  • 
       
        <optgroup id="2b479103"></optgroup>