首页>国内 > 正文

通过AI系统分级帮助企业控制成本 <a href="https://www.51cto.com/translation.html" target="_blank" class="article-type" data-v-769c098d>译文</a>

2022-04-14 11:38:01来源:AI深一度

译者 | 张怡

审校 | 梁策 孙淑娟

就像国际汽车工程师学会(SAE)对自动驾驶汽车分级一样,为了预测人工智能系统的成本,给它们分个“级别”想必也是不错的选择。采用分级系统可以帮助组织计划和准备AI系统,且随着时间的推移,AI系统的复杂性也会不断增加。

Photo by Hitesh Choudhary on Unsplash

设计和构建人工智能系统不是件容易事。传统软件的大部分成本都在部署前的开发过程中,而AI系统的大部分成本都在部署后。人工智能系统的行为不断学习,且很可能会从最初的部署中改变。如果不持续投资数据和进行参数调整,机器学习模型会随着时间的推移而“退化”。设计决策直接影响人工智能系统的扩展能力,其难点就是理解AI系统如何随着时间的推移而发生变化。

在构建AI系统时,分级可以为不同AI系统的行为提供参考。进行分级并根据级别进行权衡可以帮助简化部署后的差异。

理解系统可能会发生何种行为变化,并将其纳入系统设计中是非常重要的。以下的分级框架概述了各级系统随时间变化的主要差异,我们可以在设计和操作系统时对这些差异加以利用。不同的系统可以处于不同的级别,而对其差异有一个整体的认知可以帮助组织更好的规划和执行。

系统的复杂性可以由其输入(a)、输出(b)和目标(c)的范围来定义。

AI级别

一般来说,随着级别的上升,成本也会增加。比如我们设想将一个运行在1级的系统提升到2级,但是系统构建的复杂性和成本也会随着级别的上升而增加。显然,我们的新功能应该先从一个系统行为容易理解的“低”级别开始,再逐渐增加级别——随着级别的增加,系统的失败案例变得越难理解。

随着我们从传统软件(0级)升级到完全智能软件(4级),不同级别的AI系统差异明显,极大地影响了系统成本。级别4的系统基本上可以自行维护和改进,无需内部开发团队的任何工作。

升级是需要权衡的。例如,从1级到2级减少了持续的数据需求和定制工作,但引入了一个自我强化的偏差问题。选择升级需要认识到新的挑战,以及在设计AI系统时需要采取那些措施。

在系统升级过程中,其可扩展性、通用性、稳健性等均发挥关键作用。在第N级的项目上工作时,我们应该考虑达到第N+1级的工作成本和收益,同时应该根据自己的目标设定合适的分级,并意识到何时需要升级现有的AI系统。

0级:可靠型(传统型)Deterministic

不需要训练数据,不需要测试数据,不涉及学习的算法处于0级。

0级(计算机科学中的传统算法)的最大好处是非常可靠,只要解决了问题就是最优解。在某种程度上,很多的算法(比如二分搜索)都是对数据的“自适应”。我们通常不认为排序算法是“学习”的。学习涉及到记忆——系统在过去学习的基础上改变未来的行为。

然而,有些问题采用预先指定的算法很难解决。对于那些人类难以诠释的问题(如语音到文本、翻译、图像识别、语言提示等),它很难执行。

示例:

用于信用卡验证的Luhn算法基于正则表达式的系统信息检索算法,如TFIDF检索或BM25基于字典的(Dictionary-based)拼写校正

注意:在某些情况下,可能会有少量参数需要调优。例如,ElasticSearch提供了修改BM25参数的能力(例如一键设置set and forget)。

Level 1:学习型Learned

静态训练数据,静态测试数据。

您可以在脱机环境中训练模型,再将训练好的“固化”的权重部署到生产系统中。模型可能会有一个更新的节奏,但是模型运行的环境不会影响模型。

Level 1可以让你尝试学习和部署任何功能,但训练数据是有限的。这是一个尝试不同类型解决方案的演练场。此外,对一些常见的问题(如语音识别),你可以从边际成本递减中获益。

Level 1的缺点是对单个用例的定制化学习:你需要为每个用例管理训练数据,而用例可能会随着时间的推移而改变,因此需要不断地添加训练数据以保持模型的性能。这个成本是难以承受的。

示例:

自定义文本分类模型语音到文本(声学模型)Level 2:自学习型Self-learning

动态+静态训练数据,静态测试数据。

Level 2是使用由系统生成的训练数据对模型进行改进的系统。在某些情况下,数据的生成是独立于模型的。所以我们希望随着时间的推移以及更多的数据加入模型,性能会增加;在其他情况下,模型干预会增强模型偏差,并且随着时间的推移,表现会变得更糟。为了消除模型偏差,我们需要静态数据集重新评估模型。

这样来看,Level 2性能似乎可以随着时间的推移而自动提高。但是如果不加以管理,系统可能会随着数据的增加变得更糟。因为本质上依赖于静态数据集(一开始生成自己模型的训练数据),处于Level 2的系统改进能力有限,而要解决这种模型偏差很有挑战性。

示例:

Naive垃圾邮件过滤器语音-文本模型(语言模型)Level 3:自动型Autonomous (or self-correcting)

动态训练数据,动态测试数据。

Level 3系统既能改变人类的行为(例如建议一个操作并让用户选择),又能直接从该用户行为中学习(例如用户的选择偏好)。从2级升级到3级意味着系统的可靠性和总体可实现性能将大幅提高。

相较于Level 2,Level 3,系统可以随着时间的推移而改善。当然,它也更加复杂。它可能需要真正惊人的数据量,或者非常精心的设计,才能比简单的系统做得更好;但是它适应环境的能力也使测试非常困难,甚至可能出现灾难性的恶性循环。例如,测试人员纠正一个垃圾邮件过滤器——虽然人类只纠正了系统所做的错误分类,但是系统意识到其所有预测可能都是错误的(过于敏感),并将自己的预测整个颠倒过来。

Level 4:智能型Intelligent (or globally optimizing)

动态训练数据,动态测试数据,动态目标。

Level 4是既能与环境动态交互又能全局优化的系统。例如,AutoSuggest模型并不优化当前方法,而是优化一系列事件以达到最佳的对话框的目标。

虽然如何实现还有漫长的探索之路要走,Level 4的前景确实一片光明。精准定位问题,引入奖励与惩罚机制,评估模型的行为,这些都是重大而艰巨的任务。

附录:

原文链接:https://www.kdnuggets.com/2022/03/level-system-help-forecast-ai-costs.html

译者介绍

张怡,51CTO社区编辑,中级工程师。主要研究人工智能算法实现以及场景应用,对机器学习算法和自动控制算法有所了解和掌握,并将持续关注国内外人工智能技术的发展动态,特别是人工智能技术在智能网联汽车、智能家居等领域的具体实现及其应用。

关键词: 人工智能系统 测试数据 垃圾邮件 机器学习 人工智能技术

相关新闻

Copyright 2015-2020   三好网  版权所有