印度分析杂志
现在读
使用AutoGluon自动化机器学习任务指南
印度分析杂志

使用AutoGluon自动化机器学习任务指南

免费数据工程研讨会>>

AutoGluon是AWS的一个开源工具,每个人都可以很容易地使用它,它有助于实现各种功能AutoML(自动机器学习)任务。它有助于自动化不同的机器学习和深度学习任务,并找出适合特定任务的最佳模型。在这篇文章中,我们将讨论AutoGlion,我们将看到它支持自动机器学习任务的不同功能。我们将通过实施表格预测使用AutoGluon了解如何使用它自动完成特定的机器学习任务。最后,我们还将尝试了解在使用AutoGlion时,如何找到最适合特定机器学习任务的模型。下面列出了本文要讨论的要点。

目录

  1. AutoML是什么?
  2. 自胶子
  3. 使用AutoGluon可以做什么?
  4. 用于表格数据的AutoGluon
  5. 如何获得最优模型?

让我们从了解AutoML实际上是什么开始讨论。

AutoML是什么?

自动化机器学习是指将机器学习应用于现实问题(AutoML)的任务自动化的过程。AutoML涵盖了从原始数据集到可部署机器学习模型的整个管道。AutoML作为一种基于人工智能的解决方案被提出,以解决日益增长的机器学习应用问题。由于AutoML的高自动化水平,非专家可以使用机器学习模型和程序,而不必成为机器学习专业人员。

自动化整个机器学习过程的另一个好处是提供更简单的解决方案,更快地生成这些解决方案,以及经常优于手工设计模型的模型。在预测模型中,利用AutoML比较各因素的相对相关性。

自动机器学习研究已经针对研究人员和最终用户产生了广泛的软件包和方法。近年来,一些现成的软件已经开发出来,可以实现自动机器学习。目前已开发的软件包如下所示。

  • AutoGluon是一种用于各种机器学习模型的多层叠加方法。
  • MLBoX是一个由三部分组成的AutoML工具包,包括预处理、优化和预测。
  • 奥托维卡是一种同时选择机器学习算法及其超参数的方法;当与WEKA包组合时,它会自动地为广泛的数据集生成良好的模型。
  • Auto-sklearn是一个Python包,它扩展了AutoWEKA并作为传统scikit学习分类器和回归器的替代品。
  • Auto-PyTorch基于Pyrotch深度学习框架,同时调整超参数和神经结构。

自胶子

AutoGlion是一个开源的AutoML工具,它只使用一行Python代码在未处理的表格数据集(如CSV文件)上训练极其精确的机器学习模型。AutoGlion通过组装多个模型并将它们堆叠在不同的层中而获得成功,这与其他主要关注模型/超参数选择的AutoML框架不同。实验表明,我们的多层组合模型比搜索最佳模型更好地利用了训练时间。

以下是AutoGlion的设计原则:

  • 简单. 用户可以在不了解任何数据或ML模型的情况下,立即根据原始数据训练模型。
  • 健壮性.该框架可以处理广泛的结构化数据集,并确保即使任何单个机器学习模型失败,训练仍能继续。
  • 容错性.在课程的任何时候,你都可以暂停并继续。在处理云可抢占(spot)实例时,这种方法是首选方法。
  • 可以预测的时间. 用户可以指定返回结果的时间范围。

AutoGluon支持易于使用和可扩展的AutoML,专注于自动堆栈集成、深度学习和包含文本、图像和表格数据的真实应用程序。AutoGluon,专为初学者和机器学习专家设计,并提供如下功能:

  • 只需几行代码,我们就可以为您的原始数据快速构建深度学习和传统ML解决方案的原型。
  • 自动采用尖端技术(适当时),无需专业知识。
  • 自动超参数调整、模型选择/集成、架构搜索和数据处理都是可能的。
  • 轻松改进/调整您的自定义模型和数据管道,或根据您的需要定制AutoGlion。

使用AutoGluon可以做什么?

使用AutoGlion,机器学习开发人员可以完成以下任务:-

表格预测

AutoGlion可以生成模型,根据其他列上的值,使用表示为表(通常存储为CSV文件)的公共和标准数据集来预测一列中的值。我们只需使用一个.fit()函数,就可以在标准的监督学习任务(如分类和回归)中获得优异的精度。此外,我们还可以调整大量参数以优化性能。不必处理诸如数据清理、特征工程、严格的超参数调整、算法选择等耗时的过程,我们就可以以非常有效的方式结束我们的旅程。

图像预测

AutoGlion再次提供了一个简单的fit()函数,用于根据照片内容对照片进行分类,从而自动生成高质量的图像分类模型。一次调用fit()将在我们提供的图像数据集上返回一个极其精确的神经网络,自动使用精度增强技术,如转移学习和超参数优化。在这里,我们还可以使用CSV文件准备数据集,或者使用各种功能API将数据组织到适当的目录中。

对象检测

AutoGluon提供了一个简单的fit()函数,用于识别照片中对象的存在和位置,从而自动创建高质量的对象检测模型。对fit()的单个调用将在您提供的图片数据集上训练极其精确的神经网络,并自动采用转移学习和超参数调整等提高精度的技术。

文本预测

为了自动生成高质量的文本预测模型(通常是transformer神经网络),fit()也可用于此类监督任务。每个训练样本可以是句子、简短的段落、众多文本字段的组合(例如,预测两个句子的相似程度),甚至可以包括文本之外的其他数字/分类变量。预测值可以是连续值(回归)或离散类别(分类)。

只需快速预测一下就可以了。fit()方法将自动使用精度提升方法,包括微调预训练的NLP模型和超参数优化,在输入文本数据集上训练一个高度精确的神经网络。

多模式预测

在各种应用中,文本数据可以与数字/分类数据混合使用。AutoGluon的TextPredictor可以训练一个神经网络,它可以同时在许多特征类型上工作,比如文本、分类和数字列。其基本思想是分离文本、类别和数字字段,并跨模式组合它们。为了解决这类多模式任务,可以使用AutoGluon。我们可以使用像图像这样的数据以及与之相关的表格形式的特征来训练多模型集成。

让我们进一步了解Autoglion如何与表格数据一起用于表格预测。在下一节中,我们将看到如何使用AutoGlion Tablear的一流性能有效地执行分类任务。

表数据上的AutoGluon

AutoGlion表格是处理表格数据的一种简单而准确的方法。AutoGlion表格能够进行复杂的数据处理、深度学习和多层模型组装。它自动识别每列中的数据类型,以便进行全面的数据预处理,包括对文本字段的特殊处理。AutoGlion支持多种模型,从现成的增强树到定制的神经网络模型。

这些模型以一种创新的方式进行集成:模型在许多层中堆叠,并逐层训练,确保原始数据可以在指定的时间限制内转化为高质量的预测。在整个过程中,通过以不同方式分割数据并仔细跟踪未折叠情况,可以减少过拟合。

下面您可以看到AutoGlion用于表格数据的神经网络架构由数字和分类功能组成。具有可学习参数的层用蓝色表示。

另请参阅
TensorFlow推出了一个新的库来训练相似性模型

来源

如何获得最优模型?

考虑在CSV文件中保存的原始值的结构化数据集,如SARST.CSV,将预测的标签值存储在列中,标记为“Type”。AutoGROUN自动预处理原始数据,确定预测问题的类型(二进制、多类分类或回归),将数据划分为不同的折叠,用于模型训练和验证,分别拟合各种模型,最终创建一个优化的模型集成,其性能优于任何单个训练模型。

符合()包括额外的超参数,可以为准备承受较长训练时间的用户设置,以最大限度地提高预测精度。所有中间结果都保存到磁盘。如果电话被取消,我们可以通过使用fit()可以选择继续训练=正确

让我们实施它。用于实验的数据集取自此卡格尔存储库这是关于根据6个属性预测恒星的类型。

到目前为止,windows系统不支持官方的AutoGlion。它也适用于Linux和macOS。要开始,我们需要将其安装为pip安装mxnet自动粘合

从sklearn.model_selection导入train_test_split#从autoglion.tabular导入tablerpredictor df=pd.read_csv('Stars.csv')df.head()加载Autoglion预测器

仔细观察数据,我们将按原样输入数据,无需任何预处理步骤,如编码分类变量,因为有两个。这是自动胶的优点之一。

现在,让我们将数据拆分为train并进行测试,然后我们准备好在AutoGlion中训练所有可用的模型。

#分为列车和试验列车,试验=列车试验(df,随机状态=42,试验尺寸=0.3)y_试验=试验['Type']试验\u nolab=test.drop(['Type'],axis=1)#列车模型预测器=表格预测器(label='Type')。拟合(列车)

现在,我们可以检查顶级分类器为每个类分配的概率,并且我们还可以查看模型的排行榜。

预测概率=预测者。预测概率(测试概率)预测概率头(5)
#训练有素的模型预测者排行榜。沉默= True排行榜(测试)

最后的话

我们可以从上面的13个可用模型中看到,表现最好的是CatBoost分类器,尽管它几乎与LightGBM绑定在一起。CatBoost以更少的预测时间击败了它。通过本文,我们对AutoGluon有了一个了解。AutoGluon是一个AutoML库,它可以自动完成大多数任务,如表格数据的分类回归、目标检测、文本分类和图像分类。

工具书类


加入我们的Discord服务器。成为一个有吸引力的在线社区的一部分。加入这里


订阅我们的通讯

通过共享电子邮件获取最新更新和相关优惠。

188BET网页

滚动到顶部
Baidu