跳到主要内容

快速入门

基本介绍

  本工具实现了基于持续学习(Continental Machine Learning)的机器学习模型演化与持续服务的过程。在学界,持续学习指根据数据的变化自动进行机器学习的过程,并且解决数据变化带来的概念漂移、灾难性遗忘等问题。该过程要求机器学习过程中使用的特征工程方法、建模方法与参数调优策略可以被自动化运行,同时可以根据数据特征自动探索到表现更好的特征、模型与参数。这种自动化特性使得该工具可以作为快速验证机器学习场景可行性的工具。

  目前已经基于本工具提供了SaaS版平台服务,您可以观看以下视频学习如何创建你的第一个机器学习模型!

  如果您已经具备了一些机器学习相关的知识,本平台也提供如下进阶版视频让您体会更多新功能。

使用方法

准备数据

  为了用户方便理解,当前版本仅支持输入CSV格式的数据文件,并且要求数据列分隔符为逗号,同时每个CSV数据文件需要包含更新数据的表头

信息

  在正式版中有多种数据输入形式,可以搭配特有数据存储增强数据吞吐性能。 当前平台为免费用户开放了数据表形式的结构化数据输入方式。数据表形式的序列、以及更多数据形式会在后续版本中陆续开放。

任务配置

  登录平台后,点击页面右上方新建自动化机器学习按钮,弹出新建任务对话框。

image

  首先将准备好的数据文件上传到平台,这里可以上传多个数据文件,并且它们的数据格式与数据字段必须相同。上传完毕之后点击下一步

注意

  当前上传数据文件类型仅支持CSV格式,如果上传的文件类型是Excel表格,需另存为CSV格式,并且推荐采用不含BOM的UTF-8字符编码保存。操作方法可到常见问题查看。

image

  点击下一步,可以预览所上传的数据。

image

  继续点击下一步,平台会自动解析文件中每个字段的类型。此时需要用户确认如下内容:

  ⊖ 确认该数据集中需要拟合的字段,在对应字段下拉列表中选择“标签”,默认情况为“特征”。

  ⊖ 确认该数据集中不需要用到的字段,在对应字段下拉列表选择“忽略”。

  ⊖ 确认标签和特征所对应的字段中属于非数值的类别特征字段,并将类别特征的字段设置为开启状态。置为开启状态。

image

  该案例中选择预测字段“churn”。点击下一步设置任务名称、自动化特征工程尝试次数、自动化机器学习尝试时间,备注等信息,然后点击确定则任务创建完毕。

image

  【特征-问题类型】下拉选项中提供classification(分类)和regression(回归)两种机器学习任务类型的选择。如果标签为类别特征则是分类问题;如果标签为数值则是回归问题。本案例中选择“classification”。

  【特征-指标】下拉选项中提供了多种机器学习评判指标。如果当前解决的是分类问题则选择“roc_auc”和“log_loss”作为评判指标;如果当前解决的是回归问题则选择“rmse”作为判断指标。

信息

  一般而言,当log_loss取值小于0.693即表示模型有拟合能力,且越小越好;当roc_auc取值范围为0.5~1,越大越好,当大于0.7即表示模型有良好分辨能力。

  完成任务配置之后在建模任务列表中可以查看到所创建的任务。

image

模型训练

  在建模任务列表选择创建好的任务点击运行确定即可,整个建模过程是全自动化的。

image

  任务状态为“RUNNING_EXECUTION”表示训练任务正在运行。

image

  任务运行完毕之后会显示当前模型训练的最佳精度,本次训练的最佳精度大约为0.86,并且任务状态为“SUCCESS”,表示训练任务成功。

image

模型查看

  在建模任务列表选择对应任务点击日志按钮可以查看相关整个持续学习过程中的自动化特征工程和自动化机器学习的相关细节。

image
image

  用户可以通过这些日志更好的了解机器学习模型演化与持续服务的过程。也可以点击查看模型参数查看模型相关参数。

image

  特征生成数量表示在自动化特征工程过程中探索到的特征数量,本次实验探索到57个特征。

  高级特征表示在自动化特征工程过程中探索到的组合特征(高级特征),并且采用Latex风格的语法表达。

  自动化机器学习算法表示在自动化机器学习过程中所采用的算法,本次实验采用的算法是:xgboost。

  自动化机器学习参数配置表示在机器学习自动化调参过程中,自动化机器学习算法的最优参数,例如:xgboost学习率等超参数。

  用户可以点击验证集结果查看该模型对上传数据文件中的数据所预测的结果。

image

  在本案例中模型所预测的字段是“churn”这一列,红色高亮标识的“Predict Value”这一列为模型预测的结果。

模型预测

  在建模任务列表选择对应任务点击预测可以进行模型预测。

image

  此时可以将需要预测的数据文件上传到平台,这里对上传数据文件的要求和准备数据环节是数据文件要求是一致的。

image

  点击上传并预测,稍等片刻在数据预览中所展示的数据则是通过训练好的模型所预测的结果。

image

  红色高亮表示的“Predict Value”这一列为模型预测的结果,同时提供下载功能将预测结果下载到本地。