深度学习平台(DLP)软件是一款免编程的深度学习应用开发软件平台,致力于为广大深度学习应用开发者打造高效、用户体验良好的开发工具。
本教程将以图像分类任务为起点,逐步向您展示如何使用 DLP 开发图像分类应用程序。
1. 数据集描述与获取
在本教程中,我们将使用电子商务公司 Zalando 的研究人员提出的 fashion-mnist 数据集。 Fashion-mnist 包含各种物品和服装的图像,例如衬衫、鞋子、包、外套和其他时尚物品,训练集有 60,000 个示例,测试集有 10,000 个示例。 与 MNIST 类似,整个数据集包含 10 个类别(T 恤、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和短靴),每个类别包含 28×28 的灰度图像。 下图中每三行属于同一类别。
从这里下载图像数据集 fashion_mnist_data.tar.gz:
fashion_mnist_data.tar.gz 文件具有以下目录结构:
// .png
训练集文件夹包含标记的 PNG 图像,将用于训练 Caffe 模型。 测试集文件夹还包含标记的 PNG 图像,这些图像将用于评估经过训练的 Caffe 模型。
2. DLP分类数据处理接口介绍
启动DLP后,你会看到如下界面:
这里有多种组合可供选择,灰色选项将在未来的版本中打开。 在“1.选择模型类型”下选择“分类”,然后在“2.选择数据类型”下选择“图像”,点击“继续”进入分类数据处理模块。 首先让我们熟悉一下界面的主要部分:
1. 导航栏:包含 DLP 中不同模块的控件,以及包含设置按钮、链接到 DLP 网站页面的按钮等的工具栏。
2. 功能栏:包含处理分类图像数据的所有功能按钮。
3.可视化区:图像显示区。
4.类别设置:包含分类任务定义的类别信息和每个类别的图像数量。
5. 图像设置:包含图像数据的可配置参数。
现在我们熟悉了界面,让我们开始分类数据处理模块。
3.设置工作路径
设置工作路径是一个很好的习惯。 在正式启动分类任务之前,点击“SetDir”按钮选择一个文件夹作为工作路径,之后在DLP中导入或导出数据都会使用这个路径作为默认的起始路径。
设置好的工作路径会显示在下方的状态栏中:
4. 添加类别和图片
DLP 以非常简单和直观的方式可视化和组织数据集。 点击功能栏中的“添加类”,类设置面板下的可编辑标签区会显示:
在类别名称文本框中输入类别名称“Top”,每个类别名称和对应的删除图标之间有一个数字image是什么文件夹可以删除吗,表示每个类别的图像数量。 由于没有图像被添加到指定的类别,每个类别现在有 0 个图像。 接下来添加图片,先点击标签区前面的黄色按钮,然后点击功能栏中的“AddImg”,在弹出的文件选择器中定位到包含具体标签对应的图片文件夹的电脑(多个选择或单选相应的图片)。 例如,要添加与标签“Top”相对应的图像,请在 fashion_mnist_data 文件夹内导航至:/training/0 并选中“0”文件夹。 添加图片后,界面如图:
由于 Fashion-mnist 是一个包含 10 种不同类型对象的数据集,我们将重复上述过程 9 次。
5.图像设置
在图像设置面板下,输入数据集名称,将输出大小选项设置为 28×28,并将图像类型设置为灰度(因为我们使用的是 28×28 灰度图像)。 ImageEncode选择PNG,表示处理代码为png格式的28×28灰度图; BackEnd选择LMDB,表示图片格式转换时存储为lmdb格式; 设置测试集占总数据集的比例为25%; 勾选Shuffle and MeanFile,表示对数据进行shuffle,生成一个均值文件,均值文件命名为“mean28x28.binaryproto”。
定义图像设置参数后,可以通过单击功能栏上的“预览”来预览图像。 在可视化区域中,图像大小会更改以匹配图像设置面板中定义的图像大小。
6. 数据导出、导入、转换
至此,数据集已经排序完毕。
如果电脑没有配置Caffe,排序后的数据集可以导出到本地。 点击功能栏中的“导出”按钮,会弹出文件选择器,输出的文件名会自动更改为数据集的名称。 单击“保存”,所有图像数据将导出到所选文件夹。
导出完成后,会在选中的文件中生成2个文件夹和4个文件。 两个文件夹分别对应训练集和测试集,四个文件包括:训练集文件、测试集文件、标签文件、摘要文件。
导出的数据稍后可以重新导入,点击功能区中的“导入”按钮,在文件选择器中选择“fashion_mnist_28x28.txt”,整理好的数据就可以重新导入了。
如果电脑上配置了Caffe,相关路径设置在右上角工具栏:
Caffe 工具:/Users/Documents/caffe/build/tools
咖啡蟒蛇:/用户/文件/咖啡/蟒蛇
Python bin:/用户/bin
可以继续进行数据转换,点击功能栏中的“转换”命令,后续步骤同导出。 需要注意的是,如果所选文件夹中已经存在同名文件,则该文件将被跳过而不是被覆盖。 因此,作者在此建议,如果数据集发生变化,请导出到一个空文件夹中。 对于每个数据集image是什么文件夹可以删除吗,Convert 命令将图像存储为 lmdb 文件,并且还会生成均值文件。
至此,分类任务的所有数据都准备好了。
下期预告:DLP图像分类系列教程:(二)网络构建