订阅博客
收藏博客
微博分享
QQ空间分享

黄果树瀑布,探秘深海:使用深度学习勘探数百种不同的浮游生物物种,2元店

频道:平安彩票直播网开奖 标签:干煸四季豆不安理智 时间:2019年05月15日 浏览:295次 评论:0条
点击上方重视,All in AI我国

早在2014年,Booz Allen Hamilton和俄勒冈州立大学的哈ipsa特菲尔德海洋中心组织了一场精彩的数据科学Kaggle竞赛,作为当年国有什么美观的电视剧家数据科学碗的一洪泰艺部分。

竞赛的意图是创立一种算法,主动将不同浮游生物图画分类为121种不同物罗辑思想种之一。竞赛的主黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店页:

传统的用于丈量和监测浮游生物种群的办法是耗时的,并且不能扩展到大规模研讨所需的粒度或规模。需求改善办法,其间一种办法是运用水下图画传感器。这种拖曳的水下摄像体系可在大型研讨黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店区域捕获显微镜下的高分辨率图画。然后能够剖析图画以评价物种种群和散布。

国家数据科学碗应战您构建一个算法来主动化图画辨认进程。哈特菲尔德海洋科学中心及其他区域的科学家将运用您创立的算法来研讨海洋食物网、渔业、海洋维护等。这是你有时机为国际海洋的健康做出奉献的时机,一次一李敏个浮游生物。

作为胜芳气候阿姆斯特丹大学研讨生机器学习课程的一部分,学生们面临着这一应战。我的团队模型在其他30支球队中排名第三,准确度得分为77.6%,与取胜团队之间的差异约为0.005。

我决议共享一些咱们运用的战略、模型、应战和东西。咱们将审议以下项目:

  1. 深度神经网络:回忆
  2. 卷积神经网络:回忆
  3. 激卜贤圭活功用
  4. 数卉据一览
  5. 数据增强技能
  6. 搬迁学习
  7. 集成或Stacking
  8. 悉数放在一同

深度神经网络

我会颈部淋巴结肿大假定您现已了解人工神经网络(ANN)的概念。假如是这种状况,深度神经网络的概念适当简略。假如状况并非如此,则该视频会对其作业原理进行翔实的阐明。

深度神经网络(DNN)是一组特定的人工神经网络,其特征在于具有很多躲藏层以及其他方面。

DNN具有许多层的实际答应它们在分类或回归使命中体现杰出,触及杂乱的非结构化数据(例如图画、视频和音频辨认)中的形式辨认问题。

图画辨认使命的示例

卷积神经网络

卷积神经网络(CNN)是DNN的特定架构类型,它增加了卷积层的概念。这些层关于从图画中提取相关特征以履行图画分类十分重要。

这是通过在每个图画的RGB村庄爱情2通道上运用不同类型的变换来完结的。刻不容缓因而,在外行术语中,咱们能够说Convolution操作在图画通道上履行转化,以便使神经网络更简略检测到某些特定形式。

尽管进入关于卷积层的理论和数学细节超出了本文的规模,但我能够从Goodfellow等人的一本有关深度学习的具有里程碑含义的书本中黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店的黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店这一章,以便更好地了解卷积层,并且999伤风灵更好地了解与深度学习相关的一切方面。

下面的图片展现了CNN的结构:

卷积神经网络架构

激活功用

激活函数在这种状况下也很重要,关于DNN,一些常黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店用的激活功用是ReLU、tanh、PReLU、LReLU、Softmax等。

这些函数代表了经典人工神经网络的巨大改变,而人工神经网络曩昔依赖于Sigmoid函数进行激活。已知这品种型的激活功用遭到消失梯度问题的影响; ReLU等整流功用为此问题供给了一种或许的处理方案。

数据一览

现在回到咱们的问题。数据由练习和测验集组成。在练习会集,有大约24K的浮游生物图画,在测验会集有大约6K的浮游生物图画。

首要看一下数据,显现咱们有一个不动态图出处平衡的数据集——下面的图表显现了咱们在练习会集荷包每个物种的图片数量。

不同浮游生物品种的数据会集的图画数量

这是一个问题,特别是关于代表性缺乏的物种。很或许咱们的模型没有满足的练习数据来检测来自这些类的浮游生物图画。

咱们用来处理这个问题的办法是为不平衡类设置类权重。根本上,假如咱们有图画类A和B,其间A代表缺乏而B代表性过高,咱们或许期望将A类的每个实例视为B类的50个实例。

这意味着在咱们的丢失函数中,咱们为这些实例分配了更高的值。因而,丢失变为加权平均值,其间每个样本的权重由class_weight及其对黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店应的类指定。

数据扩大

深度学习的一个或许的正告是,它一般需求很多的练习样本才干取得杰出的功用。处理小型练习集的常用办法是扩展它。

这能够通过旋转、缩放、镜像、含糊或剪切原始图画集来为数据会集的一个或多个类生成人工样原本完结。

在咱们的比如中,咱们运用Keras预处理库来履行在线图画增强——只需通过Keras Image DataGenerator类加载每个批处理,就会逐批进行转化。

搬迁学习

处理图画辨认问题时需求做出的首要决议之一是运用现有的CNN架构仍是创立一个新架构。

咱们处理这个问题的榜首个办法触及从头开始创立一个新的CNN架构黄果树瀑布,探秘深海:运用深度学习勘探数百种不同的浮游生物物种,2元店,咱们称之为SimpleCNN。运用这种架构取得的准确度很低--60%。

跟着许多研讨人员不断在国际各地的不同架构中作业,很快咱们意识到,假如不花费很多时刻和核算才能对其进行练习和测验,那么就不或许提出一种比现有架构更好的新架构锦鲤是什么意思。

考虑到这一点,咱们决议运用搬迁学习的力气。

搬迁学习的根本思想是运用现有的预先练习的,已树立的CNN架构(以及权重,假如需求的话)用于完结特定猜测使命。

大大都深度学习渠道,如Keras和PyTorch都具有开箱即用的功用。通过运用搬迁学习,咱们取得了精度在71%和74%之间的模型。

集成学习

咱们在搬迁学习方面取得了适当好的准确性,但咱们依然不满意。所以咱们决议运用咱们练习过的一切模型。

大大都成功的Kaggle团队常用的一种办法是练习独自的模型,并运用功用最好的模型创立一个集成。

这是抱负的,由于它答应团队成员并行作业。但这个主意背面的首要直觉是来自单个模型的猜测,这或许是有成见的;通过运用来自一个全体的多个猜测,咱们取得了一个大学定见,相似于做出决唐诗逸定的投票进程。在集成学习中,咱们能够进行硬投票或软投票。

咱们挑选了硬投票。两者之间的首要差异在于,在榜首个中,咱们履行简略的大都投票,考虑猜测类,在第二个中,咱们选用每个模型为每个类猜测的概率的平均值,终究挑选最或许的一个。

把它们放在一同

将各部分归纳起来,咱们取得了一个具有卵巢囊肿的症状约77.6%准确度分数的模型,用于猜测121种不同类别的浮游生物品种。

下图不只显现了通过独自练习并成为终究仓库一部分的不同体系结构,并且还显现了咱们为猜测管道履行的一切过程的高层透视图。

该图显现了咱们管道的预处理、CNN架构、练习和集成方面

定论和结束语

  • 搬迁学习十分合适优化新数据产品和韶山渠道的上市毛利时刻,并且十分直观。
  • 从准确性的视点来看,集成学习也很重要 - 但或许会在在线的,实际国际的出产环境场景中呈现出自己的应战
  • 与大大都数据科学问题相同,数据增强和特征工程是取得杰出成果的要害

关于将来相似的问题,咱们会测验:

  • 运用skimage和OpenCV等库来探究一些离线图画增强
  • 将一些根本图画功用(如宽度、高度、像素强度等)供给给Keras的功用API

编译出品