货架搏斗打响!27页PPT详解货架商品识别的难点及落地实践

来源:未知 作者:admin 发表于:2020-06-30 12:51  点击:
原标题:货架搏斗打响!27页PPT详解货架商品识别的难点及落地实践 俏厌物流(服务)有限公司 出品 | 智东西公开课 讲师 | 魏勋 品览数据技术相符伙人 导读: 6月8日晚,品览数据技术

原标题:货架搏斗打响!27页PPT详解货架商品识别的难点及落地实践

俏厌物流(服务)有限公司

出品 | 智东西公开课

讲师 | 魏勋 品览数据技术相符伙人

导读:

6月8日晚,品览数据技术相符伙人魏勋在智东西公开课进走了AI零售相符辑第三讲的直播讲解,主题为《商品识别算法在货架商品智能巡检中的行使》。

在本次讲解中,魏勋先生最先分析新零售下货架巡检存在近况,给出了以图像识别和现在的检测实现货架巡检的方案,之后别离从图像分类与现在的检测发展历史,货架商品识别的难点、落地关键及实际行使案例等方面进走深入讲解。

本文为此次专场主讲环节的图文清理:

正文:

行家益,吾是魏勋,是上海品览数据的技术相符伙人,今天由吾为行家带来在快消零售周围的一个详细落地方案,是讲货架商品的智能巡检的行使,今先天享的主题为《商品识别算法在货架商品智能巡检中的行使》,主要分以下5个片面:

1、新零售赛道:货架搏斗

2、图像分类与现在的检测发展历史

3、货架商品识别的难点

4、货架商品识别落地实践

5、货架巡检行使实例

新零售赛道:货架搏斗

新零售的概念是马云于2016年挑出,它是用大数据、人造智能等先辈的技术形式,对商品的生产、流通与出售过程进走升级改造,进而重塑业态结议和生态圈,并对线上服务、线下体验以及当代物流进走深度融相符的零售新模式。

遵命传统,在零售周围能够分为三大元素,别离为人、货、场,人是指消耗者,货是指商品,即SKU,场是指各栽大卖场、超市、全家便利店或夫妻妻子店等。场能够再细分到最幼的有机单元,就是货架。随着新零售时代到来,货架已经逐渐成为零售企业的战场。

货架的情况包括商品有众少,它被放在那里?放在那里比较正当?同时也包括陈列哪些品类,有异国竞品,竞品是如何安放?这些对于零售企业都很主要,对于异日出售、营销的策略有很大的参考意义,以是把它称为一场关于货架的搏斗。

举个浅易的例子,比如当货架上的商品缺货了,行为一个消耗者,会做什么样的走为?能够会买别的品牌,还能够往别处买,或者干脆不买,或买另一栽类型替代。不论如何若货架上缺货时,品牌商能够会失踪46%的购买者,而零售商能够会失踪30%的购买者。

为了要打赢这场货架搏斗,吾们必须要准确的获取线下商品的实际陈列新闻。为了做到这一步,吾们必须要对货架图像中的商品进走识别,这就会用到计算机视觉周围中的图像分类和现在的检测技术。

倘若在CV周围钻研比较久的同学肯定晓畅,图像分类跟现在的检测是计算机视觉中专门基础的钻研倾向,且专门主要。图像分类是最基础的,例如上图表现的幼猫,能够直接对它进走分类,判定到底是猫照样狗。检测就额表增补了一片面,必须进走定位,才晓畅它到底是在那里,同时对定位的现在的进走分类。

从图像分类和现在的检测的发展历史来望,在2012年以前都是经历挑取手工特征,比如SIFT、HOG、LBP等,然后才有后续的分类和检测。随着AlexNet在2012年横空出世,后面一切的形式都是用了CNN或者深度学习的方式来自动挑取图像特征,进而协助吾们进走图像分类和现在的检测。

对于现在的检测的发展脉络,能够从1999年SIFT的挑出最先,还有Cascades、HOG、DPM等,这些都是2012年之前挑出用来实现现在的检测的形式。随着AlexNet挑出之后,AlexNet最早用于图像分类。2013年后,最先有学者在想现在的检测是否也能够用CNN来做,以是第一个作品是Overfeat,在与它很挨近的时间里,展现了一个专门经典的网络RCNN,然后像Fast R-CNN、Faster R-CNN还有YOLO系列及SSD和RetinaNet等。诸如此类的许众网络能够从上图中望到,从13年到了19年,这段时间里涌现了专门众的网络,标红的都是些比较有影响力的网络。

现在的检测的深度学习模型清淡是分为两栽,第一栽是两阶段模型,有Overfeat和RCNN系列,它先要对现在的框有一个比较粗的定位,然后再对粗的现在的框进走邃密的修整,同时进走分类识别。有学者觉得这太麻烦了,能不克一步到位,直接从图像里得到bounding box和它的类别新闻。这就是YOLO系列,还有SSD和RetinaNet等。清淡,两阶段模型的精度会比较高,但速度会比较慢;单阶段模型的精度清淡要矮些,但它的速度会很快,如上图右边所示,不光是说两阶段、单阶段的题目,还考虑了backbone的题目,若backbone越大,速度能够越慢。吾们能够望到联相符个backbone,在单阶段的模型下,它的速度远远要快于两阶段模型,但是精度mAP会要矮一些,这张图是在COCO数据集上计算的终局。

货架商品识别的难点

上面简要介绍了图像分类及现在的检测的大致情况,下面直接进入详细场景,就是货架商品识别。识别包含检测和分类两片面。对于货架商品识别的难点分成两块,最先,是算法难点,主要有四点。第一是商品栽类繁众,像ImageNet用来刷榜时,清淡用到1000个栽类,但商品的SKU栽类基本上是上万,甚至是几十万,对实活着界内里的SKU数目能够是百万千万级;第二是在货架场景中,清淡会摆放的专门浓密;第三是某些商品专门相通,特征望上往异国清晰的迥异,这也是图像分类的难点,只是在货架上表现水平能够会更大;第四点比较稀奇,联相符款商品能够有差别的规格,比如可口可笑,它能够会有330毫升、500毫升,或一升的,它更像是等比例缩放,由于计算机视觉天然是请求有尺度不变性的,这栽情况清淡是很难区分的。

上图是详细的图片展现,最左边的图是一个调味料的货架,能够望到栽类专门众,一排货架内里答该有几十栽,摆放也专门浓密,基本上是紧挨着的情况。中间的图是一个比较典型的情况,两个商品属于联相符个商家,左边是一个通例的,右边的能够是为了某栽运动促销稀奇专门添了100克,能够望到商品其实专门相通,除了中间众了“100克”之表,其他方面异国任何迥异。由于在PPT的图比较大,望得比较晓畅,倘若是在货架上,是很难分辨出来的。右面的图片是同类商品具有众栽规格,能够望到最左上角的酱油是300毫升,中间第二排的是500毫升,倒数第二排是800毫升。它们的表不益看很像,只是存在差别的规格,倘若你只是用通例的分类模型往训练,或者用通例的操作往处理,这三栽分错的概率很大。

第二个是数据难点,也包括四个片面。第一个是拍摄的货架能够是一栽专门倾斜的状态,倾斜很容易导致透视,许众商品就会被隐瞒,检测跟分类会受到很大的作梗;第二个是采集到的货架图片是暧昧的,内里可辨识的特征基本上望不清,第三个是货架图片翻拍,有一些从业人员能够会偷懒,对着电脑拍一张图片行为做事业绩,然后上传图片,这就是翻拍的情况,这栽翻拍也会影响模型的实在率,客户也会请求吾们把这类图片识别出来;第四个是货架图片存在曝光太甚或者曝光不及的情况,在这栽情况下货架的商品基本上望不清的。

针对上面四点,再给行家展现下,第一张图是货架太甚倾斜,在太甚倾斜的情况下,靠右边的商品还能够望出,但靠左边的商品基本上被隐瞒,即使能检测出来,它的类别也识别不了,由于大片面的特征都被隐瞒。第二张图展现货架图片暧昧的情况,暧昧导致望不清商品的主要区分特征,尤其涉及到一些比较相通的商品,暧昧基本上就望不清了。第三张图是翻拍的情况,经历肉眼能望出一些情况,它内里会有一条条纹理新闻,清淡叫摩尔纹,由屏幕的发射光和天然光纷歧样导致。末了是货架图片过黑或稀奇亮的情况,过亮时特征都被隐瞒,你只能望到一片闪亮,过黑时能够隐约望到一点,但也不晓畅详细是什么商品。

货架商品识别落地实践

下面介绍下集体落地实践的流程,流程是比较通用的。最先是数据标注,这是深度学习不可避免的。清淡先手标一片面,再行使一个比较弱的模型,进走一个预标注,末了是人造调整,这很大水平上撙节人力的成本。

第二个是模型的训练调优,经历模型选型和超参的调整往训练模型。训练完后,先做内部测试,内部测完后,还要再做公测,根据公测的逆馈,再往迭代上面的步骤,也能够会重新补一批数据,再重新训练模型,达到公测的请求之后,吾们会安放上线。现在吾们主要是云端安放的方式,模型的云端安放用的是tf serving的方式,表部端是 flask框架。

对于数据难点,其实有一句机器学习的名言:数据是模型的上限,必须要保证数据质量,你才能谈模型的实在率。以是对刚才的几栽情况:货架倾斜、暧昧、翻拍、过黑和过亮,再把图片送给模型之前,先对图像质量进走分析。实际情况能够还不止这4栽。对于货架倾斜,吾们会做一个货架检测,根据检测出来的货架层的一个角度来判定倾斜情况。后面三栽是经历图像处理的方式来进走判定,一张图片必须经历质量检测,同时已足这4个条件后,产品展厅才把它送到模型内里往做后续的检测和识别。

在最早期时,对于场景货架商品的识别,吾们直接行使检测模型来做检测,但实际上,吾们尝试了许众栽检测模型,但是凶果不太理想,mAP也很矮,只有40%旁边,与COCO的情况就差不众,SKU类别专门容易分错,根本无法商用。

通太甚析发现,最先,直接用检测模型往进走检测、识别,在COCO数据集上在SOTA模型上有54%旁边的实在率。由于数据量及SKU的栽类数目专门大,以是不容易实现。经历大量的浏览论文,发现现在的检测内里的定位和分类,其实是有肯定矛盾的,经历上图右边望到,若要检测北极熊,它关注的地方是语义新闻比较雄厚的,主要荟萃在中间的片面,对于定位清淡是更倾向于往关注物体的边界处。对于检测相等于一个众义务学习,同时往做定位跟识别,是有肯定的矛盾的,它会影响检测器的训练。

第二点是一旦更新了某些SKU,就必须要重新训练检测器。若行家对现在的检测比较熟识,发现检测器的训练会消耗很长时间,时间成本很大,训练复杂度也很高。以是,是否有一栽比较通用的检测器,能够避免了上面挑到的两栽情况。

经过众方商议,吾们决定对SKU不按详细的类别往标注,而是按它的包装对它进走标注,比如像调味品,主要以瓶装、罐装、盒装主为主,然后以这个标注再往训练检测器,定位到详细的SKU位置,之后对定位出来的SKU进走crop操作,对抠出的幼图进走后续的识别,相等于是把它分为两个阶段来做。

为什么要云云做?第一点望行使包装,包装相等于SKU的形状,吾们在对SKU形状进走定位及分类时,会减弱定位及分类之间的矛盾。第二点是SKU的栽类是成千上万甚至十几万,但是它的包装栽类数目是有限的,清淡不到10栽,具有很强的通用性。一旦训练完善后,倘若有SKU的更新,吾们不必要再重新训练。除非包装发生了很大的转折,才会重新训练检测模型。

到底要行使一个什么样的检测模型呢?在模型选型时,同时还要兼顾检测精度和速度,现在以云端安放为主,固然不请求实时性,但也期待尽量快的反响,客户经历web乞求,上传图片、做检测分类,还有后续一系列的逻辑处理,在这栽情况下,期待能够在几秒内有一个实时反响。

在V100上测试过,早期时别离尝试了Faster-RCNN、RetinaNet、YOLO v3。能够望到Faster-RCNN的backbone用的是ResNet50 FPM,它的检出率能达到能到97.1%,但是它的速度很慢,由于是一个二阶段的模型,只有6FPS;RetinaNet经过调优之后,能达到一个96.7的检出率,速度为15FPS;YOLO v3的凶果也不是稀奇理想,检出率只有94.5%,但是它的FPS很高,能超过30。右图是RetinaNet和YOLO v3对联相符张图的检测凶果,能够望到YOLO v3会把上面的两个箱体漏失踪,而且右边会众检测出非商品的东西,这个与YOLO v3的机制相关,它对如此浓密的商品摆放声援不太友益,而RetinaNet行使了一个更浓密的Anchor竖立,凶果上会更益。

介绍完检测后,下一步如何对成千上万的SKU进走有效的识别?最最先考虑用图像检索的方式,这也是比较天然、省力的思想,只必要训练一个比较通用的挑特征模型,如有一个新的SKU,只必要挑供几张样例图片行为检索库,然后对一个幼图进走识别,直接往检索库内里检索即可。以是先经历模型先挑取特征,挑完后跟检索特征库进走匹配,比如能够直接计算余弦距离或者欧式距离,然后往找Top1。经过众次实验,它的识别实在率最高也只能达到90%旁边,这是无法达到商用标准,商用标准清淡起码得到97%、98%,对有些客户比较厉肃会请求99%以上。

因为分析下来发现,最先是差别商品之间的特征迥异很大,实际场景很复杂,训练挑取特征的模型无法达到很强的鲁棒性。而且业界SOTA的图像检索形式实在率也只有90%旁边。最后,照样经历图像分类的方式对幼图进走识别。

由上图能够望出,货架上的商品摆放是专门浓密的,很容易影响定位精度,造成重框的形象,左边这张图是早期的情况,能够望到第二排下有许众的重框,第三排也是相通的情况。经过优化之后,基本上都能够把重框往失踪。分析发现用传统的 smooth-l1的回归loss,以及传统NMS技术无法高效的定位往除重复的框。吾们的改进形式是行使一栽针对性的回归loss,使得这栽浓密的商品摆放能够有比较益的回归定位。第二是行使后处理的往重框逻辑,经过这两片面操作后,最后能达到像右边的一个凶果。

针对商品相等相通的情况,比如1000栽的SKU类别,内里能够有几十栽是很相通的,相通商品之间的类间距会很幼,它混在大量的类间距很大的类别中,比如酱油跟豆瓣酱,它们能够迥异会很大,由于一个是瓶装,一个是罐装;比如两栽酱油,一栽是红烧酱油,另一栽是天然酱油,它们就很挨近,能够只是颜色上有迥异。之前也实验过用细粒度图像分类来做,但发现细粒度分类是有请求的,必须请求图片的分辨率很高,才能往做细粒度分类,货架图片清淡是几百万到千万级的像素,再从内里抠出来的幼图,宽、高能够就200×200,是无法已足用细粒度分类请求的。

能够经历一个分治的形式,对SKU进走层级划分,非相通的划在一首,相通的划在一首,相通的都联相符一个label,联相符完label后,再把相通的详细细划分。相等于在联相符层级之下,它们的类间距是在一个量级,起码分类器是不容易往无视云云的情况。

对于联相符类商品具有差别的规格,跟刚才略有迥异,由于刚刚只有相通,但还有一些特征迥异的,这边并异国太大的特征迥异,只是等比例缩放的情况,分析下来发现,对于2D计算机视觉,它自己必要已足尺度不变性,仅靠视觉特征基本是无解的,以是必须要借助非视觉特征。吾们会采用机器学习的形式来挑取一些关键有效的特征,比如高度、宽度等进走区分,当然这栽情况必须得已足拍摄距离是比较固定的。清淡拍摄距离不会有大幅的转折,而且吾们不光有高度云云的特征来进走机器学习模型的训练,还会有一些别的非视觉特征。能够有同学会问,倘若2D视觉解决不了,为什们不必3D视觉?这受限于吾们的场景,图像自己其实主要是由客户来挑供,他来调用吾们的服务,以是吾们是无法请求他持一个3D的设备往进走数据采集,这是无法做到的,也节制了吾们的一个技术实走。

货架巡检行使实例

上面介绍了把货架商品识别的难点,以及所采取的方案,下面浅易介绍下货架巡检的行使实例。比如跟欣和的配相符,它主要生产各栽调味料,像酱油、豆瓣酱等。吾们给他做益商品识别后能够用来做什么?最先,他们内部的一些陈列规则,比如望它的排面是否少于竞品,当望到联相符排内里少于竞品的,这表明什么?他们要强化这家店或者这些相关货架的陈列数目;第二个是说不在黄金位置,黄金位置是你能进到一个店里,或者是在货架眼前最容易拿到或者最容易望到的货架层的位置,清淡5层货架,第二层、第三层是黄金位置,第一层能够很不益拿得到,下面两层曲腰也不方便,以是黄金位置,对于商家来说也是很主要的一个指标;第三是缺货、陈列分歧格,望货架是否能陈列饱满;第四个是本品异国荟萃陈列,就是商品不该该隔开来放,答该放在一首。

同时也跟国内味全果汁也有配相符,吾们主要是在AI巡店通上做的产品,味全果汁包装的更新速度专门快。以是,吾们迭代的速度必须要已足他们更新速度。吾们基本能够准确地识别出他们详细有哪些果汁,以及它的一个陈列位置,以及各栽陈列新闻。

智通财经APP讯,中新控股(08207)发布公告,于2020年6月26日,公司接获联交所认为合适的第二次额外复牌指引,要求公司撤销或解除针对公司的清盘申请呈请(或命令,如有),并解除任何(临时或非临时)清盘人的任命。

原标题:LOF风险提示 基金公司多路突围

【17173新闻报道,转载请注明出处】

  财联社(上海,编辑 史正丞)讯,新冠疫情对于能源行业的冲击并不仅仅体现在短期的营收骤减,长期来看能源基建和国家能源政策也已经出现了变局的征兆。

 

    有帮助
    (1)
    100%
    没帮助
    (0)
    0%

    Powered by 临澧焚唁广告有限公司 @2018 RSS地图 html地图

    Copyright 365站群 © 2013-2018 版权所有