全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-10-22_“AI李佳琦”:“哦买尬,买它!”,清北中科院CMU争相角逐

您的位置:首页 >> 新闻 >> 行业资讯

“AI李佳琦”:“哦买尬,买它!”,清北中科院CMU争相角逐 来源:量子位 看场直播或视频,结果却看中了主播的衣服、裤子甚至裙子? 现在,你不再需要手动截图识别了—— 已经有人将AI用在直播商品识别技术中,帮你自动“挑出”其中的商品。 为了提升AI识别直播商品的准确率,阿里淘系技术联手浙江大学,在全球顶会ACM MM 2021的Workshop上搞了个AI识别大赛,甚至拿出1万美金(6.3万人民币)奖励TOP 3。 来自清华、北大、中科院、CMU、浙大、哈工大、华科等高校的587支队伍纷纷参赛,力图研究出更好的算法。 最终,来自中科院计算所的「mcg」夺得冠军,来自北大、南京大学、湖南大学的「写的代码都队」夺得亚军,来自中南大学、DGUT和华南理工大学的「百亿补贴matchmatchmatch」获得第三名。 这场比赛究竟比了些什么,背后的Workshop又有些什么内容? 我们一起来看看。 多模态技术识别主播带货相比于用一张截图进行商品识别,直播的商品识别还需要考虑更多因素。 从难度来看,直播时主播并非完全不动,而是会走动、转动来展示商品的形态,衣服非常容易发生形变、模糊; 同时,画面背景中还存在其它衣服的干扰、同时还可能面临直播遮挡、服装相似等问题。 从优势来看,直播时呈现给AI的信息量也会更多,包括主播的语音、带货商品标题等,都会在画面直播的同时呈现出来。 如果能结合语音识别,通过多模态技术增加模型输入信息量,就能有效提升商品检索的准确率。 具体来说,直播商品识别的过程是这样的: 首先,对输入的视频解析成视频帧,再利用AI目标检测进行商品识别; 然后,再从视频中提取出语音进行AI语音识别,利用AI模型提取出有用的商品描述信息。 最后,利用多模态获取的信息,在商品数据集中进行检索,预测出最合适的商品,并给出对应的标签。 为了让选手们更好地识别商品,淘系技术还通过这个Workshop,开源了业界首个大规模的多模态视频商品检索数据集,包括50000对匹配的视频片段。 其中,这些视频片段都是从淘宝直播和产品商店的直播中提取的。 标注也非常详细,包括产品类别、边界框、视点类型、展示类型、实例ID、标题描述和语音识别文本都有所涉及。 事实上,这已经不是淘系技术第一次举办这项比赛了。 中科院再次夺冠这场今年4月27日发起的比赛,是第二届淘宝直播商品大赛。 这是一个多模态领域的国际挑战赛,由阿里巴巴淘系技术联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起。 相比于第一届大赛,第二届大赛在赛题设计上,主要做了两点改进: 注重全类别的识别效果,尤其是长尾的商品类别、视觉纹理简单商品的识别等 强调多模态等信息(主播讲解语音、商品标题),对精确识别视觉相似讲解商品的重要性 也就是说,这届AI模型考验的不止是某几种商品的识别准确率,而是AI对直播中商品的“整体理解能力”。 除了看清楚商品以外,AI还需要知道这是哪种类别的商品,并尽可能收集视频中的各种信息,包括语音信息等,来确认自己看到的是哪一种商品。 同时,由于这次更注重长尾商品类别的识别,因为各类别数据集的大小不一样,评估方式自然也要有所变化。 这里采用了Macro F1的评估标准,计算方法如下: 比赛也需要通过预赛、半决赛和决赛三场比赛,从最初的提交结果中依次筛选出20支和10支队伍,进行最终的测试集测试,并进行复现。 最终,来自中科院计算所的「mcg」从587支队伍中脱颖而出,取得了0.69的高分,超过baseline 0.22,排名TOP 3的三支队伍评估分数也均超过0.6。 而在第一届淘宝直播商品识别大赛中,同样也是来自中科院和吉林大学的队伍夺得冠军。 这场比赛的目的,是希望能推动电商直播场景中多模态商品检索识别的研究、以及AI技术在实际应用场景中的落地。 当然,除了这一场比赛之外,在ACM MM 2021的Workshop中,还有不少收获。 共收录5篇论文一方面,在论文征集部分,这次Workshop一共接收了5篇论文,包括两篇long paper,三篇short paper: 此外,还有不少AI领域的教授也在这次Workshop上做了演讲,其中就包括新加坡国立大学计算机学院的KITHCT讲座教授Tat-Seng Chua、北京航空航天大学的刘偲副教授、悉尼科技大学青年研究员朱霖潮、淘系技术高级算法专家陈志文。 除此之外,来自中科院、北大、中南大学、清华、华中科技大学的五位同学也在这场Workshop上进行了口头报告,分享了他们的参赛方案和成果。 对于这次Workshop的目的,阿里巴巴淘系技术资深算法专家李晓波表示: 这次Workshop通过提供真实的多模态商品识别的应用场景、数据,希望能够促进更多学术和工业的结合,激发更多创新研究和技术落地。 对这个场景感兴趣的小伙伴,可以在下方地址中获取开源数据集~ 淘宝直播多媒体商品识别数据集: https://tianchi.aliyun.com/competition/entrance/531893/information 参考链接: https://tianchi.aliyun.com/competition/entrance/531893/introduction 推荐阅读【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载! 一文总结微软研究院Transformer霸榜模型三部曲! Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源 加性注意力机制!清华和MSRA提出Fastformer:又快又好的Transformer新变体! MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展! 周志华教授:如何做研究与写论文?(附完整的PPT全文) 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何? 常用 Normalization 方法的总结与思考:BN、LN、IN、GN 注意力可以使MLP完全替代CNN吗?未来有哪些研究方向? 欢迎大家加入DLer-计算机视觉&Transformer群! 大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明) ??长按识别,邀请您进群!

上一篇:2021-03-18_「转」ResNets王者回归!谷歌、伯克利联合发文:它当初输给EfficientNets不是架构问题 下一篇:2024-10-21_贾冰宝马X5的创意 , 你看明白了吗

TAG标签:

20
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价