从“猜你喜欢”到“智能推剧”,这个男生收割了你所有的业余时间
现代年轻人大概都有两大爱好:逛淘宝 + 刷剧,看到一件好看的衣服或者追到一部精彩的电视剧往往会兴奋很久。仿佛就是在那苦闷生活里的一缕光,解放了所有的压力。小编一直非常喜欢淘宝的“猜你喜欢”功能,他仿佛就是我心里的小天使,总是给我推荐我想要的东西,让我欲罢不能!望着每天变薄的钱包空流泪...
另一点就是当我遇到一部很好看的电视剧,每每看到最后一集我总是十分伤心,觉得再也看不到能跟这一样好看的剧了,直到后来出现了“智能视频推荐”这个功能,我又是爱到无法自拔,一如当初对“猜你喜欢”的热爱...
当我知道这两个功能其实出自同一男人之手的时候,我简直对他佩服的“五体投地”... 感谢他照亮了我孤独无助的“北漂”生活。今天就让我们来认识他一下,他就是来自 阿里巴巴的资深算法专家王晓博(永叔)老师。 他目前担任阿里文娱摩酷实验室负责人,这次将会来到 AICon 全球人工智能与机器学习技术大会 现场,担任 AI 与产业互联网专场 的出品人,而我也利用这次机会,对我的“偶像”进行了一番采访,下面是采访内容:
AICon:王老师你好,十分感谢您能接受 AICon 组委会的采访,能简单介绍一下您自己和您目前的工作状态吗?
王晓博,阿里巴巴资深算法专家,目前担任优酷人工智能团队的负责人,9 年互联网算法策略从业经验。
2010 年博士毕业于北京航空航天大学计算机学院软件与理论专业;先后在百度、搜狗商务搜索部门从事广告算法策略研发工作;2015 年加入阿里巴巴推荐部门,组建猜你喜欢算法团队,短短三年内带领团队将猜你喜欢商品推荐打造为手机淘宝第一大导购场景,成为淘宝平台导购流量分发的核心入口。2018 年起负责优酷算法中心,逐渐形成多模态搜索、智能视频推荐、个性化会员营销、高清视频质量、多媒体内容理解、AR/VR 六个技术方向,为阿里文娱打造 AI 平台,助力业务高速增长。
个人主要研究方向为大规模分布式机器学习算法、计算广告、智能交互推荐系统、多媒体内容理解。
AICon:我看到您的个人履历中有个很有趣的经历,就是您之前曾经在淘宝负责过“猜你喜欢”功能,这本身是一个很受大家欢迎的功能,可以简单介绍一下它出现的契机,以及是如何实现的吗?
淘宝在 2013 年开始全面无线化的时候,最初的做法主要把 PC 版本上的功能迁移到手机端,但购物是一个比较低频的动作,无线时代的战场甚至直到今天 APP 使用时长都是各个公司的兵家必争之地,而内容是拉升使用时长的有效手段。在几年前,类似于买手、网红、直播这些业务并没有出现,而作为电商购物网站上信息最多的就是商品了,我们和产品经理们不断的讨论,最终碰撞出了猜你喜欢这样一个商品双列信息流产品,初心比较简单,商品即内容、内容即商品。从开始只是早手淘首页下方出 20 个商品卡片,到今天整个首页几十种不同种类的卡片形成的个性化信息流分发,猜你喜欢逐渐成为了一个业界知名的产品。
它背后的实现机制比较复杂,但其核心就是商品的推荐引擎,用到最多的也是基于用户行为的协同过滤(i2i),但基于深度学习的向量匹配、标签召回、主题匹配、热门探索等策略也广泛应用于猜你喜欢场景。商品推荐的最终目的是促成用户的购买成单,如何选取一个好的优化目标是能否做好的关键,在 2015 年淘宝个性化推荐大规模使用后,不少人将推荐的一些老问题重新抛出来对应到电商推荐中去,比如买了还推、惊喜性、发现性、人和货的冷启动等等,但我们最终想要优化的是成交,所以把当天的 GMV(成交额)改为远期 GMV 作为新的优化目标即可。
AICon:我们看到您目前是在阿里大文娱这边负责摩酷实验室,可以介绍一下目前实验室的几大研究方向吗?
文娱摩酷实验室致力于为行业打造一套涉及视频内容全生命周期的一站式解决方案,具体列举如下:
视频智能生产:包括后期影像处理、封面图个性化生成、highlights、节目周边视频创作工具。
视频元素化解构:视频理解、自动化标签、视频分割、多模态信息抽取
视频分发:视频搜索与推荐。
互动视频:植入式 2d/3d 元素渲染、6DoF 全视角视频。
AICon:优酷其实之前的搜索引擎主要还是文字单模态的检索,您到来之后对检索推荐技术做了哪些改变呢?
由于有 upgc 上传的海量视频,而单模态信息常会出现缺失,比如视频标题、描述与视频内容不符或者词不达意;另外用户查询意图上也呈现出多元化的趋势,不再聚焦于头部节目名称,而出现了很多针对视频语义做查询的检索,这些对于视频检索推荐都提出了新的要求。我来优酷后主要抓了如下几件事情:
视频的元素化解构
视频多模态分析语义标签
从节目系列、节目、视频等一直到关键帧中的对象,构建起多级视频索引
输入侧支持多模态的查询,如文字、图像甚至语音
AICon:多模态检索推荐是个什么样的技术?可以简单介绍一下他是如何在具体应用场景中体现价值的吗?
I 表达学习:在视频的搜索和推荐中,应用比较广泛的叫做表达学习。就是传统的搜索和推荐,都是基于关键字的,或者基于视频的 id 去学 Embedding 做检索。那如何将语音、图像以及文字,多模态的信息转换成实值的向量,用于在搜索推荐中做更丰富维度的召回?向量化是应用比较广泛的技术,用很多种的方法都可以把它转换成实值向量,但是如何能够确保学到东西以及有用的信息,目前是没有很好的方法进行验证的。过去比较常用的手段都是一些间接的方法,比如把学到的向量直接作为特征加到点击率、转化率等模型里,然后看实际的线上表现是否有收益。
II 模态映射:视频作为一个多媒体的数据源,不仅包括有文字、语音,图像等信息。比如在语音里面提到的一个实体,那对应的在图像中也可能会存在。如果只分析单个模态,都做实体抽取的研究和操作,当实体提取之后,在不同模态之间如何去对应的产生映射,这是比较有挑战的问题。
III 模态对齐与协同学习:由于多媒体的数据在数据获取上都是一个非常有挑战性的工作,同时标注的成本也是非常高的。比如图像维度里的图像做分割,做一个像素级的标注,即使一个非常熟练的标注人员,如果按照像素级标注的话,一二十分钟才能标注一张图片,一张图片的成本大概就要八到十块钱, 标注数据的获取还是非常难的。每一个模态的标注,像语音、图像、文字 (文字的成本相对低一点) 等,都是非常困难的。如何把模态之间的这些标注数据联合起来,进而扩大数据集,在各个模态之间进行协同学习, 是解决数据量不够这一问题的关键方法。目前多模态检索推荐被广泛应用于视频分发的场景,比如在视频搜索中所覆盖到的语义检索上点击率有一倍以上的提升,而视频多模态标签更是成为视频推荐的重要基础设施。
AICon:产业互联网是最近热门的一个概念,从市场反应来看,大家是拥抱这个趋势的。但落地过程中又会遇到很多实际的问题,您觉得 AI 技术可以为产业互联网的落地带来哪些帮助呢?
产业 + 互联网是目前一个大的趋势,而我们过去做的比较多的是把业务数字化,涉及比较多的是如何帮助行业去做提效,再利用规模效应去降低成本,进而去提升整体的生产力。这其中有一个问题我们始终无法回避,目前的 AI 技术仍然属于弱人工智能范畴,它和人工之间不是个谁取代谁的关系,在现阶段中我们必须要考虑的是如何将机器智能与人的领域知识相结合,进而能够使得 AI 技术能够被应用于产业中更为复杂的问题。在 5G 和人工智能深度相结合的未来,AI 不仅要能够更好的理解和使用数字化所产生的技术,而且要能够帮助行业产生更多的数据,从业务数据化走向数据业务化,进而打造出新的生产力。
以上就是 AICon 对于王老师做的简单采访,还想进一步跟王老师交流的可以来大会现场面基。
AICon 大会 汇集了来自 Google、Facebook、Twitter、BAT、字节跳动、美团、滴滴、京东 等一线互联网公司的 50+ 优秀 AI 技术案例,邀请 颜水成、贾扬清、崔宝秋、吴华 等 60+AI 技术大咖带来精彩的内容分享。
想了解详情的同学可以点击下方“阅读原文”了解详情。也可联系票务小姐姐:18514549229(同微信)。
阅读原文
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线