全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2023-02-03_快速回顾计算机视觉的2022

您的位置:首页 >> 新闻 >> 行业资讯

快速回顾计算机视觉的2022 作者 | Shivansh Kaushal 译者 | 马可薇 策划 | 刘燕 人工智能的分支之一,计算机视觉为机器提供了对图像的高层次理解,以及连人类都无法匹及的图像任务处理能力。2022 年是计算机视觉的蓬勃发展之年,也是迄今以来计算机视觉生产力的巅峰之年,其中有无数新科技的出现、新产品的发行、新模型的形成,以及更新的推出。在今年的众多创新之中,我列出了 2022 年十大最有用、最强大,也是最流行的计算机视觉话题。 目标检测与跟踪 目标检测和跟踪是 2022 年计算机视觉中最主要,也最优秀的研究领域。最早的目标检测研究可追溯到 2000 年,而在其后的 20 年间该领域发展迅速、成果显著,目标检测算法也不断得到改善,其在计算机视觉领域应用很广,如自动驾驶车辆、安全监控等等。下面我们将尝试分析目标检测与跟踪。 顾名思义,目标检测是指识别特定目标并确定其在图像中的位置,而目标跟踪则是指识别特定目标及其在视频中的位置。2021 年为止最先进的(SOTA)目标识别技术是 YOLOv5,而目标跟踪中最常用的跟踪算法则是 MOT 和 Deepsort。到了 2022 年,以下这两项技术直接让目标检测和跟踪领域炸开了锅。 YOLOv7 Yolov7 是 YOLO 系列的最新版本,也是当今最先进的目标检测技术,在速度和准确率方面领先其他所有的目标检测算法。 来源:github 从上图可知,YOLOv7 性能相较前代所有 YOLO 有了 120% 的提速。 ByteTrack ByteTrack 是多目标跟踪(MOT)系统,MOT 是跟踪视频单帧内多个目标的移动轨迹的过程。多数 MOT 算法依赖于置信分数和阈值,并忽略分数较低的目标。但 ByteTrack 算法则不同,该算法不仅不会忽略得分较低对象,且不依赖检测到对象的置信分数。该算法会跟踪低得分对象,并根据其他帧内的相似性检测实际对象及对应路径跟踪。低得分对象匹配小型跟踪器,而如果目标确实存在,便可被检测出来。ByteTrack 模型在被遮挡的(目标隐藏在其他目标之后)目标跟踪上也表现得很好。 该算法的 MOTA 得分达到了 80.3。 来源:github 更多关于 ByteTrack 信息可查看这篇论文。 图像与视频生成 技术发展至今,已经可以根据对图片或场景的文字描述生成图片或视频了。这是 2022 年最激动人心的计算机视觉技术了,人们可以借助其将自己的构想可视化,并分享给他人。以分数为基础的,扩散生成模型的一种通用训练方式是软截断,2021 年在 CIFAR-10、CelebA、CelebA-HQ 256×256,以及 STL-10 数据集均达到了最先进的成果。该领域不断发展,众多如 meta、谷歌、OpenAI 等大型公司都发布了各种不同的技术和方法。2022 年所推出的部分工具如下: Imagen 由谷歌开发、于 2022 年推出的 Imagen,是一款文本转图像的扩散模型,可以将图片描述转为逼真图像。扩散模型是可用于生成高分辨率图片的生成模型,过程大致分为两步,模型首先会在图像中随机添加高斯噪音,之后再通过移除噪音学习流程的逆转,从而生成新的数据。 Imagen 首先将文本编码,再利用一系列扩散模型生成高分辨率图像。这是一项很有趣的技术,人们可以通过文本描述,将自己的创造性思维具象化,瞬间就能生成自己想要的东西。 图片描述:在时代广场骑车的柯基犬,戴着太阳镜和一顶沙滩帽输出: 来源:谷歌 文本编码器会将给定的描述编码,扩散模型再以此为基础生成高分辨率图像。可参考这篇研究论文。 Make-A-Video 还有什么能比文本转图像跟有趣的呢?哈!你猜的没错。2022 年 Meta 推出的 Make-A-Video,可以根据对图片的描述生成一段视频。模型会根据带有文本描述的图片生成相符的视频,甚至还可以利用无标签视频学习,并优化生成的视频。 模型的概念可以用三个简单步骤解释:首先是文本转图像,之后再从无监督视频片段中提取实例,最后利用插值网络填补帧数从而生成视频。其中使用了大量模型相结合才能生成高分辨率视频。关于该技术的更多信息,可参考阅读下面的研究论文链接。 来源:makeavideo.studio 这项发明非常令人兴奋,且可探索的还有很多。它应用也甚是广泛,比如让静态图像动起来,让自己的想象跃然屏上。可以参考这篇研究论文。 DALL-E2 OpenAI 开发并于 2022 年推出的人工智能系统 DALL-E2,可以将文本描述转换为逼真图像或绘画。类似的技术有很多,但 DALL-E2 也非常值得花些时间探索。我认为 DALL-E2 是目前为止最优秀的图像生成模型之一。 该模型利用修改后的一个 GPT-3 版本,用网上数以百万的图片训练。DALL-E 借助 NLP 技术理解输入文字的含义,结合计算机视觉技术进行图片生成。通过对图片及其对应文本描述的训练,学习文字与视觉特征之间的关联,并借此生成与输入文本信息相符的图像。 如果你对这项技术感兴趣,可以查看这篇研究论文以获取更多细节。 FILM:大运动帧插值 FILM 是另一项由谷歌开发的视频生成模型,可将相类似且相隔几帧的图片转换为慢动作视频。该模型通过在两帧之间插入帧,让生成的视频就像是慢动作相机所拍摄的一样。两帧之间的差距并不好处理,但特征提取器可以解决这个问题。关于更多的概念讲解,或许我会在另一篇博文中描述,本文中只是概述。 代码和预训练模型可进一步参考谷歌研究的 GitHub,该模型所生成的短视频就像是用苹果手机慢动作中所拍摄的动态照片,如果我们错失了完美镜头,那么就可以用 FILM 来帮我们解决问题! 视频来源:film-net.github.io 更多内容可参考这篇论文。 Infinite Nature Zero:用静态图片生产 3D 航拍你或许也见过电影或者野生动物纪录片中那些神奇片段,无论是摄像机扫拍自然风景的酷炫镜头,还是异常华丽的云层延迟摄影。谷歌的研究团队在 2022 年所推出的 Infinite Nature Zero 模型都可以利用静态图片生成这些惊人的影像。是的,你没听错,是静态图片。模型名称中的“零(Zero)”意味着它无需任何训练视频即可生成视频。 该模型使用 GAN(生成式对抗网络)生成图片,利用自监督图像生成,训练模式采样类似的场景下,相似的相机角度和轨迹,模型可以无需任何视频的输入生成令人着迷的视频。 视频 2来源:infinite-nature-zero.github.io 更多内容可参考这篇论文。 在图片问题中应用TransformerTransformers 是用于并行机制的自注意力神经网络,通过学习语句的逻辑和语义,进行自然语言处理。该技术与其他 NLP 技术的不同点在于,其他 NLP 技术可一次性或“并行”处理文本,而 Transformer 则更高效,即使是相隔较远的单词也可以进行上下文比较和分析,从而更好地对文本预测和上下文分析。 来源:维基百科 类似与 Transformer 的视觉 Transformer 性能超越了当前顶尖的 CNN,且可被广泛用于计算机视觉任务。由于其超越 CNN 的准确性和速度,视觉 Transformer 在这个领域中应用也愈发广泛。 其中一些在 2022 年计算机视觉中爆红的技术有: 缩放视觉 Transformers 视觉 Transformer(ViT)在多个计算机视觉基准上取得了顶尖的成果。在 ImageNet 数据集上,ViT 达到了 90.45% 的综合准确率,也是迄今为止的最高得分。其中,缩放是让模型取得如此之高准确率的关键要素。目前已有一些数据及模型缩放的实验及分析,也已达到最终完善的架构。关于该技术的更多信息,可参考这篇论文。 Pix2Seq:目标检测的新语言接口谷歌于 2022 年推出的目标检测算法 Pix2Seq,可以 NLP 中对下一个单词预测的形式,进行目标检测。Pix2Seq 以界限框为标记,训练对图片的理解,从而生成更多类似的界限框。该模型未使用数据增强或其他算法常用的技术,即在 COCO 数据集上达到了惊人的准确率。 自监督学习 自监督学习是 2022 年最为热门的话题之一。自监督学习算法无需明确标签作为输入,而以数据本身的部分为学习对象。自监督学习算法可以解决我们过度依赖标签数据的问题,算法自动生成的标签让问题从无监督变为了有监督学习。 以下是 2022 年所推出的一些在计算机视觉领域的自监督学习技术: Data2vec 在 2022 年一月便已推出的 Data2Vec,可用于学习语言、NLP,以及计算机视觉数据中的模式。与传统算法中需要以成千上万的图片为输入不同,Data2Vec 背后的逻辑是以被遮挡或不完整的图像为输入,如下面这张猫图片中,模型仅拿到了 20% 的原始数据,再通过模式分析和学习数据抽象表征来预测输出。 模型可借此重新构建输出图像,如下所示: 与之前的方法相比,该模型展现出了性能的领先,可参考这篇研究论文。 优化迁移学习 迁移学习给数据科学爱好者们帮了不少忙。这项技术利用 VGG-16 这类预训练模型在自定义数据集上执行类似的任务,在目标数据集上重新利用模型训练时的权重进行训练。如此一来,我们不用再用数以百万的图片训练模型,也不用担心模型的准确性和其他方面,时间和精力都得到了极大的节约。 迁移学习发展很快,在 2022 一年之中也有了不少改善和优化,以下则是一些在今年中爆红的技术: 零样本模型的稳定微调 顾名思义,零样本模型是指模型没有针对任何数据库进行微调。这项技术在特定的分布上已被证明其准确性,但却会随着分布变化导致稳定性下降。该技术是利用了零样本模型的权重与微调模型(WiSE-FT)之间的巧妙组合。 在 ImageNet 数据集中,微调可在分布偏移 4% 至 6% 的情况下,提升 1.6 个百分点的准确性。关于更多零样本模型的稳定微调的内容可参阅这篇论文。 使用完全交叉 Transformer 的小样本目标检测小样本目标检测是指模型使用极少量训练样本进行新实例检测的任务,该方法可解决我们过于依赖海量标注图像的问题。上一代小样本目标检测的顶尖技术是使用了双分支孪生神经网络,而神经网络中所遇到的问题都可由完全交叉 Transformer 模型解决。 该方法背后的逻辑是,通过编码少量用作训练实例的图像,将交叉 Transformer 用作于骨干网络和检测头,用 SGD 优化训练,减少真实与错误预测类别间的误差。关于更多使用完全交叉 Transformer 的小样本目标检测可查看这篇论文。 结论 本文中并不全面地概述了计算机视觉领域在 2022 年推出且流行的最新科技,并大致了解了这些技术中部分概念。计算机视觉领域十分宽广,且还在不断发展,还有很多等待我们的探索和发现,在不久的将来也会有很多机遇。欢迎各位对我们今天讨论的主题进行研究,并深入领略计算机视觉的风光。希望你喜欢这篇文章,并期待着探索。 查看英文原文:Computer Vision in 2022 – A Quick Recap by Shivansh Kaushal 你也「在看」吗? ??

上一篇:2021-06-19_价值或超4.5亿?改变世界的9555行原始代码,正被万维网之父作为NFT拍卖 下一篇:2022-11-08_见证历史!数学家张益唐北大讲座:本质上已证明“零点猜想”,111页论文已公开

TAG标签:

16
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价