NeurIPS 2020线上分享 | 腾讯科恩实验室:深度学习在软件安全领域的应用研究
二进制代码 - 源代码匹配是计算机安全领域的一项重要任务。很多应用都聚焦于二进制代码与源代码的匹配,如代码克隆检测、开源代码复用识别和逆向工程等。与此同时,源代码 - 二进制代码的反向匹配也非常有用。
然而,由于二进制代码和源代码之间存在着巨大的差异,所以解决二进制代码 - 源代码匹配任务并不容易。传统的匹配算法,如 20 世纪 50 年代提出并发展的 Hungarian Algorithm(匈牙利算法),可以用来计算代码相似性。但是,这些算法需要解决以下两个主要问题:其一,由于只使用了代码的字面值(literals),它们无法达到高准确度。包含更多信息的潜在特征值也被忽略了;其二,它们需要专家经验来选择特征和进行特征工程,耗费了大量时间。
腾讯安全科恩实验室被NeurIPS 2020 接收的论文《CodeCMR: Cross-Modal Retrieval For
Function-Level Binary Source Code Matching》中,研究者首次提出了基于 AI 的二进制代码 / 源代码端到端匹配算法,与传统算法相比效果非常出色,准确率大幅提升。该研究成果为逆向分析领域提供了新思路,大大提升工业部署效率。
机器之心最新一期 NeurIPS 线上分享邀请到了该论文一作、腾讯安全科恩实验室的算法研究员于泽平,为大家详细解读此前沿研究。
分享主题:基于跨模态检索的二进制代码 - 源代码匹配 CodeCMR
分享嘉宾:于泽平,腾讯安全科恩实验室的算法研究员,研究方向是利用 AI 算法解决安全问题,目前主要关注自然语言处理、图神经网络、度量学习、强化学习等方向。
分享概要:二进制代码 - 源代码匹配是信息安全领域的重点研究方向之一。在给定二进制代码的情况下,逆向分析研究人员希望找到它对应的源代码,从而提升逆向分析的效率和准确率。传统算法提取源代码和二进制代码的字符串、立即数等特征进行匹配。但这种方法匹配准确率不高,且需要大量的专家经验。
本文首次提出了一种基于 AI 的二进制代码 / 源代码端到端匹配模型:CodeCMR 框架,实现了对代码间隐藏语义特征的自动提取,从而使准确率大幅提升。CodeCMR 框架能够以不同模型对源代码特征和二进制代码特征两大模块的语义、字符串、立即数等三大输入特征进行向量计算,并以在基础上用拼接 + BatchNorm 方式最终实现高效匹配转化。其中,在语义特征识别中,端到端的 GNN 模型表现出更强的健壮性,对于破解传统算法高专家经验的痛点起到关键作用。与此同时,在两大模块的向量采样阶段,Norm weighted sampling 与随机采样和 distance weighted 采样方法相比也表现出了更好的匹配效果。
直播时间:北京时间 11 月 17 日 20:00-21:00
论文链接:https://keenlab.tencent.com/zh/whitepapers/neurips-2020-cameraready.pdf
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。添加机器之心小助手(syncedai5),备注「2020」,加入本次直播群。
ps:如果小助手无法添加,请将「微信 ID」发送邮件到 dujiahao@jiqizhixin.com,我们将与你联系,邀你入群。
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线