7 Papers & Radios | 中科大陈秀雄团队证明凯勒几何两大核心猜想;梯度归一化训练GAN
机器之心& ArXiv Weekly Radiostation参与:杜伟、楚航、罗若天本周论文包括上海交通大学等机构发布了 MedMNIST (v2) 数据集;中国科学技术大学几何物理中心创始主任陈秀雄教授与合作者程经睿在偏微分方程和复几何领域取得「里程碑式结果」,成功证明了两个国际数学界 60 多年悬而未决的核心猜想。
目录:
MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D Biomedical Image Classification
One Explanation is Not Enough: Structured Attention Graphs for Image Classification
On the constant scalar curvature K?hler metrics—A priori estimates
Trojan Source: Invisible Vulnerabilities
Gradient Normalization for Generative Adversarial Networks
SOFT: Softmax-free Transformer with Linear
Certified Patch Robustness via Smoothed Vision Transformers
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D Biomedical Image Classification
作者:Jiancheng Yang 、 Rui Shi、Donglai Wei、Zequan Liu、Lin Zhao 等
论文链接:https://arxiv.org/pdf/2110.14795.pdf
摘要:来自上海交通大学等机构的研究者发布了 MedMNIST (v2) 数据集,本数据库的构建工作由上海交通大学倪冰冰教授团队牵头完成,杨健程博士为第一作者。本文从组成、性能指标、使用方法等方面对 MedMNIST 数据集进行简要的介绍。
图一 MedMNIST v2 数据集概览
相较 MedMNIST v1,MedMNIST 新增了 2 个 2D 生物图像数据,以及 6 个 3D 生物医学图像数据。MedMNIST v2 与其他「decathlon」数据集的比较如表一所示。
表一 MedMNIST v2 与其他 「decathlon」数据集比较
MedMNIST v2 是一个大规模的 2D 和 3D 医学图像分类数据集,包含 12 个 2D 数据集和 6 个 3D 数据集,其中 2D 数据集有 708069 张图片,3D 数据集有 10214 张图片。MedMNIST v2 具有以下几个特点:
标准性:数据集具有相同的大小 28*28(2D)或 28*28*28(3D),并提供了标准的训练集、验证集和测试集的划分;
多样性:数据集包含多种模态(X 光片、视网膜 OCT、超声、CT 等)、 多种任务(多分类、二分类、多标签、有序回归), 数据集规模从百量级到十万量级不等;
轻量性:数据集尺寸小,28*28(2D)或 28*28*28(3D);
教育性:生物医学图像分析需要计算机视觉、 机器学习、 生物医学图像、 临床等多种背景知识, 所有数据均采用 CC(Creative Commons) 许可, 便于用于教育目的。
推荐:MedMNIST:18 个数据集开启 2D+3D 医学影像之旅。
论文 2:One Explanation is Not Enough: Structured Attention Graphs for Image Classification
作者:Vivswan Shitole 、 Li Fuxin、Minsuk Kahng 等
论文链接:https://arxiv.org/pdf/2011.06733.pdf
摘要:近年来,各种热点图算法五花八门,基于梯度的、基于优化的,有数百种不同的热点图算法。然而,热点图真的能解释 CNN 是怎么分类的么?
NeurIPS 2021 的一篇论文将图像分成 7x7 的网格,共 49 个小块(patch),这些小块的组合可以产生不同的遮挡方式(mask),如果遮挡之后,CNN 的分类结果和全图的分类结果相同,并且预测的概率也差不多,就可以认为这种遮挡方式之后露出的小块足以让 CNN 做出分类。这里使用集束搜索(beam search)的方式搜索出所有这样的遮挡图像。Beam search 首先将图像全部遮挡住,然后搜索所有只露出一个小块的图像,将每个图像输入 CNN 后,得到此图属于和全图同一类的概率,然后保留 K 个预测概率最高的小块 mask 进入下一轮。下一轮中在每个 mask 上试着增加一个小块,并同样保留 K 个预测概率最高的 mask,直到可以完全解释 CNN 在此图上的分类为止。
在 ImageNet 数据集上对每张图像进行搜索实验的结果见下表:
推荐:使用单张热点图解释 CNN 的局限性。
论文 3:On the constant scalar curvature K?hler metrics (I)—A priori estimatesOn the constant scalar curvature K?hler metrics (II)—Existence results
作者:陈秀雄、程经睿
论文链接:https://www.ams.org/journals/jams/2021-34-04/S0894-0347-2021-00967-0/home.html
https://www.ams.org/journals/jams/2021-34-04/S0894-0347-2021-00966-9/home.html
摘要:中国科学技术大学宣布,该校几何物理中心创始主任陈秀雄教授与合作者程经睿在偏微分方程和复几何领域取得「里程碑式结果」,成功证明了两个国际数学界 60 多年悬而未决的核心猜想。
具体来说,他们解出了一个四阶完全非线性椭圆方程,解决了若干有关凯勒流形上常标量曲率度量和卡拉比极值度量的著名问题,包括长期未决的强制性猜想和测地稳定性猜想,将对几何和偏微分方程的研究产生重要的影响。两篇论文日前发表于国际著名刊物《美国数学会杂志》。
在数学中,一个凯勒流形(K?hler manifold)是具有满足一个可积性条件的酉结构(一个 U(n)- 结构)的流形。特别地,它是一个黎曼流形、复流形以及辛流形,这三个结构两两相容。凯勒流形上的常标量曲率度量的存在性是过去六十多年来几何中的核心问题之一。关于其存在性,有三个著名的猜想——稳定性猜想、强制性猜想和测地稳定性猜想。
此外,陈 - 程的文章中还有许多其它突破性的结果。例如,他们给出了环对称凯勒流形上稳定性猜想的证明,将唐纳森在环对称凯勒曲面上的经典定理推广到了高维。关于一般稳定性猜想的证明,两位作者在文章中提出了一系列深刻的问题和可能的解决方案。尽管还有诸多困难需要克服,专家们相信稳定性猜想的完全解决已成为可能。在文章的预印本公开后的两年里,已经出现了一系列重要进展。
推荐:中科大陈秀雄团队成功证明凯勒几何两大核心猜想,研究登上《美国数学会杂志》。
论文 4:Trojan Source: Invisible Vulnerabilities
作者:Nicholas Boucher 、 Ross Anderson
论文链接:https://trojansource.codes/trojan-source.pdf
摘要:来自剑桥大学的两位研究人员发现了一个可以影响计算机代码编译器和软件开发环境的漏洞:Trojan Source(木马源) 。Trojan Source 漏洞几乎影响所有计算机语言,包括对 C、C++、C#、JavaScript、Java、Rust、Go 和 Python 都有影响,此外,恶意代码可以将其用于供应链攻击。
Trojan Source 攻击方法利用的是字符编码标准 Unicode ,有两种攻击方式:
第一种是通过 Unicode 的 Bidi 算法(CVE-2021-42574),该算法处理从左到右(如英语)和从右到左(如阿拉伯语和希伯来语)脚本显示顺序。该漏洞允许对字符进行视觉上的重新排序,使其呈现与编译器和解释器所不同的逻辑顺序;
第二种是同源攻击 (CVE-2021-42694),两个不同的字符具有相似的视觉表示,例如拉丁语 H 和西里尔字母Н。
研究人员表示如果攻击者通过逃过人类审阅成功地将目标漏洞提交到开源代码中,下游软件可能会继承该漏洞。不过在 GitHub 上的存储库中,他们提供了概念验证 (PoC) 脚本。
如下图所示,通过任意控制符改变了代码逻辑,下列代码中的 if 条件没有执行,而是被放置在注释部分,程序显示效果起到了欺骗用户的作用。
研究人员还展示了如何在 C++ 中执行同源文字攻击。他们使用了两个看起来相似但实际上不同的 H,蓝色的拉丁语 H 和红色的西里尔字母Н。当进行编译时,该程序输出文本「Goodbye, World!」。
推荐:剑桥大学发布「木马源」漏洞,引发供应链攻击。
论文 5:Gradient Normalization for Generative Adversarial Networks
作者:Yi-Lun Wu 、Hong-Han Shuai 、Zhi-Rui Tam、 Hong-Yu Chiu
论文链接:https://arxiv.org/pdf/2109.02235.pdf
摘要:来自阳明交大(National Yang Ming Chiao Tung University)研究者提出了一种新的归一化方法——梯度归一化(gradient normalization, GN),该方法旨在解决 GAN 由于陡峭的梯度空间造成的训练不稳定问题。不同于现有的梯度惩罚和谱归一化等方法,梯度归一化方法为判别函数施加了一个硬的 1 - 利普希茨约束,从而提升了判别器的性能。此外,对梯度归一化方法稍加修改,就可以将其用于不同的 GAN 架构。研究者在四个数据集上进行了大量的实验,实验结果表明使用梯度归一化训练的 GAN 在 Frechet Inception 距离(FID)和 Inception Score(IS)两种指标上的性能优于现有的方法。
研究者指出,与 SN 不同,GN 的利普希茨常量不会以神经网络的乘法形式衰减,这是因为我们将判别器视为一种通用的函数近似器,计算出的归一化项与中间层无关。梯度归一化方法有以下两个良好的特性:(1)归一化同时满足模型级、非基于采样、硬约束三个特性,并且不会引入额外的超参数。(2)GN 的实现十分简单,可以兼容各种网络架构。
下图为梯度归一化 GAN(GN-GAN)的算法:
推荐:舍弃谱归一化,ICCV 2021 论文用梯度归一化训练 GAN。
论文 6:SOFT: Softmax-free Transformer with Linear
作者:Jiachen Lu、Jinghan Yao、 Junge Zhang 等
论文链接:https://arxiv.org/pdf/2110.11945.pdf
摘要:来自复旦大学、萨里大学和华为诺亚方舟实验室的研究者在一项研究中经过深入分析表明,传统的自注意力是通过对 token 特征向量之间的缩放点积(scaled dot-product)进行归一化来计算的。保持这种 softmax 操作阻碍了线性化 Transformer 的复杂度。基于此,该研究首次提出了一种无 softmax Transformer(softmax-free transformer,SOFT)。
为了去除 self-attention 中的 softmax,使用高斯核函数(Gaussian kernel function)代替点积相似度,无需进一步归一化。这使得可以通过低秩矩阵分解来近似一个完整的自注意力矩阵。通过使用 Newton-Raphson 方法计算其 Moore-Penrose 逆来实现近似的稳健性。ImageNet 上的大量实验表明,SOFT 显着提高了现有 ViT 变体的计算效率。至关重要的是,对于线性复杂性,SOFT 中允许更长的 token 序列,从而在准确性和复杂性之间实现卓越的权衡。
所提出的无 softmax 自注意力 (SOFT) 方法的示意图
该研究的主要贡献包括:
提出了一种具有线性空间和时间复杂度的新型 softmax-free Transformer;
该研究的注意力矩阵近似是通过一种具有理论保证的新型矩阵分解算法来实现的;
为了评估该方法在视觉识别任务上的性能,该研究使用 SOFT 作为核心自注意力组件设计了一系列具有不同能力的通用骨干架构。大量实验表明,具有线性复杂性(图 1b),SOFT 模型可以将更长的图像 token 序列作为输入。因此,在模型大小相同的情况下,SOFT 在准确度 / 复杂度权衡方面优于 ImageNet [9] 分类上最先进的 CNN 和 ViT 变体(图 1a)。
推荐:复旦大学等提出线性复杂度 SOFT。
论文 7:Certified Patch Robustness via Smoothed Vision Transformers
作者:Hadi Salman 、 Saachi Jain 、 Eric Wong 等
论文链接:https://arxiv.org/pdf/2110.07719.pdf
摘要:来自 MIT 的这项研究首先显示了 ViT 可以大幅度提升鲁棒性,同时还能保持分类准确度。他们对 ViT 结构进行了一定的改进,大幅度提高了 smoothing procedure 的预测速度。将 ablation 中完全 mask 的 token 全部删掉,留下较少的 token ,预测速度大幅提升。
由于Derandomized smoothing 操作困难,特别是比较大的图像。为了解决这个问题,本文首先修改 ViT 架构,以避免在 mask 像素上进行不必要的计算。然后演示了通过大幅减少 ablation 的数量可以提供进一步的加速。这两个互补的修改极大地提高了平滑分类器的推理时间,使它们在速度上与标准(非鲁棒的)卷积架构相当。
推荐:MIT 大牛 Hadi Salman 研究表明 ViT 架构可以有效抵御图像补丁攻击 。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10篇 NLP 精选论文是:
1. Path-Enhanced Multi-Relational Question Answering with Knowledge Graph Embeddings. (from Jian Sun)2. Discovering Non-monotonic Autoregressive Orderings with Variational Inference. (from Trevor Darrell, Yang Gao)3. Diverse Distributions of Self-Supervised Tasks for Meta-Learning in NLP. (from Andrew McCallum)4. What makes us curious? analysis of a corpus of open-domain questions. (from Nello Cristianini)5. A Novel Sequence Tagging Framework for Consumer Event-Cause Extraction. (from Huan Liu)6. Cross-Domain Reasoning via Template Filling. (from Eduard Hovy)7. Social Media Reveals Urban-Rural Differences in Stress across China. (from Lyle Ungar)8. Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey. (from Eneko Agirre, Dan Roth)9. Structure-aware Fine-tuning of Sequence-to-sequence Transformers for Transition-based AMR Parsing. (from Salim Roukos)10. Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model. (from Tie-Yan Liu)
本周 10篇 CV 精选论文是:
1. Visual Keyword Spotting with Attention. (from Andrew Zisserman)2. CvS: Classification via Segmentation For Small Datasets. (from Philip S. Yu)3. Masking Modalities for Cross-modal Video Retrieval. (from Cordelia Schmid)4. Recognizing Families In the Wild (RFIW): The 5th Edition. (from Matthew A. Turk, Rama Chellappa)5. Leveraging SE(3) Equivariance for Self-Supervised Category-Level Object Pose Estimation. (from Leonidas Guibas)6. Video Salient Object Detection via Contrastive Features and Attention Modules. (from Ming-Hsuan Yang)7. Unsupervised Learning of Compositional Energy Concepts. (from Joshua B. Tenenbaum)8. 3DP3: 3D Scene Perception via Probabilistic Programming. (from Joshua B. Tenenbaum)9. Revisiting spatio-temporal layouts for compositional action recognition. (from Tinne Tuytelaars)10. Stable and Compact Face Recognition via Unlabeled Data Driven Sparse Representation-Based Classification. (from Zheng Wang, Licheng Jiao)
本周 10篇 ML 精选论文是:
1. GalilAI: Out-of-Task Distribution Detection using Causal Active Experimentation for Safe Transfer RL. (from Laurent Itti, Bernhard Sch?lkopf)2. Gradient-enhanced physics-informed neural networks for forward and inverse PDE problems. (from George Em Karniadakis)3. Convergence of Uncertainty Sampling for Active Learning. (from Francis Bach)4. AlphaD3M: Machine Learning Pipeline Synthesis. (from Kyunghyun Cho)5. Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies. (from Martin Riedmiller, Daniela Rus)6. Holistic Deep Learning. (from Dimitris Bertsimas)7. Mastering Atari Games with Limited Data. (from Pieter Abbeel, Yang Gao)8. Why Stable Learning Works? A Theory of Covariate Shift Generalization. (from Tong Zhang)9. B-Pref: Benchmarking Preference-Based Reinforcement Learning. (from Pieter Abbeel)10. Optimizing Sparse Matrix Multiplications for Graph Neural Networks. (from Zheng Wang)
?THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线