北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。
今年共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。
作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。
摘要:该研究提出了一种对场景运动建模图像 - 空间先验的方法。该先验是从集合中学到的从真实视频序列中提取的运动轨迹,描绘了物体的自然振荡动力学,例如树木、衣服等物体在风中摇曳。该研究建模傅立叶域中密集的长期运动作为频谱体积(spectral volume),研究团队发现这非常适合用扩散模型预测。
给定单个图像,该研究训练的模型使用频率协调扩散采样过程来预测频谱体积,还可以转换为跨越整个视频的运动纹理(motion texture)。
与基于图像的渲染模块一起,预测的运动表征可用于许多下游应用,例如将静止图像变成无缝循环视频,或者允许用户与真实图像中的对象进行交互,产生逼真的模拟动态。
机构:加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学
从论文作者一栏我们可以看到,这项研究有多位华人参与,其中 Youwei Liang 是加利福尼亚大学圣迭戈分校电子与计算机工程系的一名博士生,在此之前,他是华南农业大学信息与计算机科学专业的本科生;Junfeng He 来自谷歌,此前他硕士毕业于清华大学。
摘要:最近,文本到图像(T2I)生成模型取得重大进展,能够根据文本描述生成高分辨率图像。然而,许多生成的图像仍然存在伪影 / 不可信、与事实不符、美观度低等问题。
受人类反馈强化学习(RLHF)成功用于大型语言模型的启发,该研究通过以下方式来丰富反馈信号:
该研究创建了 18K 生成图像数据集 RichHF-18K,并在 RichHF-18K 上收集了丰富的人类反馈,并训练多模态 transformer 来自动预测反馈。该研究证明预测的人类反馈可用于改进图像生成,例如通过选择高质量的训练数据微调和改进生成模型,或者通过创建掩码来修复有问题的图像区域。
机构:俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院
摘要:从无人机到个人手机,各种相机收集的自然世界图像日益成为生物信息的丰富来源。计算方法和工具的爆炸式增长,特别是计算机视觉,用于从科学和保护图像中提取生物学相关信息。然而,其中大多数都是为特定任务设计的定制方法,不容易适应或扩展到新的问题、上下文和数据集。研究者急需一个用于图像上一般生物体生物学问题的视觉模型。
为了实现这一目标,该研究策划并发布了 TREEOFLIFE-10M,这是规模最大、最多样化的生物图像数据集 ML-ready。基于此,研究者开发了基础模型 BIOCLIP,主要用于构建生命之树(tree of life),利用 TREEOFLIFE-10M 捕捉到的生物学独特属性,即植物、动物和真菌图像的丰富性和多样性,以及丰富的结构化生物学知识。
研究者在各种细粒度生物学分类任务上对本文方法进行了严格的基准测试,发现 BIOCLIP 的表现始终显著优于现有基线%)。
内在评估表明,BIOCLIP 已经学会了符合生命之树的分层表示,这揭示了其强大的通用性。
机构:图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学
摘要:最近,3D 高斯泼溅技术在新颖视图合成方面展示了令人印象深刻的成果,达到了高保真度和效率水平。然而,当改变采样率时(例如通过改变焦距或摄像机距离),强烈的伪影现象可能会出现。
3D 高斯泼溅通过将 3D 对象表示为被投影到图像平面上的 3D 高斯函数,随后在屏幕空间中进行 2D 膨胀处理,如图 (a) 所示。该方法的内在收缩偏差导致退化的 3D 高斯函数超出采样限制,如图 (b) 中的 δ 函数所示,而由于膨胀操作,其渲染效果类似于 2D。然而,当改变采样率(通过焦距或相机距离)时,会观察到强烈的膨胀效应(c)和高频伪影(d)。
该研究团队发现这种现象的原因可以归因于缺乏 3D 频率约束以及使用了 2D dilation filter。为了解决这个问题,他们引入了一种 3D smoothing filter,该滤波器根据输入视图引起的最大采样频率来约束 3D Gaussian primitives 的大小,从而在放大时消除高频伪影。
此外,作者团队用 2D Mip fikaiyun手机网 开云登录网址lter 替换 2D dilation filter,这种滤波器模拟了 2D box filter,有效地缓解了走样和膨胀问题。研究者根据评估,包括在单尺度图像上训练和多尺度测试等场景,验证了这种方法的有效性。
Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。
青年研究者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励他们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。
另外,Katie Bouman(加州理工学院)获得了青年研究者奖荣誉提名。
在 CVPR 2020 上,为了纪念 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。