近日,European Conference on Computer Vision (ECCV) 2024,即2024欧洲计算机视觉国际会议在米兰举行。会议与CVPR和ICCV并称为计算机视觉方向的三大顶级会议。ECCV 2024的投稿量约为13000篇,接收了2395篇论文,录取率为19.0%,其中又有188篇入选口头报告论文,入选率仅为1.5%。ECCV作为计算机视觉领域的三大顶级会议之一,汇聚了众多学者与企业代表,为创新研究与应用提供了广阔的平台。
此次盛会,电信学院黄双萍教授课题组和郭锴凌副教授课题组的三位博士参加现场论文报告,展示了各自的研究成果,涵盖了“扩散驱动的联邦持续学习”、“三维重建和新视点渲染”以及“个性化视觉生成”等前沿话题。
01|利用扩散模型赋能联邦持续学习
梁景麟博士的文章《Diffusion-Driven Data Replay: A Novel Approach to Combat Forgetting in Federated Class Continual Learning》被ECCV 2024收录为口头报告论文。内容是通过扩散模型进行数据重放,缓解联邦持续学习中的灾难性遗忘现象。他们提出基于扩散模型的联邦类反转技术,实现了高质量,低资源需求的数据重放,并通过对比学习约束,增强了模型在生成数据和真实数据之间的泛化能力。
图 1 梁景麟博士口头报告现场
02|提升3D渲染质量的
Analytic-Splatting创新技术
Analytic-Splatting,这是一种用于改善三维场景渲染质量的新型反走样技术。梁智灏博士的论文在ECCV2024上进行了口头报告(Oral Presentation)。
近年来,神经渲染技术,尤其是Neural Radiance Fields (NeRF) 的发展,推动了新视角合成的进步。然而,NeRF在渲染效率与质量之间的权衡限制了实时应用。为此,3D Gaussian Splatting (3DGS)被提出,通过将场景表示为各向异性的3D高斯,成功实现了高质量实时渲染。然而,3DGS在不同分辨率下可能出现模糊或锯齿现象,因为它将每个像素视为孤立点,导致对像素足迹变化不敏感。为解决这一问题,梁智灏博士团队提出了Analytic-Splatting,采用条件逻辑函数作为一维高斯信号累积分布函数的解析近似,并引入二维像素着色,解析近似每个像素窗口的高斯积分。这一方法提高了反走样能力,提供了更多细节与更好的保真度。他们的研究表明,对像素窗口响应的精确近似对高质量图像合成至关重要。他们希望这一创新为未来的神经渲染与计算机图形学研究提供新的视角。
图 4 梁智灏博士口头报告现场
03|深度学习驱动的视觉生成
与手写文字生成研究
代港博士的研究领域是视觉生成, 通过与欧洲同行深入交流,探讨了当前领域的问题及未来方向。这次交流,代港展示了一种新型的手写文字生成方法,能够仅凭一张样本临摹用户的书写风格。该方法结合了高频风格编码和自适应噪声过滤,显著提高了生成的质量。这个的模型在多个语言数据集上表现优异,超越了依赖多张样本的现有方法。
04|跨越不确定性:
语音驱动3D面部动画的新突破
此外,黄双萍教授课题组的徐之昊、龚圣杰同学的论文也被ECCV会议接收,他们在ECCV 2024上展示的论文《KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding》主要用于解决语音驱动3D面部动画中的跨模态映射不确定性问题。语音驱动的3D面部动画广泛应用于虚拟现实、电影和游戏中,但从语音到面部运动的映射具有多样性和不确定性,现有方法难以保证时序连贯性和视听一致性。他们提出了一种渐进学习机制,首先通过关键运动嵌入生成关键表情,然后插值中间动作,减少不确定性并简化学习过程。该方法结合了基于音素定位的关键帧获取和跨模态运动补全,显著提高了唇部同步和面部运动的整体连贯性。研究为语音驱动的3D面部动画提供了新的解决方案。
图文|韩仪钊
编辑|赵春梦
初审|燕维英
复审|曾抒姝
终审|张 健
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/45346.html