蚂蚁持续发力AI研发，24篇论文入选计算机视觉顶会CVPR2024

蚂蚁持续发力AI研发，24篇论文入选计算机视觉顶会CVPR2024观点

观察君

2024-06-18 14:38

分享到：

导读

当地时间6月17日，为期5天的IEEE国际计算机视觉与模式识别会议（CVPR2024）在美国西雅图举办。

当地时间6月17日，为期5天的IEEE国际计算机视觉与模式识别会议（CVPR2024）在美国西雅图举办。官方数据显示，本届会议共收到11532篇有效论文投稿，接收了其中2719篇，录用率为23.6%，比例低于往年。

CVPR主办方是IEEE，为全球计算机视觉三大顶会之一，迄今举办了40次会议。本届会议蚂蚁集团有24篇论文被收录，其中一篇被组委会重点推荐（highlight）。24篇论文研究方向包括计算机视觉、深度学习、数字人、大模型等。

被组委会重点推荐的论文“用于时序一致性视频处理的内容变形场”，提出了一种全新的视频处理方法CoDeF，它能将视频处理简化为图像处理。相较于传统方法，CoDeF能够实现跨帧一致性，跟踪烟雾、水流等非刚性物体，支持各种图像算法直接用于视频处理。用户只需要处理每个视频对应的静态规范图像，通过形变场的变换，就可将图像处理结果自然地沿着时间维度进行传播，达到对整个视频处理的目的，也因此保证了高度的时序一致性。

据了解，这二十余篇学术成果，有部分已经在真实业务场景中落地应用。比如“面向地球观测影像通用解译的多模态遥感基础模型”一文，介绍了蚂蚁自研的多模态遥感基础模型SkySense，它是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。在17 项国际权威测试场景中，SkySense 的指标全面超过国际同类产品。

目前，SkySense已应用于网商银行的卫星遥感风控系统“大山雀”，可精准识别和捕捉20多种农作物的种类和长势，让它们成为银行认可的资产抵押物，从而灵活、随时给到种粮户合理的贷款额度和还款周期。

还有部分学术成果，致力于优化和提高AI的可靠性、经济性和易用性，为AI持续降本增效，以推动大模型在真实场景，尤其是严谨产业中得以规模化落地应用。比如“基于promp的视觉语言模型无监督蒸馏”一文，提出了一种基于可学习提示的视觉语言模型 CLIP 的蒸馏方法，可将大型 CLIP 教师模型的知识迁移至轻量级 CLIP 学生模型中。这是将大模型做“小”，提高AI经济性的有效技术解决方案，AI降本，大模型应用才有可能成为主流。实验结果表明，该蒸馏方法训练出的模型，在多个数据集上达到了最先进的性能。

据介绍，蚂蚁此次被CVPR收录的24篇论文中，有13篇出自蚂蚁技术研究院。作为蚂蚁聚焦前瞻科技的科研团队，蚂蚁技术研究院设立了交互智能、数据库、图计算、计算系统、程序设计语言与编译器、密码学等六个实验室，以推动实现几个阶段性目标：在人工智能方向，能做出真正通过图灵测试的智能模型，以及可以以假乱真、实时可交互的高精度数字人；在隐私计算方向，实现隐私计算软硬件结合加速10万倍；在数据方向，做到让数据库更智能，以及在图计算上部署大脑模拟和融合神经科学的智能机理研究。

据了解，清华大学、南京大学、华中科技大学、哈尔滨工业大学、西安电子科技大学、华南理工大学、腾讯、字节跳动等国内高校和互联网企业均有论文被该会议收录。在这波生成式AI科技浪潮下，国内校企正在发力积极参与其中。

蚂蚁计算机视觉顶会

分享到：

1.TMT观察网遵循行业规范，任何转载的稿件都会明确标注作者和来源；
2.TMT观察网的原创文章，请转载时务必注明文章作者和"来源：TMT观察网"，不尊重原创的行为TMT观察网或将追究责任；
3.作者投稿可能会经TMT观察网编辑修改或补充。