号外 为了推动OVD研究在国内的普及和发展,360人工智能研究院联合中国图象图形学学会举办了2023开放世界目标检测竞赛(链接:https://360cvgroup.github.io/OVD_Contest/),目前竞赛正在火热报名中。竞赛可以帮助大家找到OVD方向的研究同好,与他们切磋交流,并能接触实际业务场景数据,体验OVD技术在实际生产中的优势与魅力,欢迎报名和转发。360人工智能研究院简介:360人工智能研究院隶属于360技术中台。自2015年成立以来积累了大量人工智能与机器学习前沿能力,范围包括但不限于自然语言理解、机器视觉与运动、语音语义交互等方面,技术水平行业领先,核心成员和团队多次荣获AI相关比赛冠军/提名奖项,发表顶会、顶刊论文数十篇。业务落地方面,研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等360集团全量业务场景支持,支持千万级硬件设备,亿级用户,产生千亿规模数据量。2023年着重攻坚大语言模型、CV大模型和多模态大模型,为360集团和行业 AIGC技术发展应用提供底层技术支撑。作者简介:王斌:360人工智能研究院视觉引擎部,算法工程师,专注于OVD方向谢春宇:360人工智能研究院视觉引擎部,图文多模组技术Leader,专注跨模态方向冷大炜:360视觉引擎部负责人,带领CV团队在大模型+zero/few shot以及多模态+跨模态方向展开研发工作。参考文献[1] Zareian A, Rosa K D, Hu D H, et al. Open-vocabulary object detection using captions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14393-14402.[2] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.[3] Li J, Selvaraju R, Gotmare A, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. Advances in neural information processing systems, 2021, 34: 9694-9705.[4] Xie C, Cai H, Song J, et al. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework[J]. arXiv preprint arXiv:2205.03860, 2022.[5] Zhong Y, Yang J, Zhang P, et al. Regionclip: Region-based language-image pretraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16793-16803.[6] Wu X, Zhu F, Zhao R, et al. CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching[J]. arXiv preprint arXiv:2303.13076, 2023.[7] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.