专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR l

作者|吴彤
编辑|麦广炜
3月18日(周一)20:00-22:00,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛,届时方教授将分享更多前沿观察。
以下为对话(经编辑):
AI科技评论:方教授,我注意到您是计算机视觉(CV)出身,手语研究在您的研究工作中所占比重在逐年增加,能具体介绍下您是如何把两者集合起来的吗?
方昱春:简单来说,计算机视觉和手语的结合,形成了“手语识别”这一研究方向。
AI科技评论:手语识别这一研究领域过去很少人关注,国内在这方面大致经历了怎样的发展阶段?
方昱春:计算机视觉的手语识别研究经历了20年左右的发展,随着深度学习技术的发展,基于机器学习和计算机视觉的手语识别才开始蓬勃发展,近两年里手语识别研究的规模迅速增长。
AI科技评论:您认为手语识别研究的长远目标是什么?
方昱春:手语作为一种自然语言,蕴含着人类的认知智能机制。与文字语言或口语相比,手语形成的历史相对较短,这使得手语成为研究语言发展和认知机制的宝贵研究对象。
AI科技评论:方教授,手语研究现在是您研究工作的主要部分吗?对您招生方面有何影响?
方昱春:手语研究是我目前研究的主要任务之一,自从开始着手语项目以来,我投入的精力和资源都在不断增长。
AI科技评论:我最近对田英利教授的手语研究进行了专访,您可能已经看过了。田教授的研究专注于美国手语,并开发了一个实时手语语法错误识别系统。这个系统旨在为手语学习者提供即时反馈,并有望在未来提高精确度后,集成到手机或电脑中,以便将聋哑人的手语翻译给听力正常的人。请问您在这方面的研究是否有相似之处或存在差异?
方昱春:从我个人的角度来说,我对手语研究还是一个新手,我们实验了从计算机视觉角度研究手语的基本方法,我认为这些方法在应用上是具有实用价值的,对未来的理论研究也特别有帮助。
AI科技评论:手语也有“方言”之分,目前您使用的手语数据集,是否主要来自于上海一带所使用的?
方昱春:我们目前在上海进行的手语研究还处于比较基础的阶段,比如数据的分割和预处理,还没有深入到识别层面。
AI科技评论:国内目前也有中科大、西电、中科院等几支手语识别的领先团队,所使用的手语数据是否针对特定地区?
方昱春:是的,这几所单位开展手语识别研究,都具备丰厚的积累。针对特定的手语方言的研究还非常少。
AI科技评论:使用德国手语数据集进行研究会有语言不通的问题吗?这对我们的研究方法有影响吗?
方昱春:从计算机视觉的角度来看,使用德国或其他国家手语数据集是没有问题的,方法是有通用性的。视频中包含的主要是上半身的多模态运动,这些信号对我们来说都是一样的。尽管如此,从语言学的角度来看,不同语言的手语确实存在差异,因为它们属于不同的语系。
AI科技评论:在开发数字人进行手语应用时,您是否遇到了一些挑战,比如聋人群体可能无法理解数字人使用的手语,或者不同企业开发的数字人在手语表达上可能出现同质化的问题?
方昱春:首先,我们面临的最大挑战是手语数据的缺乏。
AI科技评论:我们也非常关注前沿科技对您工作的影响,比如去年推出的ChatGPT和今年的Sora,它们在自然语言处理方面取得了显著成就。这些模型背后的设计理念和技术路径,对您做手语识别研究有何启示?
方昱春:我们团队也一直在关注大语言模型的发展。我们正在计划利用学校新建的大型GPU集群,开展更多大语言模型相关的研究。
AI科技评论:我们注意到,大模型的出现让很多人希望建立一个全球或国家通用的手语大模型。但这确实面临挑战,尤其是数据获取困难。手语数据通常包含上半身,涉及肖像权和隐私问题。您是否主要使用倪兰教授收集的数据库进行数据研究?
方昱春:为了妥善使用数据,确实需要健全隐私保护机制。我们团队在数据采集和使用方面,都严格遵守隐私保护的约束。
本文作者吴彤,欢迎添加微信(icedaguniang),交流认知,互通有无。
|GAIR live 圆桌预告
3月18日晚8点~10点,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛。
本次论坛嘉宾有,美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授,共同分享他们的见解和研究成果。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的 CCF-GAIR 大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live 作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

|手语相关资料
1,《专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA
2,《Multi-Modal Multi-Channel American Sign Language Recognition》 https://gairdao.com/doi/10.1142/S2972335324500017
|IJAIRR正在邀约论文和专题
《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。
作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。
IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。
我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。
(1)“如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。
(2)如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。
(3)如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。
IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。
关于期刊创刊主编等更多信息,可点击
https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
关于雷峰网、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr。
更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。