查词猫

vqa 综述

什么是vQA?

答案:VQA是指给定一幅图片和一个与该图片相关的自然语言问题,计算机可以产生一个正确的答案。显然,这是一个典型的多模态问题,综合了CV和NLP的技术。计算机需要学会同时理解图像和文字。正因如此,直到2015年相关技术取得突破性发展,VQA的概念才正式提出。可以看出,VQA还是一个很新颖的研究方向,但是很容易让人联想到已经研究了很久的另外两个领域:文本QA和图像字幕。QA是纯文本的回答,计算机以文本的形式根据材料回答问题。相比之下,VQA将材料变成了图片,从而引入了一系列新问题:图片是更高维的数据,比纯文本有更多的噪音。

什么是vQA (visual question answering 视觉问答)?

A:最近对VQA(视觉问答)产生了兴趣。所以我参考了吴琦等人的综合论文《视觉问答:方法与数据集综述》,对这个领域有了一个大概的了解。虽然只是浅尝辄止,但也收获颇丰,总结如下。VQA的意思是,给定一张图片和一个与图片相关的自然语言问题,计算机可以产生一个正确的答案。

’’我想答案是否定的。现在所有的真实数据VQA其实只做一件事,那就是模式匹配,也就是说当监测到一个特定的视觉特征时,它会直接给出一个答案,不需要任何推理。(模块网除外)其实我们小组会也做了其中一些模型的公式推导,只是我懒得打出来。

现在所有的真实数据vQA都做了什么?

回答:其实总结就是一个问题:现在的所有模型真的能解决通用的VQA吗?我认为答案是否定的。现在所有的真实数据VQA其实只做一件事,就是模式匹配,也就是说当监测到一个特定的视觉特征时,它会直接给出答案,不需要任何推理。(模块网络除外)

参考资料
  1. 标签: 问题 VQA 文本 回答 vQA
  2. 链接: vqa 综述 [2022-11-28]
免责声明
查词猫是一个由大数据和网友共同维护的在线词典工具,其大数据部分是基于自然语言处理和文本理解技术生成。如果您发现信息不准确、不完整、涉嫌侵权或违规,请通过 ai@know.email 联系我们,我们会根据相关法律规定及时处理。
未经许可,禁止商业网站等复制、抓取查词猫内容;合理使用者,请注明来源于www.chacimao.com
基本信息
中文名
vqa 综述
摘要
什么是vQA?答案:VQA是指给定一幅图片和一个与该图片相关的自然语言问题,计算机可以产生一个正确的答案。显然,
词条统计
所属栏目
更新时间
2024-04-20 00:49
内容字数
786