答案:VQA是指给定一幅图片和一个与该图片相关的自然语言问题,计算机可以产生一个正确的答案。显然,这是一个典型的多模态问题,综合了CV和NLP的技术。计算机需要学会同时理解图像和文字。正因如此,直到2015年相关技术取得突破性发展,VQA的概念才正式提出。可以看出,VQA还是一个很新颖的研究方向,但是很容易让人联想到已经研究了很久的另外两个领域:文本QA和图像字幕。QA是纯文本的回答,计算机以文本的形式根据材料回答问题。相比之下,VQA将材料变成了图片,从而引入了一系列新问题:图片是更高维的数据,比纯文本有更多的噪音。
A:最近对VQA(视觉问答)产生了兴趣。所以我参考了吴琦等人的综合论文《视觉问答:方法与数据集综述》,对这个领域有了一个大概的了解。虽然只是浅尝辄止,但也收获颇丰,总结如下。VQA的意思是,给定一张图片和一个与图片相关的自然语言问题,计算机可以产生一个正确的答案。
’’我想答案是否定的。现在所有的真实数据VQA其实只做一件事,那就是模式匹配,也就是说当监测到一个特定的视觉特征时,它会直接给出一个答案,不需要任何推理。(模块网除外)其实我们小组会也做了其中一些模型的公式推导,只是我懒得打出来。
回答:其实总结就是一个问题:现在的所有模型真的能解决通用的VQA吗?我认为答案是否定的。现在所有的真实数据VQA其实只做一件事,就是模式匹配,也就是说当监测到一个特定的视觉特征时,它会直接给出答案,不需要任何推理。(模块网络除外)