vqa 综述

什么是vQA？

答案：VQA是指给定一幅图片和一个与该图片相关的自然语言问题，计算机可以产生一个正确的答案。显然，这是一个典型的多模态问题，综合了CV和NLP的技术。计算机需要学会同时理解图像和文字。正因如此，直到2015年相关技术取得突破性发展，VQA的概念才正式提出。可以看出，VQA还是一个很新颖的研究方向，但是很容易让人联想到已经研究了很久的另外两个领域：文本QA和图像字幕。QA是纯文本的回答，计算机以文本的形式根据材料回答问题。相比之下，VQA将材料变成了图片，从而引入了一系列新问题：图片是更高维的数据，比纯文本有更多的噪音。

什么是vQA (visual question answering 视觉问答)？

A:最近对VQA(视觉问答)产生了兴趣。所以我参考了吴琦等人的综合论文《视觉问答：方法与数据集综述》，对这个领域有了一个大概的了解。虽然只是浅尝辄止，但也收获颇丰，总结如下。VQA的意思是，给定一张图片和一个与图片相关的自然语言问题，计算机可以产生一个正确的答案。

’’我想答案是否定的。现在所有的真实数据VQA其实只做一件事，那就是模式匹配，也就是说当监测到一个特定的视觉特征时，它会直接给出一个答案，不需要任何推理。(模块网除外)其实我们小组会也做了其中一些模型的公式推导，只是我懒得打出来。

现在所有的真实数据vQA都做了什么？

什么是vQA (visual question answering 视觉问答)？

回答：其实总结就是一个问题：现在的所有模型真的能解决通用的VQA吗？我认为答案是否定的。现在所有的真实数据VQA其实只做一件事，就是模式匹配，也就是说当监测到一个特定的视觉特征时，它会直接给出答案，不需要任何推理。(模块网络除外)

参考资料

标签: 问题 VQA 文本回答 vQA
链接: vqa 综述 [2022-11-28]

免责声明

查词猫是一个由大数据和网友共同维护的在线词典工具，其大数据部分是基于自然语言处理和文本理解技术生成。如果您发现信息不准确、不完整、涉嫌侵权或违规，请通过 ai@know.email 联系我们，我们会根据相关法律规定及时处理。

未经许可，禁止商业网站等复制、抓取查词猫内容；合理使用者，请注明来源于www.chacimao.com。

基本信息

中文名: vqa 综述

摘要: 什么是vQA？答案：VQA是指给定一幅图片和一个与该图片相关的自然语言问题，计算机可以产生一个正确的答案。显然，

词条统计

所属栏目: 科技

更新时间: 2024-04-20 00:49

内容字数: 786