人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

在图表问答领域,研究人员通过对人类视觉行为的深入分析,显著提高了大型视觉语言模型(LVLMs)的问答准确性。来自不列颠哥伦比亚大学的Ali Salamatian、Amirhossein Abaskohi和Wan-Cyuan Fan等研究团队推出了名为ChartGaze的新数据集,专注于捕捉人类在解读图表时的注视模式,旨在改善模型在图表问答中的表现。

图表作为传达复杂信息的重要工具,然而现有的视觉语言模型在解读图表时往往偏向于不重要的细节,导致准确性下降。研究团队通过使用高精度眼动追踪设备,记录参与者在回答图表相关问题时的注视点,从而创建出一个包含4638个注视图的丰富数据集。这一方法的优势在于,相比于传统的鼠标移动追踪,眼动追踪提供了更精确、一致的注意力地图,确保了数据的可靠性。

ChartGaze数据集的构建过程中,研究人员从VisText和ChartQA数据集中提取真实世界的图表,并利用GPT-4o生成每个图表标题的3至5个问答对,确保了数据集的丰富性和多样性。通过系统的分析,研究团队发现LVLMs在解读图表时的关注点与人类的注视模式存在显著差异,这影响了模型的可解释性和回答的准确性。

为了解决这一问题,研究团队提出了一种注视引导的注意力优化技术,旨在将模型的注意力与人类的注视点对齐。经过实验证明,这一方法能够将图表问答的准确率提高多达2.56个百分点,显著优于仅依赖语言损失的传统微调方法。此外,经过注视监督训练的模型生成的注意力图更具可解释性,更好地反映了人类的视觉关注,增强了模型在金融和科学研究等高风险领域的透明度和可靠性。

该研究不仅展示了人类视觉对图表理解的重要性,还为未来的研究指明了方向。虽然目前的成果主要集中在简单图表和是/否问题上,研究团队计划进一步探索如何将注意力优化整合到指令调优的模型中,并扩展到更复杂的图表类型和问题格式,以更全面地理解任务复杂性对注意力的影响。这一创新的研究成果无疑为图表问答系统的未来发展奠定了坚实基础。

特别声明:[人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

庆余年》中,官配林婉儿是最适合范闲的吗?其实这个妹子才是(庆余年中林若甫结局)

在这几位女子当中,尽管林婉儿与范闲的关系最为亲密,但她真的就是最适合范闲的人选吗?尽管她能理解范闲的一些行为,但她很难与他在灵魂上达到真正的契合。她在朝堂上是一个端庄有礼的圣女,但在私下里,她却可以毫不拘束地…

《<strong>庆余年</strong>》中,官配林婉儿是最适合范闲的吗?其实这个妹子才是(庆余年中林若甫结局)

经典艺术717(经典艺术家蔡祖逖)

她的面部表情沉静而略带一丝迷离,眼神不直视镜头,反而营造出一种“不设防”的亲近感,让观者仿佛能触摸到她内心的柔软与宁静。王欣滢在这张照片中展现出的,不仅是外在的美貌,更是一种由内而外散发的、属于年轻一代的自由…

经典艺术717(经典艺术家蔡祖逖)

『成毅』VS『肖战』!央视盛典上演“古装双雄”正面刚?(『成毅』粉丝许多『肖战』粉吗)

当《长安二十四计》的谢淮安在雪夜密室以眼神撕裂权谋迷局,当《藏海传》的藏海于朝堂之上咳血布局——2026年央视电视剧年度盛典,竟成了『成毅』与『肖战』两大顶流的“古装剧王”终极对决现场! 一边是『成毅』凭《长安二十四计》…

『成毅』VS『肖战』!央视盛典上演“古装双雄”正面刚?(『成毅』粉丝许多『肖战』粉吗)

台军展示的攻击无人机仅5秒就坠地 “台版弹簧刀”失灵(台军展示的攻击是什么)

台军首次展示了“劲蜂一型”攻击无人机的性能,但仅5秒后就坠落在海滩上,引发广泛关注。这款无人机被称为“台版弹簧刀”。据台湾媒体报道,台防务部门在1月27日至30日举办“台军2026年春节加强战备媒体邀访活动”

台军展示的攻击无人机仅5秒就坠地 “台版弹簧刀”失灵(台军展示的攻击是什么)

星条红与皇室蓝2》正式开始制作 主题为婚礼(星条红与皇室蓝无删减版多长时间)

北京时间12月30日消息,据外国媒体报道,热门小说改编电影续集《星条红与皇室蓝2》来了,该片正式获制作许可开绿灯,宣布定名《Red,White &amp; Royal Wedding》(上一部名为《Red, …

《<strong>星条红与皇室蓝2</strong>》正式开始制作 主题为婚礼(星条红与皇室蓝无删减版多长时间)