人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

在图表问答领域,研究人员通过对人类视觉行为的深入分析,显著提高了大型视觉语言模型(LVLMs)的问答准确性。来自不列颠哥伦比亚大学的Ali Salamatian、Amirhossein Abaskohi和Wan-Cyuan Fan等研究团队推出了名为ChartGaze的新数据集,专注于捕捉人类在解读图表时的注视模式,旨在改善模型在图表问答中的表现。

图表作为传达复杂信息的重要工具,然而现有的视觉语言模型在解读图表时往往偏向于不重要的细节,导致准确性下降。研究团队通过使用高精度眼动追踪设备,记录参与者在回答图表相关问题时的注视点,从而创建出一个包含4638个注视图的丰富数据集。这一方法的优势在于,相比于传统的鼠标移动追踪,眼动追踪提供了更精确、一致的注意力地图,确保了数据的可靠性。

ChartGaze数据集的构建过程中,研究人员从VisText和ChartQA数据集中提取真实世界的图表,并利用GPT-4o生成每个图表标题的3至5个问答对,确保了数据集的丰富性和多样性。通过系统的分析,研究团队发现LVLMs在解读图表时的关注点与人类的注视模式存在显著差异,这影响了模型的可解释性和回答的准确性。

为了解决这一问题,研究团队提出了一种注视引导的注意力优化技术,旨在将模型的注意力与人类的注视点对齐。经过实验证明,这一方法能够将图表问答的准确率提高多达2.56个百分点,显著优于仅依赖语言损失的传统微调方法。此外,经过注视监督训练的模型生成的注意力图更具可解释性,更好地反映了人类的视觉关注,增强了模型在金融和科学研究等高风险领域的透明度和可靠性。

该研究不仅展示了人类视觉对图表理解的重要性,还为未来的研究指明了方向。虽然目前的成果主要集中在简单图表和是/否问题上,研究团队计划进一步探索如何将注意力优化整合到指令调优的模型中,并扩展到更复杂的图表类型和问题格式,以更全面地理解任务复杂性对注意力的影响。这一创新的研究成果无疑为图表问答系统的未来发展奠定了坚实基础。

特别声明:[人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

网红脸的短剧女主,撑不起雍容华贵的古装,个个像顶着个违章建筑(网红 脸)

直到她的另一套淡雅造型出来,没有了那些点缀人设的发饰,才发现问题出在发套上,一个又大又圆的发圈包在脑门上,在夜晚都锃光瓦亮,一时不知道让观众羡慕她的发量还是发质。 这部剧的妆造槽多无口,公主、皇后、妃子,每…

网红脸的短剧女主,撑不起雍容华贵的古装,个个像顶着个违章建筑(网红 脸)

樱桃 孕期可吃的“营养小炸弹” 但要注意这点(樱桃孕期可以吃吗)

  孕期饮食总是牵动着准妈妈们的心,酸甜可口的樱桃更是不少孕妇的心头好。那么怀孕到底能不能吃樱桃?又该如何科学食用呢?今天就来详细聊聊这个话题。

樱桃 孕期可吃的“营养小炸弹” 但要注意这点(樱桃孕期可以吃吗)

达诺智能集团 全自动金精炼系统 湿法分金系统定制金电解槽系统(达诺智能集团)

在生产过程中,能够有效处理产生的尾气,确保各项环保指标达标,实现绿色生产。 湖南达诺智能集团的湿法分金系统,以其灵活的产能、广泛的原料适应性、卓越的产品质量和环保的生产理念,成为贵金属回收与精炼行业的理想之选…

达诺智能集团 全自动金精炼系统 湿法分金系统定制金电解槽系统(达诺智能集团)

电容笔哪个牌子好?五款2026年最值得买的平替电容,手把手教你怎么选!(电容笔哪个牌子好?有没有好用的电容笔推荐!)

另外它采用了与apple pencil同款的POM材质笔尖,书写起来流畅度很高,被很多数码测评博主誉为最佳平替电容笔,还搭载了百万级高阶压感架构与全局防误触功能,可以轻松实现线条粗细与浓淡的自然过渡,并且用…

电容笔哪个牌子好?五款2026年最值得买的平替电容,手把手教你怎么选!(电容笔哪个牌子好?有没有好用的电容笔推荐!)

46岁『殷桃』的“豪宅”又火了,仅一院子就圈粉无数,那叫一个壮观!

最近她的豪宅又爆火,让人看到了她平时生活的悠闲和享受。 不过她把自己的生活和事业分的很开,能让自己很好的平衡它们,而『殷桃』分享的各种植物都让大家看到了自然界的魅力,也感受到了她心中的宁静和美好。 希望她能一…

46岁『殷桃』的“豪宅”又火了,仅一院子就圈粉无数,那叫一个壮观!