大型数据集可纠正AI在视觉任务中的偏见(数据集过大)

据最新一期《自然》发表的研究,科学家建立了超过一万张人类图像的数据库,以评估并纠正人工智能(AI)模型在视觉领域存在的偏见。这一“公平的以人类为中心的图像基准”(FHIBE)由索尼AI开发,采用符合伦理手段获取、基于用户同意的数据集,可精确评估以人为中心的计算机视觉任务,从而识别、纠正偏见和刻板印象。团队认为,这是迈向更可信AI的重要一步。

计算机视觉广泛应用于自动驾驶车辆、面部识别等技术领域。许多计算机视觉使用的AI模型,其训练数据存在缺陷,可能未经同意收集,经常来自网络大规模图像抓取。人们也发现,AI模型可能会反映出延续性别歧视、种族歧视或其他刻板印象的偏见。

此次,研究团队构建了一个图像数据集,在同意机制、多样性和隐私等多方面采取了最佳实践。FHIBE包含81个国家和地区中1981名个体的10318张图像。该数据库包括了人口统计和生理特征的全面标注,包括年龄、代词类别、祖先血统、发色与肤色等。参与者获得了关于项目和潜在风险的详细信息,帮助他们做出知情同意,过程符合全面数据保护法规。这些特征使该数据库成为评估AI偏见的可靠资源。

团队将FHIBE和27个现有以人类为中心的计算机视觉应用数据集做了比较,发现FHIBE数据集在多样性与AI评估的可靠同意方面标准更高。它还有效减少了偏见,包含的参与者自我申报标注信息超过其他数据集,还包括了相当比例通常代表性不足的人群。该数据集可用于评估现有的AI模型在计算机视觉任务中的表现,能揭示更多此前无法了解的偏见。

不过,团队也承认,目前创建数据集的过程充满挑战且成本十分高昂。

【总编辑圈点】

本报近期推出了多篇关于AI易出现偏差与其尚不可靠的相关报道。本文的这项研究,则是一次对AI伦理建设具有标杆意义的实践。它最核心的价值在于,将“公平”这一抽象原则,转化为一套可操作、可验证的技术标准与工作流程。AI的偏见已经是行业顽疾,但现在可能有了一把标准量尺,使得量化评估与比较不同模型的公平性成为可能,这将直接推动算法的研发与优化。尽管其高昂成本提示了推广的难度,但这一探索本身,正是推动AI从单纯追求性能强大,转向值得人类托付之伙伴的关键点。(记者张梦然)

特别声明:[大型数据集可纠正AI在视觉任务中的偏见(数据集过大)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

收视破3,十亿人为何为这段历史沉默?(收视率破1是多少亿看)

中国广播电视艺术资料研究中心研究员李京盛解读道,剧集虽描绘了一次挫败,却让不朽的信仰之焰熊熊升起。中国人民大学副教授何天平精准点评,它走了一条“艰难却光明”的道路——不靠煽情的泪水,而是凭借扎实的史实,在历史…

收视破3,十亿人为何为这段历史沉默?(收视率破1是多少亿看)

顶流战神天才『设计师』『肖战』影帝与M.J.Lee的恋情瓜~是一枚孩子气的霸道总裁(顶流cp战神在萌娃综艺野翻了)

友人说『肖战』他女朋友小明锦其实是个贪吃的小吃货 ,一日到黑都要吃 ,平日他们的恋情交往方式就是『肖战』买买买 ,他女朋友很贪吃,一天吃不到小奶茶小咖啡就会哭 , 很爱吃 ,一闲了就要逛零食 ,所以『肖战』每天都要忙…

顶流战神天才『设计师』『肖战』影帝与M.J.Lee的恋情瓜~是一枚孩子气的霸道总裁(顶流cp战神在萌娃综艺野翻了)

2025男主前10!《水龙吟》落榜《许我耀眼》『陈伟霆』第8,冠军真帅(十大男主)

他与女主李清月之间那种“相爱相杀”、无法靠近的拉扯感,每一帧都踩在观众的爽点上。 在霸总易变“油物”的当下,『陈伟霆』却贡献了一份清爽范本:将豪门公子的无奈与骨子里的苏感平衡得恰到好处,收获好评如潮自是必然。这不…

2025男主前10!《<strong>水龙吟</strong>》落榜《<strong>许我耀眼</strong>》『陈伟霆』第8,冠军真帅(十大男主)

一张图火了十几年,她的美貌含金量还在上升(一张照片走红的女孩)

波浪形的头发和S形的曲线,走起路来的摇曳感,是一张很动态很美好的照片。 网友说:“这张照片一出现,感觉自己的眼睛都亮了”。在戛纳红毯上,她留下的一组图,本人都无法再复刻和超越。 虽然有这么多的神图,网友们…

一张图火了十几年,她的美貌含金量还在上升(一张照片走红的女孩)

奚梦瑶陪老公婆婆逛商场,穿黑色背心裙小腹隆起,像怀孕三四个月

奚梦瑶与丈夫何猷君以及婆婆梁安琪一同现身三亚国际免税店购物,此次出行发生在2025年12月9日左右。 在过去几年,奚梦瑶多次被拍到腹部微凸,引发怀孕传闻。婚后,她融入家庭,经常与婆婆共同出席活动。梁安琪的出…

奚梦瑶陪老公婆婆逛商场,穿黑色背心裙小腹隆起,像怀孕三四个月