Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

简介:

Facebook将反馈融入AI系统,视觉障碍者现在也能读懂照片啦

雷锋网按:Automatic Alt-Text (AAT) 的发布让盲人(或使用屏幕阅读器的用户)更好地读懂新闻推送  (News Feeds) 里的照片的内容。以访谈,可用性测试以及调查为手段的用户研究给工具的发明提供了帮助。我们将在本文简要介绍这项工作的一些亮点,雷锋网(公众号:雷锋网)独家编译,未经许可不得转载。

这项工作的主要作者、数据科学家Shaomei Wu将会出席本周在波特兰举办的CSCW 2017,届时她将在会上详细介绍该工具的功能以及所进行的研究。如果您想面对面探讨,请在会上和我们联系。

背景

众所周知,Facebook的新闻推送大多都带有图像和视频,随着配备高画质相机的手机上越来越普及,大家分享的图像和视频会越来越多。通过视觉媒体让大家观看和讨论所发生的事,是Facebook提供的一项关键功能。事实上,人们每天在Facebook、Instagram、Messenger和WhatsApp上分享的照片超过20亿张。听起来不错吧?有人欢喜有人愁,对盲人等有视觉障碍的人来说,他们注定很难参与围绕图片展开的交流。

Facebook的目标是于创造一个更加开放、互联的世界,和赋予人们分享的能力。超过3900万的盲人和2.46亿有严重视力障碍的人分布在全球,他们都曾经有过因为不能全程参与以照片和视频为中心的交流而感到被排斥或被孤立的沮丧经历。为了让更多的人参与图片社交,Facebook推出了AAT技术,希望屏幕阅读器用户也能够理解新闻推送中大部分图像的内容(有望很快覆盖所有图像!)。

Facebook将反馈融入AI系统,视觉障碍者现在也能读懂照片啦

前世今生

该从哪里开始克服这个挑战?关于如何创建AAT和构建计算机视觉模型的Lumos技术,详情请参考Face-book数据科学家Shaomei Wu以前的技术帖子。在这里,我们聚焦如何和盲人合作从而给他们创造绝佳的用户体验。

从以前的研究中可知,一些服务会使用定制化的服务(或叫好友帮忙)来描述照片,这种服务一张照片对应一个请求。不幸的是,这种方法存在一些缺点:

•耗时很长

•需要一个愿意执行任务的人在场

•浏览新闻推送被中途打断

•最重要的是很难进行扩展

然而积极的一面是,朋友或被委托人针对照片给出的翻译可以达到很高的精准度。考虑到你们的关系,朋友还可能提供额外的图片信息(例如绘声绘色地进行描述或讲一个隐藏其中的玩笑)。但是如何取其精华去其糟粕地扩展这个方案?为此我们的目标是革新这种定制服务,以此构建一个新的Facebook功能。

AAT项目通过寻求更佳的算法,针对照片得出有用和准确的描述,这种方法不会受限于用户的知识面,可以在更大范围进行扩展。由于alt-text具有HTML属性的这个设计,可作为图像的替换文本,网页的图像内容管理员可以轻松把图像更换为alt-text,并且采用W3C可访问性标准,当用户把屏幕阅读器软件的光标移动到任一图像上,软件都能对图像进行识别和朗读。

研究

在构建可扩展的稳定人工智能系统的10个月里,我们完成了两类研究。我们对Shaomei Wu设计的原型进行了质性研究和可用性测试,从中找出了系统的关键性缺陷,并对原型系统进行了改善。系统发布后,以前感到沮丧和困惑的人们现在惊喜又感谢。对研究结果进行三角测量的另一种方法是进行这样一个实验:告知并获得测试者(实验组)的同意为他们启用一项实验功能,与没有启用该功能的组(控制组)进行同样的实验。两组成员都是VoiceOver Facebook iOS用户。

访谈和可用性测试

在这个过程中我们遇到的最大挑战,是平衡人类想获得更多图片信息的欲望和图片蕴含信息的质量以及不同智力之间的平衡。解读视觉文本是非常主观和依赖背景,例如,即使人们主要关心谁在照片里以及他们在做什么,有时候背景才是使照片有趣或重要的关键。这个关键的发现最终决定了我们呈现给用户的句子是如何构成的。

此外,对人类来说轻挑选出照片最有趣的部分易举就能,这事对即使最聪明的人工智也是难如登天。社会知识和大量有效的反馈是这项服务提供绝佳用户体验的关键,我们希望最终能实现这点!通过访谈我们意识到,相较于遗漏大家不确定的事物,给出错误的信息往往更糟糕,例如,系统不小心把照片里一位娇小女性误认为一个小孩。我们同样吸取其他公司的AI系统把事情变得糟糕的教训,例如把人类描述成动物,这会使各方处于苦恼境地。如果用户知道朋友并没有孩子,系统给出这样的评论会导致用户难堪和引起社交尴尬。牢记我们与开发团队要创建这样的一个系统:

•可以大规模识别内容

•可以挑选照片中有趣的概念或事物

•可以向用户提供有意义的反馈

•可以无缝互动

在定性研究过程中我们学到最后一个大教训是,不要谈论AI从照片中得出哪些概念的确定性有多大,这非常重要。否则据我们所知,谈论这点会使参与者觉得这个系统不吉利或者非常不智能,并对系统逐渐产生不信任感。我们的补救措施是,(高于AI一定精度阈值的前提下)极度肯定从照片中得出的概念,并把复述评价AI系统所得概念有多正确的功能删除。尽管准确度提高了,系统初始版本能识别出至少一个概念的照片比例,占到了上传到Facebook所有图片的50%以上,随着时间的推移,这个数字将随着更好的技术问世而上升。

开展试验以来,和这些乐于助人的参与者一起工作,让我们在如何面试盲人这方面受益良多,我们希望把一些实用的建议分享给做盲人定性研究的同行。

一个小小的经验是,即使他们根据自己的需要预设了辅助功能,也要让盲人参与者自带设备,因为这让他们在研究中更舒适自然(对任何参与者来说都是一个好建议)。

另一个提示是要求使用屏幕阅读器的用户将语音速率稍微降低,这样参与者才能既跟得上读音又能出声思考。出声思考在很多方面都是关于参与者究竟如何解读屏幕阅读器所读出的话。如果思维跟不上这两个声音(即参与者和阅读器的声音),即表示您错过了一半的信息。在开始这阶段之前,学习使用屏幕阅读器将使您成为一个更有效率的主持人。

最后,一些研究人员说,招聘屏幕阅读器用户极具挑战性,因为许多用户体验招聘者不熟悉这类人群,与倡导团体(例如Lighthouse,感谢您的支持)合作,或者联系专业招聘人员寻找参与者更加高效。

调查

未知的定性理解还太多,为此我们把研究转向更全面、被更广泛理解地描述AAT的使用感受的方向,调查了大约550名确定有一种(或以上)视力障碍或失明参与者。如上所述,总样本大约9,000份,我们收到来自控制组(使用普通版本Facebook)和实验组(使用ATT版Facebook)的综合反馈。参与者都填写了几乎相同的问题,唯一的区别是实验组会问一些关于AAT的问题。参与者都能选择参与抽奖活动,十名幸运儿获得了亚马逊的100美元礼品券。

与其他调查一样,为目标受访者设计一个简洁、通俗易懂的调查很重要,为盲人用户创建调查,我们发现了一些实用技巧:

•避免使用水平单选按钮和拖放问题。前者比垂直选项更难分页,而后者则不可能应用到屏幕阅读器上。

•避免使用矩阵和星级评分问题。前者有时在HTML侧不会被正确地标记,也就不可能分辨矩阵中的应答者在哪,而后者应该被替换为非图形HTML元素,使不同的屏幕阅读器能通用地访问。

•避免给屏幕阅读器提供返回功能,否则误触导致的错误会频频发生。

•相比调查使用鼠标操作系统的视力正常用户,在屏幕阅读器上进行调查所花的时间更长。如果屏幕阅读器用户响应调查对您来说很重要,那么首先引导用户阅读简介很重要。

•与传统的优秀调查设计一样,尽量减少每页的问题,避免认知复杂性和导航问题。

•使用间距来确保单选按钮和复选框与其标签关联清楚,能避免出现模糊与混乱。

•缩略语在调查中很常见。然而并非所有受访者都对它们熟悉或记得住,屏幕阅读器可能会混淆字母缩写和缩略语的发音。“首字母缩写”和“缩略语”提示标签可以用于缓解这一点,并且“标题”属性在需要的时候可以提供更多的信息。

调查/实验结果:亮点

相比于没有打开AAT功能的控制组,测试组中的人员认为AAT作用很大,他们的答案也反映出了这一点。更广泛地,测试组的参与者更有可能这样做:

•给新闻推送中的照片点赞(或对照片作出回复)

•相比于非AAT用户,认为Facebook更关心可访问性

•总体而言,相比于非AAT用户,认为Facebook更有用

•最重要的是,能在更短的时间内弄清楚照片中内容

调查的样本问题:

我们请AAT用户确认,在点击新闻推送中的照片时,是否听到这样一句话:“图片可能包含......”,如果他们说真的有听到这句话,我们会问他们几个问题!

问题:(如果在测试组)听到这个替换文本后,感觉如何?(检查所有适用)

测试组中的受访者在听完图片中的替换文本后,一组随机词语随即被提供给他们选择,让他们用这些词语描述听完的感觉,此外我们还设立了一组可以随意描述感受的参照组。根据我们的研究结果,我们发现 着重强调愉快(29%),惊讶(26%)和印象深刻(25%)等的积极词语遥遥领先。

问题:(要回答这个问题,请回想在新闻推送中最后的几张照片)分辨出这些照片是和什么有关的难易程度有多大?

两者在回答“稍微容易”(23%vs2%)和“极其困难”(42%vs73%)的这两个难度上,差距都很大,这点展现了ATT的附加价值

Facebook将反馈融入AI系统,视觉障碍者现在也能读懂照片啦

下一步呢?

我们承认这一功能还不成熟,该如何改进AAT,几乎所有受访者都在他们的写入反馈上提出了建议。这些建议集中在以下两个类别:

•从图像中提取和识别文本(29%的人提了这个建议)

•尽可能提供图像中人物的信息(26%的人提了这个建议)

其他请求包括扩展算法的词汇、增加现有标签的调用、使AAT在更多的语言和平台中可用。

最后的想法

将快速增长的视觉社交网络覆盖更多地区的前景让我们感到兴奋。对Omid来说,这是他在无障碍领域的第一次深度探索,能接触到和以往所从事的完全不同类型的统计学让他十分着迷。Julie以前的工作是让服务更容易互联,这项工作让她以前的工作和Facebook出色的工程能力连接起来。

Facebook担起致力于使世界更加开放和连接的使命,Facebook无障碍团队 (accessibility team) 将在为每个人提供卓越用户体验的路上继续探索。在成功实现这项功能的基础上,我们聘请了第一个全职的无障碍研究员,现在团队上下都对未来的发展充满憧憬。

本文作者:陈鸣鸠

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
27天前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
AI算法分析,智慧城管AI智能识别系统源码
|
1月前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【2月更文挑战第15天】 在数字化时代,网络安全已成为全球关注的焦点。传统的安全防御手段在面对日益复杂的网络威胁时显得捉襟见肘。本文将探讨如何利用人工智能(AI)技术构建一个自适应的网络安全防御系统。该系统能够实时分析网络流量,自动识别和响应潜在威胁,从而提供一种更加动态和灵活的安全保护机制。通过深度学习算法的不断进化,这种系统能够预测和适应新型攻击模式,显著提高防御效率和准确性。
|
1天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
27 10
|
6天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
16 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
12天前
|
机器学习/深度学习 人工智能 运维
构建未来:AI驱动的自适应网络安全防御系统
【4月更文挑战第7天】 在数字时代的浪潮中,网络安全已成为维系信息完整性、保障用户隐私和确保商业连续性的关键。传统的安全防御策略,受限于其静态性质和对新型威胁的响应迟缓,已难以满足日益增长的安全需求。本文将探讨如何利用人工智能(AI)技术打造一个自适应的网络安全防御系统,该系统能够实时分析网络流量,自动识别并响应未知威胁,从而提供更为强大和灵活的保护机制。通过深入剖析AI算法的核心原理及其在网络安全中的应用,我们将展望一个由AI赋能的、更加智能和安全的网络环境。
25 0
|
30天前
|
人工智能 算法 搜索推荐
构建未来:AI在持续学习系统中的创新应用
【2月更文挑战第30天】 本文聚焦于人工智能(AI)技术在持续学习系统(CLS)中的前沿应用,探讨了AI如何促进个体和组织的知识演进与技能提升。通过分析自适应学习算法、数据驱动的个性化推荐以及智能辅助决策支持等关键技术,揭示了AI在推动终身学习和知识管理领域的创新潜力。文章还考察了这些技术在实际部署中面临的挑战,包括数据隐私保护、算法透明度和系统集成问题,并提出了相应的解决策略。
22 3
|
1月前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的创新应用
【2月更文挑战第29天】 在人工智能的不断进步中,一个引人注目的领域是持续学习系统(Continuous Learning Systems, CLS)。这类系统旨在模拟人类学习过程,允许AI模型在不断接收新信息的同时,保持并增强其先前的知识。本文将探讨AI在持续学习领域的最新技术进展,分析其对现有教育模式、工业应用及个人发展的深远影响,同时提出当前面临的主要挑战和潜在的解决方案。
19 1
|
1月前
|
机器学习/深度学习 人工智能 算法
构建未来:AI驱动的自适应网络安全防御系统
【2月更文挑战第27天】 在数字化进程加速的背景下,网络安全威胁日益增长,传统的安全防御机制逐渐显得力不从心。本文提出一种基于人工智能技术的自适应网络安全防御系统架构,旨在通过实时分析网络行为和自动调整防御策略来应对复杂多变的网络攻击。该系统利用机器学习算法对异常行为进行检测与分类,并结合深度学习技术实现攻击模式的预测和响应策略的动态优化。文章详细阐述了系统的设计理念、关键技术以及预期效能,展望了AI技术在网络安全领域应用的未来趋势。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI驱动的自适应网络安全防御系统
【2月更文挑战第26天】 在数字化时代,网络安全已成为维护信息完整性、确保业务连续性的关键。随着攻击手段的不断进化,传统的安全防御措施已不足以应对日益复杂的威胁。本文将探讨人工智能(AI)如何革新网络安全领域,构建一个自适应的防御系统。通过分析当前网络威胁的演变趋势,结合AI技术的实时数据分析、模式识别和自我学习能力,提出一种智能化的安全框架。该框架能够动态调整安全策略,预防未知攻击,并减少误报,从而为网络环境提供更加坚固的保护。
|
1月前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的应用
【2月更文挑战第24天】 随着人工智能技术的飞速发展,持续学习系统(Continuous Learning Systems, CLS)已成为AI研究的前沿领域。这类系统旨在模拟人类学习过程,实现机器学习模型在学习新任务时不遗忘旧知识的能力。本文将深入探讨AI在构建持续学习系统中的关键技术和挑战,包括知识蒸馏、正则化策略、记忆增强网络等方法。通过这些技术,AI能够逐步建立起类似人类的学习曲线,为未来的自适应和普适性学习铺平道路。