随着大型语言模型(LLM)的出现,具有越来越令人印象深刻的范围,已经提出了许多大型视觉模型(LVLM),以使LLM具有视觉输入。这样的模型在输入显示和文本提示下生成了文本,从而实现了各种用例,例如视觉问答和多模式聊天。虽然先前的研究检查了LLMS产生的文本中所包含的社会偏见,但该主题在LVLM中得到了相对尚未探索的。检查LVLMS中的社会偏见尤其具有挑战性,这是因为在文本和视觉方式中所包含的信息所产生的偏见的混乱贡献。为了解决这个挑战性问题,我们对不同的LVLM产生的文本进行了大规模研究,该文本在反事实上对输入图像进行了更改,从而从流行模型中提出了超过5700万个响应。我们的多维偏见评估框架表明,图像中描述的种族,性别和身体特征等社会属性可能会显着影响有毒内容,能力相关词,有害的立体类型以及个人的数值等级的产生。
本书希望成为理解和使用最先进的人造视觉技术所必需的几何,代数和统计基础的合成介绍。为了不夸大讨论,我尽可能地尝试了输入不同定理的演示,而是为了激发好奇心,他将讨论留给了读者。实际上,本书的最初目标永远不是创造一种严格而详尽的治疗方法,在该疗法中,您经常在计算和示范中迷失方面的风险,冒着疲倦的读者并将注意力转移到某些重要概念上的风险。以相同的方式,我没有一个目标,要谈论与图像和人造视觉阐述有关的任何主题,但我将自己限于与我直接在研究活动中直接有一个实验有关的唯一主题,我更谨慎地谨慎地,我可以更加谨慎地给出最小的贡献。这本书的起草实际上受到我的研究领域的强烈影响,这些领域主要涉及人造愿景对机器人的感知以及自动驾驶汽车的发展和控制。计算机视图是一个极其刺激的科学领域,也是非专业人士的。同样的事实是,在人工视觉的几何形状中,统计数据,优化是如此紧密相关的主题,使其成为该主题外部的完整且充满兴趣的研究范围。但是,主题之间的这种广泛的相关性并没有帮助本书章节中的划分,因此可以广泛使用章节与其他分会之间的参考。文本中插入的引文大大减少了,我仅指我认为基本的文本,并在可能的情况下提到了第一个提出理论背后思想的人:书目中提到的文章的阅读。我在可能的情况下介绍了与意大利语相对应的英语术语,而不是盎格鲁电影,而是建议在Internet上搜索任何关键字,以确定连接到所处理的主题。对于本卷的组织,我从我建议阅读的几本书中汲取了灵感,包括Hartley和Zissetman的“多视图几何” [HZ04],“图案识别和机器学习” [BIS06]和“计算机视觉中的新兴主题” [MK04] [MK04]由Medes和Kang绘制。对于主题与图像的详细说明更加紧密相关,一本很棒的书,也可以在线获得,可以是Szeliski [Sze10]的“计算机视觉:算法和应用程序”。将使用和极简主义的数学语法:
会聚不足:在近距离工作时无法维持双眼功能(保持两只眼睛协同工作)。通常,当聚焦近距离的单词或物体时,一只眼睛会向外转(间歇性外斜视)(AAPOS,2020 年)。内斜视:一种斜视(眼睛错位),其特征是一只或两只眼睛向内转。它可能是间歇性的或持续性的,可能在近距离注视、远距离注视或两者时发生。交叉可能主要发生在一只眼睛上,也可能在两只眼睛之间交替发生。它与斜视或外斜视相反。内斜视可能发生在任何年龄(AAPOS,2019 年)。外斜视:一种斜视形式,其中一只或两只眼睛向外转动。它与斜视或内斜视相反。外斜视可能不时发生(间歇性外斜视)或可能持续发生,并且在每个年龄组中都有发现(AAPOS,2019)。遮盖疗法:遮盖或遮盖疗法是弱视治疗的主要方法。遮盖未受影响或好的眼睛可为弱视眼提供单眼刺激,促进视觉发育。遮盖疗法用于改善视力,通常不能消除斜视(AAPOS,2021)。视轴矫正疗法:在验光办公室进行的一系列练习,通常每周进行一次,持续数月。视轴矫正眼部锻炼(视轴矫正术)由儿科眼科医生和视轴矫正师使用,是改善双眼功能的眼部锻炼,在办公室教授并在家中进行。视轴矫正术是由眼科专科内的视轴矫正师执行的一项成熟的职业。视轴矫正师评估和测量眼球偏差,管理弱视治疗并治疗间歇性小症状性眼球偏差(AAPOS,2020 年)。也称为视觉治疗。视轴矫正术专业包括视觉系统疾病的评估和治疗,特别是涉及双眼视觉和眼球运动 [美国认证视轴矫正师协会 (AACO) 2018]。药物惩罚疗法:滴入药物滴剂(例如阿托品)以惩罚视力较好的眼睛,迫使大脑注意来自视力较弱的眼睛的图像,促使大脑学会用视力较弱的眼睛看得更好(AAPOS,2021 年)。棱镜适应疗法:使用透明的三角形物体弯曲光线以允许视轴对齐,模拟斜视的缺失。还提出了更准确地确定偏差角度或目标角度,以确定斜视手术的偏差角度或目标角度 [美国眼科学会 (AAO),2018]。斜视:眼睛错位。斜视最常见的描述是眼睛错位的方向,例如内斜视、外斜视和上斜视 (AAPOS,2020)。视力恢复治疗 (VRT):一种基于计算机的家庭程序,旨在加强因创伤、中风、炎症或选择性手术切除脑肿瘤而导致的神经系统急性损伤后幸存的残留神经结构的视觉信息处理。有人认为,通过在治疗过程中反复激活,个人可以使用该计划来训练和改善其受损的视觉功能,从而在视野缺损中恢复有用的视力(NovaVision,2021 年)。视觉治疗:验光师将视觉治疗定义为发展或提高视觉技能和能力的尝试;提高视觉舒适度、轻松度和效率;并改变视觉信息的视觉处理或解释。视光学视觉治疗计划包括在数周至数月内进行的监督下在办公室和家中进行的强化练习。除了练习之外,还可以使用镜片(“训练眼镜”)、棱镜、滤光片、贴片、电子目标或平衡板(AAPOS,2020 年)。适用代码以下程序和/或诊断代码列表仅供参考,可能并不全面。本政策中列出的代码并不意味着代码描述的服务是涵盖的或不涵盖的健康服务。健康服务的福利覆盖范围由会员特定的福利计划文件和可能要求覆盖特定服务的适用法律决定。包含代码并不意味着任何报销权利或保证索赔支付。其他政策和指南可能适用。
摘要常规火灾检测系统使用的主要方法是基于传感器的检测,在准确性和检测时间方面具有局限性。传统方法和技术可以通过基于计算机视觉预测和检测的计算机视觉技术的最新进步来提高。因此,本文旨在对使用计算机视觉技术进行早期火灾检测和预测的早期研究进行全面的文献分析。在本系统的审查中应用了用于系统评价和荟萃分析的首选报告项目,或2020年的Prisma 2020。在本研究中搜索了三个数据库,例如科学,Scopus和IEEE等相关出版物。系统评价表明,现有研究主要集中于火焰而不是烟雾检测。此外,大多数研究都集中在特定发生,忽视室内或室内环境的特定情况下。视频监视系统成为这些调查中使用的硬件和数据集的主要来源。值得注意的是,卷积神经网络(CNN)脱颖而出,是用于分类目的的最经常使用的深度学习方法。系统评价通过结合来自几个学术来源的数据,阐明了使用计算机视觉技术的火灾检测研究。通过系统的方法,这项研究对利用基于视觉的技术进行火灾检测和预测的机会和挑战有了更深入的了解。关键字:系统文献综述;基于视觉的;火灾检测;火灾预测;机器学习
摘要 - 结合了LiDAR和相机等备用器的多数传感器融合(MSF),它引起了人们的关注,以此作为对Lidar Spoofiff的对策,威胁着自动驾驶系统的安全性。但是,当前无国界医生实施的有效性尚未在实际的自主驾驶系统中彻底列出。在这项研究中,我们提出了一个初始框架,旨在基于开源自动驾驶软件AutoWare Universe和Awsim Simulator探索MSF的潜在漏洞。通过使用此框架进行的实验,我们证明了自动保健宇宙中的MSF实现也可能导致整个系统的危险状态,即使摄像机丢失了镜头点云,摄像机可以正确检测对象。此漏洞之所以出现,是因为相机信息仅限于点云聚集中的补充作用。我们的发现表明,自动保健宇宙中的MSF实施缺乏针对LiDAR SPOOFIFG FIFG攻击的能力,由于其结构上的限制。该框架可在以下网址获得:https:// gi thub.com/keio-csg/multi-sensor-defense-analysis-platform。
1 萨萨里大学生物医学系,07100 萨萨里,意大利 2 遗传与生物医学研究所 (IRGB),CNR,Cittadella Universitaria di Cagliari,09042 蒙塞拉托,意大利 3 Centre Ophtalmologique de l'Odéon,113 bd Saint Germain,75006 Paris,France 4 生物医学系眼科,巴黎第六大学,361 rue Clément Ader,Bâtiment C,27000 Evreux,法国 5 Instituto de Oftalmologia Dr. Gama Pinto,1150-255 Lisboa,葡萄牙 6 里尔天主教医院眼科,里尔天主教大学,INSERM U1172,59000 Lille,法国 7 眼科医学、外科和药学,意大利萨萨里大学眼科中心,邮编 07100 萨萨里 8 意大利安科纳 60121 马尔凯理工大学实验与临床医学系眼科诊所 * 通信:作者:rita.serra@ymail.com (RS);coscas.f@gmail.com (FC);电话:+1-43295659 (RS 和 FC);传真:+1-43291456 (RS 和 FC) † 团体成员名称见附录 A。
摘要最近几年在智能对象(SOS)领域取得了长足的进步:它们的数量,多样性,性能和普遍性都在迅速增加,预计这种演变将继续下去。据我们所知,几乎没有做出的工作来利用丰富的资源来开发视力障碍者(VIP)的辅助设备。但是,我们认为SOS既可以增强传统的辅助功能(即障碍物检测,导航)并提供与环境互动的新方法。在描述了SOS启用的空间和非空间感知功能之后,本文介绍了SO2Sees,该系统旨在成为其用户和相邻SOS之间的接口。SO2SEES允许VIP以直观的方式查询SOS,依靠在物联网(IoT)云平台上分发的知识库和SO2Sees自己的后端。为了评估和验证裸露的概念,我们使用语义Web标准开发了SO2SEES系统的简单工作实现。围绕该早期SO2SEES系统建立了一种受控的环境测试方案,以证明其可行性。作为未来的工作,我们计划使用VIP最终用户进行该第一个原型的现场实验。
本病例讨论了一名 85 岁患者,该患者既往有白内障病史,导致右眼视力严重受损,并因右太阳穴基底细胞癌 (BCC) 及其局部复发而多次接受手术(2010 年局部广泛切除;2017 年再次切除并用皮肤移植重建),患者出现皮肤肿瘤进行性生长和扩散。检查后发现,表面有一块不规则的红斑,有多个溃疡(最大的一个位于左太阳穴,尺寸为 4×3 厘米)。病变从一个太阳穴延伸到另一个太阳穴,穿过前额,沿着手术皮肤移植的边缘,侵入左上眼睑,一个突出的肿块延伸出眼眶。对最大的溃疡进行皮肤活检显示为浸润性亚型基底细胞癌,并有骨质侵袭区域。鉴于临床情况困难、解剖位置复杂以及手术可能引起的并发症,经过全面评估后,患者被认为适合接受放射治疗。患者对治疗表现出良好的耐受性,局部治疗轻微放射性皮炎,并取得了令人满意的治疗反应。临床和放射学评估显示病变大小明显缩小,无明显毒性,左眼视力保留。本病例突出了姑息放射治疗在上面部复发性巨大基底细胞癌并侵袭到眼眶的患者中的成功应用,在手术或全身治疗不可行的情况下实现了视力保留。放射治疗正在成为具有挑战性的解剖位置复发性基底细胞癌的一种有价值的治疗选择。然而,仔细监测和严格的治疗计划对于实现良好结果并尽量减少副作用至关重要。
想象一下,观察某人挠自己的手臂;要了解为什么,需要其他上下文。但是,在附近发现蚊子会立即为该人的不适感提供一个可能的解释,从而减轻了需要进一步信息的需求。此示例说明了微妙的视觉提示如何挑战我们的认知能力,并证明了解释视觉场景的复杂性。为了研究这些技能,我们提供了视觉谜语,这是一种基准测试,旨在测试需要常识和世界知识的视觉谜语的视觉和语言模型。基准包括400个视觉谜语,每个谜语都具有由各种文本到图像模型,问题,地面真相答案,文本提示和归因创建的独特图像。人类评估表明,现有模型显着落后于人类绩效,即精度为82%,Gemini-Pro-1.5以40%的精度领先。我们的基准包括自动评估任务,以使评估可扩展。这些发现强调了视觉谜语作为增强视觉和语言模型解释复杂视觉场景功能的宝贵资源的潜力。
光线通过瞳孔进入眼睛,并通过包括角膜和晶状体 152 在内的前眼结构聚焦到视网膜上(见图 2.1)。视网膜中的感光细胞记录图像的基本成分,并通过视神经和其他通路传递到皮质进行感知处理。152 虽然概念简单,但过程复杂,涉及多个结构,它们通过复杂的通路进行通信以创建精确协调的动作序列。这些通路将感光细胞与丘脑、脑干、皮质和小脑连接起来。聚焦的关键动作序列包括 1) 通过协调前眼结构和眼球运动将图像精确聚焦到视网膜感光细胞上 2) 确保感光细胞通过瞳孔充分充满光线 3) 通过眼球运动和调节保持在一定距离范围内的聚焦清晰度。然后,视觉输入通过视神经和其他通路传输到后皮质区域,将语言与图像联系起来,并将其储存在记忆中。137,152 这些结构或通路的任何损害都可能导致视力模糊。2.1.2 视力缺陷视力下降的原因有很多,包括先天性或后天性疾病;遗传或后天性眼部结构缺陷;早年或晚年发生的眼部疾病;因其他疾病、神经系统疾病以及眼部和脑部损伤而发生的疾病。32,