自从 19 世纪末至 20 世纪中叶卡米洛·西特、凯文·林奇、鲁道夫·阿恩海姆和简·雅各布斯等学者的开创性工作以来,城市的视觉维度一直是城市研究的一个基本主题。几十年后,大数据和人工智能 (AI) 正在彻底改变人们移动、感知和与城市互动的方式。本文回顾了有关城市外观和功能的文献,以说明如何使用视觉信息来理解城市。引入一个概念框架——城市视觉智能,系统地阐述新的图像数据源和人工智能技术如何重塑研究人员感知和衡量城市的方式,从而能够研究物理环境及其与不同尺度的社会经济环境的相互作用。文章认为,这些新方法将使研究人员能够重新审视经典的城市理论和主题,并有可能帮助城市在当今人工智能驱动和以数据为中心的时代创造与人类行为和愿望相一致的环境。关键词:深度学习、人与环境的互动、地点、街道级图像、城市视觉智能。
复杂行为得到了多个大脑区域的协调支持。5大脑区域如何协调不存在的寄生?我们提出的坐标6是通过控制器 - 外围结构来实现的,其中外围设备(例如7腹视觉流)旨在向其控制器(例如8海马和前额叶皮质)提供所需的输入,同时花费最小的资源。我们9在此框架内开发了一个正式模型,以解决多个大脑10区域如何协调从几个示例图像中的快速学习。11个模型捕获了控制器中的高级活性如何以13平行于脑测量的方式影响其精度和稀疏性。特别是,在支持控制器平滑操作所需的范围内,外围编码的视觉信息14。15通过梯度下降优化的替代模型不论建筑16的约束都无法解释人类的行为或大脑反应,并且,对标准深度学习方法进行了典型的17级,是不稳定的逐审学习者。18虽然先前的工作提供了特定能力的帐户,例如感知,19个注意力和学习,但控制器 - 外围方法是迈向朝着20种关于多个教师如何协调的下一代问题迈出的一步。21
机器人辅助手术在医学领域正在迅速发展,增强现实的整合表明,通过提供更多的视觉信息来提高外科医生的运行性能。在本文中,我们提出了一个无标记的增强现实框架,以避免手术内出血来提高安全性,这是由手术器械和精致的血管(动脉或静脉)之间碰撞引起的高风险。先进的立体声重建和分割网络,以找到最佳组合,以在3D空间中重建术中血管,以使用术前模型进行注册,并实施仪器和血管之间的最小距离检测。在干燥实验室的DA Vinci研究套件上模仿机器人辅助的淋巴结清扫术,并且十个人类受试者进行此操作以探索所提出的框架的可用性。结果表明,增强现实框架可以帮助用户避免仪器和精致的血管之间的危险碰撞,同时又不引入额外的负载。它提供了一个灵活的框架,该框架将增强现实集成到医疗机器人平台中,以增强手术的安全性。
发展身体意识的意识来自肌肉和关节的感觉,以及皮肤受体的触摸感。位于肌肉和关节中的受体告诉大脑何时以及如何弯曲,延伸或被拉动和压缩。皮肤中的受体有助于建立身体的地图。此信息使大脑能够构建身体的每个部分所在的位置以及它如何在没有外观的情况下移动。一个对身体部位认识不足的孩子倾向于依靠视觉信息,如果他们看不到胳膊和腿在哪里,可能无法正确移动。他们也可能很难知道自己的身体与对象有关。他们经常打破玩具,因为他们不知道将东西放在一起或拉开时使用了多少压力。孩子可能没有较差的精细运动控制,因为他们实际上无法感觉到手臂,手指在移动的位置或如何移动,并且没有手中的工具的精确信息。他们通常用铅笔压了太硬或太软。一个孩子可能看起来很草率,笨拙或杂乱无章的个人财产。帮助身体意识差的儿童的策略1。儿童在地板上滚动,上面覆盖着不同纹理的不同材料。
控制台。吊杆通过集成在操作员控制台中的单独吊杆控制单元 (BCU) 进行控制。BCU 不是 TRVS 的一部分。TRVS 与 BCU 接口接收有关吊杆位置和状态的信息。此信息与信号器一起显示在加油图像顶部的图形叠加层中。视觉信息通过两个视频系统、一个监视视觉系统和一个立体视觉系统生成。这些系统共同构成了“加油机远程视觉系统”(TRVS)。监视视觉系统基于三个摄像头,覆盖超过 180 度的水平视野,位于 KDC-10 的两个翼尖之间,在后方。图像以全景视图显示在操作员控制台的三个监视器上。立体视觉系统基于两个瞄准加油杆尖端的摄像机的双通道图像。立体图像是通过使用快门系统获得的。操作员佩戴被动偏光眼镜,将图像分开,从而产生生动的立体图像。立体视觉系统还包括深度合成符号。该视觉系统适用于白天和夜间视觉(近红外)。TRVS 已被证明是一种高性能视觉系统,已在多次空对空加油试飞中展示了其潜力
纽约技术峰会 - 网络、电信和计算会议和展览 165 ACM SIGIR ‘93 第 16 届信息检索研究与开发国际会议 166 在线公共访问目录的用户界面 177 WAIS Inc. 公告和技术展示 178 研讨会 179 HCI 研讨会 179 Hyperbase 系统研讨会 214 超媒体和超文本标准研讨会 4 月 22-23 日阿姆斯特丹 216 信息访问和网络 - 研究研讨会 216 国家研究和教育网络 (NREN) 研讨会 219 NSF 视觉信息管理系统研讨会 221 第 103 届国会中与电子信息传递相关的选定立法 222 基础设施开发 222 政府信息 229 教育应用 232 图书馆应用 234 健康服务 235 隐私和知识产权 235 来自“计算机学家”的新闻公报” 1992 237 来自“电子前沿基金会 (EFF) 图书馆”的新闻 246 来自 ALAWON 的新闻 255 NREN 应用法案摘要 255 关于 Boucher 网络应用法案的听证会 258 即将举行的听证会 261 关于 ALAWON: 262 其他新闻和公告 262
提取和分析详细的视觉信息。传统的人工神经网络(ANN)在这一领域取得了长足的进步,但是尖峰神经网络(SNN)的能源效率和以生物为基础的基于时间的处理而引起了人们的关注。然而,由于限制,诸如量化误差和次优膜电位分布之类的局限性,现有的基于SNN的语义分割方法面临着高精度的挑战。这项研究介绍了一种基于尖峰 - 深板的新型尖峰方法,并结合了正则膜电位损失(RMP-loss)来应对这些挑战。建立在DeepLabv3体系结构的基础上,提出的模型通过优化SNN中的膜电位分布来利用RMP-loss来提高分割精度。通过优化膜电位的存储,其中仅在最后一个时间步骤存储值,该模型可显着减少内存使用和处理时间。这种增强不仅提高了计算效率,而且还提高了语义分割的准确性,从而可以对网络行为进行更准确的时间分析。提出的模型还显示出更好的稳健性,以防止噪声,在不同级别的高斯噪声下保持其精度,这在实际情况下很常见。所提出的方法在标准数据集上展示了竞争性能,展示了其用于节能图像处理应用的潜力
摘要 - 多模式大语言模型(MLLM)在许多自动驾驶任务中都表现出令人满意的效果。在本文中,MLLM可用于解决联合语义场景的理解和风险本地化任务,而仅依靠前视图像。在拟议的MLLM-SUL框架中,双分支视觉编码器首先旨在从两种分辨率中提取特征,并且丰富的视觉信息有助于语言模型,以准确描述不同尺寸的风险对象。然后,对于语言生成,美洲驼模型进行了微调,以预测场景描述,其中包含驾驶场景的类型,风险对象的动作以及驱动意图和自我车辆的建议和建议。最终,基于变压器的网络结合了回归令牌,以定位风险对象。在现有的戏剧 - 罗利人数据集和扩展的戏剧-SRIS数据集上进行了广泛的实验表明,我们的方法是有效的,超过了许多基于图像的最新和基于视频的方法。具体来说,我们的方法在现场理解任务中获得了80.1%的BLEU-1分数和298.5%的苹果酒得分,而本地化任务的精度为59.6%。代码和数据集可在https://github.com/fjq-tongji/mllm-sul上找到。
抽象的人类交流本质上是多模式的。听觉演讲,但视觉提示也可以用来理解另一个说话者。大多数视听语音感知的研究都集中在语音段的感知上(即语音)。然而,对视觉信息对词汇应力等语音上段方面的感知的影响鲜为人知。在两个实验中,我们研究了不同视觉提示(例如面部关节线索和手势)对词汇应力的视听感的影响。我们介绍了disyllabic荷兰压力对的听觉词法压力连续性以及在第一个或第二个音节上产生压力的扬声器的视频(例如,表达voornaam或voornaam)。此外,我们将扬声器的表面结合起来,在音节上产生词汇应力,并在第一个音节或第二个音节上产生节拍手势,从而产生词汇应力。结果表明,人们成功地使用了视觉发音线索来在静音视频中进行压力。但是,在视听条件下,我们无法找到视觉关节线索的影响。相比之下,我们发现节拍手势的时间对齐具有强烈的影响,从而影响了参与者对词汇压力的看法。这些结果强调了在多模式上下文中考虑语言上部方面的重要性。
融化电动制品(MEW)是一种高分辨率添加剂制造技术,可以平衡多个参数变量,以达到稳定的制造过程。在这里使用高分辨率的摄像机视觉在不同的电场中使用高分辨率的摄像头视觉来强调这种平衡的更好理解。补充此视觉信息是以精确点获得的光纤直径测量值,从而允许与电气射流性质的相关性。通过机器视觉系统进行了监测和分析的两个过程签名 - 射流角度和第一次泰勒锥区域,而直径测量的SEM成像则与实时信息相关。此信息反过来允许检测和校正纤维脉冲,以便在收集器上精确放置喷射,以及对纤维直径的进程评估。改进的过程控制用于成功制造可折叠的MEW管;需要出色准确性和打印稳定性的结构。使用60°和300层的精确绕组角,产生的12毫米厚的管状结构具有与机械超材料相关的弹性快速不稳定性。这项研究提供了MEW中纤维脉冲发生的详细分析,并强调了对泰勒锥体积的实时监测的重要性,以更好地理解,控制,控制和预测印刷不稳定性。
