视觉信息

2022-09-13 机构名称:

初级视觉皮层的解剖学和神经生理学数据足以重现类似大脑的视觉功能多路复用

10 处理视觉信息的大脑神经网络具有与人工智能中常用于视觉处理的神经网络（例如卷积神经网络 (CNN)）的结构特性截然不同的结构特性。但这些结构差异与网络功能之间的关系仍不得而知。我们分析了 V1 区大规模模型的视觉处理能力，该模型可以说是目前最全面的解剖和神经生理数据积累。事实证明，其网络结构可以诱导大脑的许多典型视觉处理能力，特别是能够多路复用不同的视觉处理任务，也可以处理时间分散的视觉信息，并且对噪声具有显著的鲁棒性。该 V1 模型还表现出大脑的许多典型神经编码特性，这解释了其出色的噪声鲁棒性。由于大脑中的视觉处理比常见计算机硬件中 CNN 的实现更加节能，这种类似大脑的神经网络模型也可能对技术产生影响：作为更节能的神经形态硬件中视觉处理的蓝图。

查看详细

File

2024-07-17 机构名称:

学习一个动态隐私的相机鲁棒性反转攻击

摘要。设计了设计隐私相机（PPC）的问题。以前的设计依赖于静态点扩展功能（PSF），以防止检测私人视觉信息，例如可识别的面部特征。但是，可以通过测量对点光源的摄像机响应来轻松恢复PSF，从而使这些相机容易受到PSF反转攻击的影响。提出了一种新的动态隐私（Dypp）摄像头设计，以防止此类攻击。dypp摄像机依赖于动态的光学元素，即这种空间光模拟器来实现随时间变化的PSF，该PSF随着图片的变化而变化。PSF是通过学习的嵌入式嵌入，对手进行的，以同时满足用户指定目标的隐私目标，例如面部识别准确性和任务效用。对多种隐私视力任务的经验评估表明，与以前的PPC相比，Dypp设计对PSF反转功能的强大意义要大得多。此外，该方法的硬件可行性由概念验证摄像头模型验证。

查看详细

File

2023-10-06 机构名称:

i遗传证据强烈支持管理体重和...

上下文：已证明视觉生物反馈可以促进青少年运动员的抗伤害运动。视觉生物反馈通常被认为是通过刺激运动员将注意力集中在外部（运动结果上）来促进隐式学习的。但是，如果运动员使用视觉信息有意识地指导运动执行（通过内部焦点），则生物反馈也可能会引起明确的学习。Objective: To determine the degree to which athletes reported statements indicating implicit or explicit motor learning after engaging in a visual biofeedback intervention.设计：前瞻性队列研究。设置：三维运动分析实验室。患者或其他参与者：二十五名青少年女足球运动员（¼15.06 1.5岁，身高¼165.76 5.9厘米，弥撒，¼59.46 10.6 kg）。干预措施：标准的6周神经肌肉训练干预措施（三个90分钟/周），并增加了视觉生物反馈会话（2个会话/周）。在生物反馈训练中，参与者在与视觉矩形刺激互动时进行了蹲下和跳跃运动，该刺激绘制了与伤害风险相关的关键参数。

查看详细

File

2024-06-27 机构名称:

基于AI的技术和多模式系统中的情况意识：建筑，挑战和应用

抽象情况意识（SA）是感测，理解和预测环境的过程，并且是复杂系统中的重要组成部分。来自环境的信息接收往往是连续的和多模式的。AI技术通过将SA目标的不同阶段细化为数据融合，表示，分类和预测等任务，从而提供了更有效，更强大的支持。本文提供了用于在各种环境和应用程序中构建，增强和评估SA的AI和多模式方法的概述。重点放在增强感知完整性和持久性上。研究表明，在复杂系统中，人工智能和多模式方法的整合显着增强了感知和理解。但是，在预测未来情况并有效融合多模式信息方面仍然存在研究差距。本文总结了一些用例和经验教训，这些用例和经验教训已经使用了AI和多模式技术来提供SA。未来的观点和挑战，包括更全面的预测，更大的解释性和更高级的视觉信息。

查看详细

File

2024-01-24 机构名称:

arxiv：2401.12503v1 [cs.cv] 2024年1月23日

在2023年演奏大型视觉语言模型（LVLM）在AI社区中很流行。但是，相对较大的参数（超过7b）流行的LVLM使训练和部署在消费者GPU上，阻止许多资源有限的研究人员。想象一下在旧的GTX1080TI（我们唯一的游戏卡）上体验当前LVLM的所有功能将有多酷。因此，我们在本报告中介绍了各种大小，而QWEN-1.8B则是基本的“大”语言模型。在Vary Toy中，我们引入了改进的视觉词汇，使该模型不仅具有变化的所有功能，而且还具有更多的一般性。具体来说，我们用由对象检测驱动的正面样本数据代替了自然图像的负面样本，在生成视觉词汇的过程中，更充分地利用了词汇网络的能力，并使其能够有效地编码与自然对象相对应的视觉信息。对于实验，Vary-Toy可以在DOCVQA上获得65.6％的ANL，ChartQA的精度为59.1％，Refcoco的精度为88.1％，MMVET的精度为29％。该代码将在主页上公开可用。

查看详细

File

2025-02-07 机构名称:

使用混合挤压和激励增强模型从 OCT 图像中检测高级视网膜疾病

视网膜疾病会严重危害人们的视力，直接影响生活质量。视网膜是人眼的重要组成部分，由视觉细胞组成。它负责处理视觉信息。黄斑是中央视觉所必需的，位于视网膜层内。视网膜损伤，特别是黄斑区域的损伤，会导致视力严重丧失 [ 1 ]。因此，及早发现视网膜异常对于及时治疗和减少视力丧失至关重要 [ 2 ]。最常见的视网膜疾病包括糖尿病性黄斑水肿 (DME) 和年龄相关性黄斑变性 (AMD)。AMD 有两种类型：湿性 AMD（脉络膜新生血管，或 CNV）和干性 AMD（视网膜黄斑硬化症），后者是 65 岁以上人群失明的主要原因 [ 3 ]。约 25% 的糖尿病患者患有糖尿病性黄斑水肿 (DME)，这是由于糖尿病导致视网膜积液所致。如果不及时治疗，这些疾病可能会永久损害视力。因此，开发自动诊断系统对于有效的治疗计划至关重要，因为此类系统可以减轻临床医生的负担并提高早期检测率 [ 4 ]。

查看详细

File

2023-10-30 机构名称:

黑色素蛋白视网膜神经节细胞介导光促进的脑发育

传统上，视网膜的主要功能被认为是捕获有意识的视觉信息。然而，很明显，眼睛在调节各种生理和行为过程中起着更广泛的作用，包括昼夜节律，睡眠和情绪。MRGC是视网膜神经节细胞的一部分，可独特地适应于非形象形成的大脑区域的光信息。本文探讨了MRGC参与促进大脑发育及其在理解和解决神经系统和神经精神疾病方面的潜在意义。在发育过程中，表达黑色素蛋白的内在光敏性视网膜神经节细胞（IPRGC）比杆和锥体早得多。IPRGCS项目针对许多下皮层区域，而这些预测的生理功能尚未完全阐明。在这里，我们发现IPRGC介导的光感觉促进了各种皮质和海马中锥体神经元的突触发生。这种现象取决于IPRGC的激活，并通过从上核（SON）和旁脑核核（PVN）释放到脑脊髓液[1]来介导催产素[1]。

查看详细

File

1900-01-01 机构名称:

高质量的视觉引导的声音与不同类别的分离

摘要。我们提出了戴维斯（Davis），这是一个基于i fifusion的udiovi sual separa the the trapion框架，该框架通过生成学习解决了视听声音源分离任务。现有方法通常将声音隔离作为基于面具的回归问题，从而取得了重大进展。但是，他们在捕获高质量分离声音与各种表情所需的复杂数据分布时面临局限性。相比之下，戴维斯利用生成扩散模型和分离U-net直接从高斯噪声中综合了分离的声音，并在音频混合物和视觉信息上进行条件。具有其生成性目标，戴维斯更适合实现各种声音猫的高质量分离的目标。我们将戴维斯与AVE和音乐数据集上现有的最新歧视性音频分离方法进行了比较，结果表明，戴维斯在分离质量方面胜过其他方法，这证明了我们可以解决视听源分离任务的框架的优势。我们的项目页面可在此处提供：https：//wikichao.github.io/data/projects/davis/。

查看详细

File

2023-06-27 机构名称:

基于乳腺癌知识的系统

摘要：诊断乳腺癌的基于知识的系统旨在支持医学生，以增强其有关诊断和咨询的教育。该系统促进了在显微镜下进行活检图像的分析，确定肿瘤类型，选择适当的治疗方法以及与疾病相关问题的鉴定。根据卫生部在加沙的年度报告，2009年至2014年之间有7,069例乳腺癌病例，2014年报告了1,502例。在一个以视觉信息为主的时代，其中有65％的人群是视觉学习者，基于知识的系统是通过使用视觉和文本资源来帮助长期信息保留的有效工具。该系统具有用户友好的界面，使学生能够诊断出疾病并扩大理解。此外，可以通过智能手机访问。基于知识的系统包括三个主要组成部分：首先，它提供了具体的面向患者的问题，以使学生熟悉询问过程。其次，它促进了活检样品图像的分析，以确定其完整性并确定潜在的感染。最后，该系统结合了动画视频，说明了治疗乳腺癌的各种方法。

查看详细

引用本文：Fan Zhang、Arianna Salazar-Miranda、Fábio Duarte、Lawrence Vale、Gary Hack、Min Chen、Yu Liu、Michael Batty 和 Carlo Ratti（2024 年 4 月 8 日）：城市视觉智能：利用人工智能和街道级图像研究城市，《美国地理学家协会年鉴》，DOI：10.1080/24694452.2024.2313515

File

2024-04-12 机构名称:

引用本文：Fan Zhang、Arianna Salazar-Miranda、Fábio Duarte、Lawrence Vale、Gary Hack、Min Chen、Yu Liu、Michael Batty 和 Carlo Ratti（2024 年 4 月 8 日）：城市视觉智能：利用人工智能和街道级图像研究城市，《美国地理学家协会年鉴》，DOI：10.1080/24694452.2024.2313515

自从 19 世纪末至 20 世纪中叶卡米洛·西特、凯文·林奇、鲁道夫·阿恩海姆和简·雅各布斯等学者的开创性工作以来，城市的视觉维度一直是城市研究的一个基本主题。几十年后，大数据和人工智能 (AI) 正在彻底改变人们移动、感知和与城市互动的方式。本文回顾了有关城市外观和功能的文献，以说明如何使用视觉信息来理解城市。引入一个概念框架——城市视觉智能，系统地阐述新的图像数据源和人工智能技术如何重塑研究人员感知和衡量城市的方式，从而能够研究物理环境及其与不同尺度的社会经济环境的相互作用。文章认为，这些新方法将使研究人员能够重新审视经典的城市理论和主题，并有可能帮助城市在当今人工智能驱动和以数据为中心的时代创造与人类行为和愿望相一致的环境。关键词：深度学习、人与环境的互动、地点、街道级图像、城市视觉智能。

查看详细

XiaoMi-AI文件搜索系统

视觉信息

初级视觉皮层的解剖学和神经生理学数据足以重现类似大脑的视觉功能多路复用

学习一个动态隐私的相机鲁棒性反转攻击

i遗传证据强烈支持管理体重和...

基于AI的技术和多模式系统中的情况意识：建筑，挑战和应用

arxiv：2401.12503v1 [cs.cv] 2024年1月23日

使用混合挤压和激励增强模型从 OCT 图像中检测高级视网膜疾病

黑色素蛋白视网膜神经节细胞介导光促进的脑发育

高质量的视觉引导的声音与不同类别的分离

基于乳腺癌知识的系统

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI