视觉模型

2024-07-06 机构名称:

双曲线空间中的视觉理解

最新的性能。虽然鉴定的视觉模型（例如对比语言图像预训练（剪辑））通过在共同空间中学习视觉语言概念来实现有希望的零射击性能，但它们之间的自然层次结构仍然没有探索。在这项工作中，我们提出了Poinclip：基于庞加利的几何形状模型，该模型研究了两者之间的层次关系，以学习联合文本图像表示。我们将Poinclip的性能与夹模型的性能进行比较，以进行零拍图像分类和检索任务，以证明所提出的方法的功效。

查看详细

开发用于正畸领域初始诊断的分类和对象检测模型=开发正畸>早期诊断的分类和对象检测模型

File

2025-03-16 机构名称:

开发用于正畸领域初始诊断的分类和对象检测模型=开发正畸>早期诊断的分类和对象检测模型

Deskripsi Lengkap: https://lib.ui.ac.id/detail?id=9999920568055&lokasi=lokal ------------------------------------------------------------------------------------------ Abstrak Pandemi COVID-19 mendorong adanya transformasi kesehatan, terutama dalam Praktik Kedokteran Gigi。对传播风险的反应，使公众朝着远程医疗服务，尤其是远程访问术。这种现象在正畸中创造了一个新的范式，鼓励了Teleorthodontic的发展。正畸领域中的机器学习技术支持为早期诊断和增加正畸服务的可及性提供了创新的解决方案。这项研究将比较3个计算机视觉模型，即有效网络，Mobilenet和Shufflenet，并伴随着添加表格模型，即TabNet。该计算机视觉模型的实施旨在为正畸患者提供初始分析，并将在Lime的帮助下使用F1得分指标和专家解释性评估。基于这项研究，发现计算机视觉洗牌模型具有最佳的平均F1分数值，其次是EfficityNet和Mobilenet。价值的差异范围从有效T和洗牌片之间的1-5％范围范围，但是Mobilenet和Shufflenet的差异范围为3-8％。此外，与不使用TabNet的模型相比，在框架中添加TabNet在框架中的平均F1得分值增加了2.7％至5％。....... COVID-19-大流行驱动了健康转变，尤其是在牙科实践中。对传播风险的反应导致公众进入远程医疗服务，尤其是远程医疗服务。这种现象在正畸方面创造了一个新的范式，鼓励了电视牙齿的发展。正畸技术中机器学习技术的支持提供了用于早期诊断和增加正畸服务的创新解决方案。本研究将比较3种计算机视觉模型，这些模型是有效网络，Mobilenet和Shufflenet，并伴随着添加表格模型，即TabNet。该计算机视觉模型的实施旨在为正畸患者提供初始分析，并将在Lime的帮助下使用F1评分指标和专家的解释性进行评估。这项研究发现，洗牌计算机视觉模型具有最佳的平均F1得分，其次是有效网络，最后是Mobilenet。值差异在有效网和洗牌片之间的1-5％之间，但是Mobilenet和Shufflenet的差异扩大，范围在3-8％之间。此外，与不使用TABNET的模型相比，将TABNET添加到框架中的F1得分平均增加2.7％至5％。

查看详细

File

2024-08-30 机构名称:

计算机视觉

学生将专注于对现代视觉数据分析至关重要的尖端技术。他们将使用深度学习专门研究语义分割，以使用更快的R-CNN和Yolo模型进行精确的图像分配和主对象检测。然后，他们将使用RNN，LSTM和视觉变形金刚探索序列建模，然后使用语言和视觉模型，用于诸如生成图像描述和回答视觉问题的任务。该课程将深入研究生成模型，涵盖受监督和无监督的学习方法，包括变异自动编码器，生成的对抗性网络（GAN）等等，使学生在视觉内容生成和复杂的数据理解中进行创新。

查看详细

File

2024-11-07 机构名称:

debian：大脑形象的深度表示，用于分析神经退行性疾病

伴有路易尸体（DLB）和阿尔茨海默氏病（AD）的痴呆症是老年人中的两种常见神经退行性疾病。既与大脑中蛋白质异常沉积有关，这些疾病的诊断可能具有挑战性，尤其是在区分它们时，因为它们在早期阶段表现出相似的症状。脑MRI提供了详细的大脑结构图像，从而识别与神经退行性疾病相关的结构变化。深度学习在分析这些图像，实现准确的预测和解释方面表现出了巨大的希望。是最近出现的大规模预训练的视觉模型（VLMS），由于其可概括的视觉和文本表示，它们的性能显着。

查看详细

File

2025-01-29 机构名称:

groq先天：将AI驱动的机器人带给所有人

先天是一家基于硅谷的初创公司，很容易迅速构建非常聪明的机器人。通过使用各种LLM和视觉语言模型，先天平台使工程师和业余爱好者能够快速训练机器人执行特定的任务。先天的平台集成了视觉语言模型，传统的计算机视觉模型以及由先天训练并在机器人本地运行的物理操纵模型。目前，它使用Meta的Llama 3来为其主要推理引擎供电。这使在平台上运行的机器人是内置的 - 一个人可能会说先天 - 可以理解和解释其周围环境的能力。

查看详细

File

2020-10-22 机构名称:

模拟CNN前部的主要视觉皮层可改善对图像扰动的鲁棒性

当前的最新对象识别模型主要基于会议神经网络（CNN）架构，这些架构是受灵长类动物视觉系统的启发。然而，这些CNN可以被严重的小型，明确的精心制作的扰动而愚弄，并难以识别被人类易于认可的损坏的图像中的物体。在这里，通过与灵长类神经数据进行比较，我们首先观察到具有神经隐藏层的CNN模型更好地匹配灵长类动物的一级视觉皮层（V1），也对广告症的攻击也更为强大。受到这一观察的启发，我们开发了Vonenets，这是一种新的混合CNN视觉模型。每个vonenet都包含一个固定的权重神经网络前端，该vonnet模拟灵长类动物V1，称为VoneBlock，然后是由当前CNN视觉模型改编的神经网络后端。voneBlock基于V1的经典神经科学模型：线性 - 非线性 - 偏见模型，由生物学上约束的Gabor滤波器库组成，简单且可构成细胞的非线性和V1 Neuronal neuronal neuronal stochasticity生成器。训练后，Vonenets保留了较高的ImageNet性能，但每种表现都更高，在由白色盒子对抗性攻击和常见的图像腐败组成的扰动的基准上，分别超过了CNN和最先进的方法，分别超过了18％和3％的基本方法。最后，我们证明了VoneBlock在协同作用中的所有组成部分都可以提高鲁棒性。虽然当前的CNN体系结构可以说是受到脑部启发的，但此处介绍的结果表明，更精确地模仿灵长类动物视觉系统的一个阶段会导致Imagenet级计算机视觉应用中的新增长。

查看详细

File

2024-07-24 机构名称:

超越视力：距离远距离的LVMS智能导航

摘要 - 大型视觉模型（LVM）在理解和生成图像描述方面表现出了令人印象深刻的技能。但是，为了进一步提高自动驾驶汽车的决策能力并实现真正的自动导航，重要的是要通过推理和距离测量能力来增强这些模型。通过整合可以准确估算出仅视觉提示的各种对象的计算机视觉技术，LVMS处理自动驾驶汽车的感知输入将能够提供更精确，详细和上下文相关的驱动环境描述。这将允许车辆的决策系统做出更有信息的选择，并有效地浏览复杂的现实世界情景。描述包括车辆和诸如汽车，行人，交通标志和车道标记等物体之间的估计距离。，LVM不仅可以描述图像显示的内容，还可以描绘关键对象之间具有数值距离值的场景。通过估计距离的推理和度量空间意识增强，LVM处理自动驾驶汽车的图像将支持更明智的导航和在不同条件下的操纵选择。该车辆将对周围环境有更定量的了解，以帮助自动决策。通过应用这种增强的看法，我们的辅助驾驶系统可能能够提高道路安全性。单独使用相机输入可以实时准确地量距。这使系统可以就安全后距离做出明智的决定，并向驾驶员提供警报。我们增强的感知模块有可能通过帮助驾驶员保持与前方车辆更安全的距离来减少事故。我们的辅助驾驶系统可以通过监视前方的道路并在安全距离上为驾驶员提供建议，从而减少碰撞。关键字：大视觉模型，增强感知，计算机视觉，Yolo 1。简介

查看详细

File

2024-12-27 机构名称:

神经元中的代理体系结构 - 白皮书

neuron7.ai摘要：Neuron7的搜索工具是一种尖端的，AI驱动的解决方案，扩展了检索功能增长生成（RAG）的概念，以提供上下文感知的搜索和实时适应性。通过将抹布与实体歧义，LLM，元数据富集，视觉模型和用户反馈循环结合使用，Neuron7的搜索平台不仅可以检索和生成内容，而且可以自主完善，过滤器和适应搜索结果，以提供可行的见解。此白皮书探讨了Neuron7的搜索解决方案如何通过体现代理体系结构，提供一个基于实时输入和不断发展的用户需求的系统来使破布达到新的水平。1。简介企业搜索的景观已经发展到传统的基于关键字的搜索工具之外，这些搜索工具只需根据文本匹配来检索文档即可。当今的高级搜索解决方案利用人工智能（AI）不仅提供信息，而且提供上下文理解和可行的见解。Neuron7搜索通过将检索增强生成（RAG）与各种高级功能（例如命名实体识别（NER），元数据富集，视觉模型和实时学习）结合起来，将其提升到一个新的水平。该系统例证了代理体系结构，自主做出决定，根据这些决策采取行动，并不断从反馈中学习以增强搜索准确性和相关性。2。什么是代理体系结构？代理系统的关键特征包括：Neuron7搜索不仅可以检索数据并生成内容；它可以自主完善搜索结果，过滤数据，并旨在满足不仅需要找到信息的企业需求，而且还可以理解，上下文化和采取行动。代理体系结构是指具有自主决策，适应性行为以及根据环境投入和内部目标采取行动的系统。这些系统从环境（例如数据或用户查询）中感知输入，根据该输入做出决策，并采取行动以实现特定目标，而无需在每个决策点需要人为干预。

查看详细

File

2024-05-07 机构名称:

过度自信是关键：大语言和视觉语言模型的口头不确定性评估

语言和视觉模型（LLMS/VLMS）通过产生类似人类的文本和理解图像的能力彻底改变了AI领域，但是确保其可靠性至关重要。本文旨在评估LLM（GPT4，GPT-3.5，Llama2和Palm 2）和VLMS（GPT4V和Gemini Pro Vision）通过提示估算其口头上的不确定性的能力。我们提出了新的日本不确定场景（JUS）数据集，旨在通过困难的查询和对象计数测试VLM功能，以及净校准误差（NCE）来测量错误校准的方向。结果表明，LLMS和VLM都有很高的校准误差，并且大多数时候都过高地表明不确定性估计的能力较差。此外，我们为回归任务开发了提示，并且我们表明，在产生平均/标准偏差和95％置信区间时，VLM的校准较差。

查看详细

File

2024-04-01 机构名称:

通过多模式AI

行业领导者在多模式AI中的竞争既快速，又是愤怒，这证明了硬件和软件中尖端技术的快速发展。这始于2023年3月OpenAI的GPT-4推出，随后迅速发行了Google的Gemini版本和Microsoft的Llava13b，这是一种大型视觉模型，于2023年10月发布，以及Claude 3，并于2023年12月首次亮相。在2024年2月，Openai推出了Sora，专门研究文本到视频的一代，标志着这一充满活力的景观中的另一个里程碑。和2024年3月17日，X.AI发布了Grok-1，这是314B令牌Moe模型。随着每个发行版，我们预计技术巨头之间的竞争会加剧。因此，主队必须准备捍卫我们国家的国土安全部。

查看详细

XiaoMi-AI文件搜索系统

视觉模型

双曲线空间中的视觉理解

开发用于正畸领域初始诊断的分类和对象检测模型=开发正畸>早期诊断的分类和对象检测模型

计算机视觉

debian：大脑形象的深度表示，用于分析神经退行性疾病

groq先天：将AI驱动的机器人带给所有人

模拟CNN前部的主要视觉皮层可改善对图像扰动的鲁棒性

超越视力：距离远距离的LVMS智能导航

神经元中的代理体系结构 - 白皮书

过度自信是关键：大语言和视觉语言模型的口头不确定性评估

通过多模式AI

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI