视觉模型领域信息情报检索---XiaoMi-AI

2025年3月20日 06:18

立体声片引入ZED Box Mini：视觉AI

Stereolabs introduces ZED Box Mini: the most compact and affordable PC for Vision AI

Stereolabs是Vision AI技术的全球领导者，今天介绍了由Terra AI提供支持的Zed SDK 5，该技术迄今为止最先进的视觉模型。该版本重新定义了AI感知，具有5倍的感应性能，jetson的负载降低了300％，并且在具有挑战性的条件下，降低了300％的负载质量和无与伦比的深度质量。 Terra AI只是世界上最准确，最快，最轻巧的基于视觉的Sensing AI，可用于各种机器人应用，例如AMR，送货机器人，机器人割草机，机器人武器，农业武器，农业车辆以及诸如仓库和工厂自动化之类的广泛工业应用，以及常见的数字二线应用。

走向数据科学

2025年2月14日 17:00

成为数据科学家的路线图，第4部分：高级机器学习

Roadmap to Becoming a Data Scientist, Part 4: Advanced Machine Learning

引言数据科学无疑是当今最迷人的领域之一。大约十年前，在机器学习方面取得了重大突破之后，数据科学在技术界的普及激增。每年，我们都会看到越来越强大的工具，这些工具曾经似乎无法想象。诸如变压器体系结构，chatgpt，检索型发电（RAG）框架和最先进的计算机视觉模型（包括gans）之类的创新具有[…]成为数据科学家的后路线图，第4部分：先进的机器学习首先出现在数据科学方面。

亚马逊云科技 _机器学习

2024年11月15日 16:53

在 Amazon SageMaker JumpStart 上微调用于视觉和文本用例的多模态模型

Fine-tune multimodal models for vision and text use cases on Amazon SageMaker JumpStart

在本文中，我们将展示如何微调文本和视觉模型（例如 Meta Llama 3.2），以便在视觉问答任务中表现更好。Meta Llama 3.2 Vision Instruct 模型在具有挑战性的 DocVQA 视觉问答基准上表现出色。通过利用 Amazon SageMaker JumpStart 的强大功能，我们展示了调整这些生成式 AI 模型以更好地理解和回答有关图像的自然语言问题的过程。

ΑΙhub

2024年11月6日 12:11

VQAScore：评估和改进视觉语言生成模型

VQAScore: Evaluating and improving vision-language generative models

简介文本到图像/视频模型（如 Midjourney、Imagen3、Stable Diffusion 和 Sora）可以根据自然语言提示生成美观、逼真的视觉效果，例如，给定“几只巨大的猛犸象走近，穿过一片雪地草地……”，Sora 会生成：但我们如何知道这些模型是否生成了我们想要的东西？例如，如果提示是“棕色的狗在树周围追逐黑色的狗”，我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”？更一般地说，我们应该如何评估这些生成模型？虽然人类可以轻松判断生成的图像是否与提示一致，但大规模的人工评估成本高昂。为了解决这个问题，我们引入了一个新的评估指标 (VQAScore) 和基准数据集

IEEE Spectrum _机器人

2024年11月4日 17:00

波士顿动力公司最新视频显示 Atlas 正在亲身体验

Boston Dynamics’ Latest Vids Show Atlas Going Hands On

波士顿动力公司 (Boston Dynamics) 是毫无预警地发布令人惊叹的机器人视频的高手，上周，我们意外地看到了新款电动 Atlas 在实际工厂任务中“亲自动手”的情景。这段视频之所以引人注目，是因为这是我们第一次真正看到新款 Atlas 做一些有用的事情——或者说做任何事情，因为 4 月份（我们第一次看到这款机器人）的介绍视频不到一分钟长。波士顿动力公司取得的进展显而易见，视频展示了在实际任务中融合了自主感知、全身运动和操控。我们一看到视频就发送了一些快速问题，波士顿动力公司机器人研究高级总监 Scott Kuindersma 也向我们提供了一些额外细节。如果您还没有看过这段视频，您是

走向数据科学

2024年10月28日 17:25

用于气候变化分析的图像数据收集

Image Data Collection for Climate Change Analysis

初学者指南埃特纳火山的卫星图像。来源：美国地质调查局 (USGS) 在 Unsplash 上的照片。I. 简介深度学习在地球观测中成功传播。它的成就导致了更复杂的架构和方法。然而，在这个过程中，我们忽略了一些重要的东西。拥有更多优质数据比拥有更好的模型更好。不幸的是，EO 数据集的开发一直很混乱。如今，它们有数百个。尽管我们努力编译数据集，但可以说它们散布在各处。此外，EO 数据已经激增以满足非常具体的需求。矛盾的是，这正是我们应该用它们前进的相反方向，特别是如果我们希望我们的深度学习模型更好地工作的话。例如，ImageNet 编译了数千张图像以更好地训练计算机视觉模型。然而，EO 数据比 I

Robogeek新闻频道（关于机器人技术的俄罗斯与世界新闻）

2023年10月10日 12:28

Severstal 使用神经网络提高酸洗钢的质量

«Северсталь» повышает качество травленого проката с помощью нейронной сети

谢韦尔钢铁公司使用自己的 VERA 计算机视觉模型控制切列波维茨冶金厂（谢韦尔钢铁公司的重要资产）4 号连续酸洗装置的金属质量。基于神经网络的解决方案有助于发现轧制金属产品的质量偏差，并有助于减少客户的通知数量。

Qudata

2023年5月3日 09:00

一种提高计算机视觉准确性的新方法

A new method to improve the accuracy of computer vision

研究人员使用了一组不同的简单图像生成程序来创建用于训练计算机视觉模型的数据集。这种方法可以提高在合成数据上训练的图像分类模型的性能。

人工智能+

2022年1月25日 08:29

如何为 AI 正确标记图像：五大挑战和最佳实践

How to Label Images Properly for AI: Top 5 Challenges & Best Practices

为什么重要：作为一个激进的转换器，图像标记可以调节 AI 模型的精度，因此是计算机视觉模型的成功杠杆。它发挥着核心作用，是 AI 实施成功的首要程序。

AI夏令营

2020年11月26日 00:00

医学成像中的迁移学习：分类和分割

Transfer learning in medical imaging: classification and segmentation

什么是迁移学习？它如何帮助我们对不同类型的医学图像进行分类和分割？预训练的计算机视觉模型对医学成像任务有用吗？在迁移学习方面，2D 图像分类与 3D MRI 分割有何不同？

Robogeek新闻频道（关于机器人技术的俄罗斯与世界新闻）

2019年12月13日 09:51

新的图像数据库可实现真实的计算机视觉测试

Новая база изображений позволяет провести реалистичные испытания компьютерного зрения

计算机视觉模型已经可以识别照片中的物体，其准确度超出了人类在实验室测试中的能力。然而，在现实条件下，算法的准确性显着下降，引发了人们对自动驾驶和其他基于计算机视觉的技术的担忧。

Robogeek新闻频道（关于机器人技术的俄罗斯与世界新闻）

2017年4月6日 14:08

无人机将能够像人一样感知世界

Беспилотник сможет ощущать мир, как человек

Cognitive Technologies 开发了认知数据融合技术，该技术可以在计算机视觉模型中最有效地使用来自各种传感器（摄像机、雷达、激光雷达等）的组合数据，直接发送到计算单元。

视觉与机器人

2016年2月20日 15:31

深度艺术

Deep Art

------ http://www.deepart.io/ ------ 摘要：在美术，尤其是绘画中，人类已经掌握了通过在图像的内容和风格之间构建复杂的相互作用来创造独特视觉体验的技能。到目前为止，这一过程的算法基础尚不清楚，也没有具有类似能力的人工系统。然而，在视觉感知的其他关键领域，如物体和人脸识别，最近由一类受生物启发的视觉模型（称为深度神经网络）展示了接近人类的表现。在这里，我们介绍了一个基于深度神经网络的人工系统，它可以创建高感知质量的艺术图像。该系统使用神经表征来分离和重新组合任意图像的内容和风格，为艺术图像的创作提供了一种神经算法。此外，鉴于性能优化的人工神经网络和生物视觉之间惊

视觉模型关键词检索结果