Fine-tune multimodal models for vision and text use cases on Amazon SageMaker JumpStart
在本文中,我们将展示如何微调文本和视觉模型(例如 Meta Llama 3.2),以便在视觉问答任务中表现更好。Meta Llama 3.2 Vision Instruct 模型在具有挑战性的 DocVQA 视觉问答基准上表现出色。通过利用 Amazon SageMaker JumpStart 的强大功能,我们展示了调整这些生成式 AI 模型以更好地理解和回答有关图像的自然语言问题的过程。
VQAScore: Evaluating and improving vision-language generative models
简介 文本到图像/视频模型(如 Midjourney、Imagen3、Stable Diffusion 和 Sora)可以根据自然语言提示生成美观、逼真的视觉效果,例如,给定“几只巨大的猛犸象走近,穿过一片雪地草地……”,Sora 会生成:但我们如何知道这些模型是否生成了我们想要的东西?例如,如果提示是“棕色的狗在树周围追逐黑色的狗”,我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”?更一般地说,我们应该如何评估这些生成模型?虽然人类可以轻松判断生成的图像是否与提示一致,但大规模的人工评估成本高昂。为了解决这个问题,我们引入了一个新的评估指标 (VQAScore) 和基准数据集
Boston Dynamics’ Latest Vids Show Atlas Going Hands On
波士顿动力公司 (Boston Dynamics) 是毫无预警地发布令人惊叹的机器人视频的高手,上周,我们意外地看到了新款电动 Atlas 在实际工厂任务中“亲自动手”的情景。这段视频之所以引人注目,是因为这是我们第一次真正看到新款 Atlas 做一些有用的事情——或者说做任何事情,因为 4 月份(我们第一次看到这款机器人)的介绍视频不到一分钟长。波士顿动力公司取得的进展显而易见,视频展示了在实际任务中融合了自主感知、全身运动和操控。我们一看到视频就发送了一些快速问题,波士顿动力公司机器人研究高级总监 Scott Kuindersma 也向我们提供了一些额外细节。如果您还没有看过这段视频,您是
Image Data Collection for Climate Change Analysis
初学者指南埃特纳火山的卫星图像。来源:美国地质调查局 (USGS) 在 Unsplash 上的照片。I. 简介深度学习在地球观测中成功传播。它的成就导致了更复杂的架构和方法。然而,在这个过程中,我们忽略了一些重要的东西。拥有更多优质数据比拥有更好的模型更好。不幸的是,EO 数据集的开发一直很混乱。如今,它们有数百个。尽管我们努力编译数据集,但可以说它们散布在各处。此外,EO 数据已经激增以满足非常具体的需求。矛盾的是,这正是我们应该用它们前进的相反方向,特别是如果我们希望我们的深度学习模型更好地工作的话。例如,ImageNet 编译了数千张图像以更好地训练计算机视觉模型。然而,EO 数据比 I
«Северсталь» повышает качество травленого проката с помощью нейронной сети
谢韦尔钢铁公司使用自己的 VERA 计算机视觉模型控制切列波维茨冶金厂(谢韦尔钢铁公司的重要资产)4 号连续酸洗装置的金属质量。基于神经网络的解决方案有助于发现轧制金属产品的质量偏差,并有助于减少客户的通知数量。
A new method to improve the accuracy of computer vision
研究人员使用了一组不同的简单图像生成程序来创建用于训练计算机视觉模型的数据集。这种方法可以提高在合成数据上训练的图像分类模型的性能。
How to Label Images Properly for AI: Top 5 Challenges & Best Practices
为什么重要:作为一个激进的转换器,图像标记可以调节 AI 模型的精度,因此是计算机视觉模型的成功杠杆。它发挥着核心作用,是 AI 实施成功的首要程序。
Transfer learning in medical imaging: classification and segmentation
什么是迁移学习?它如何帮助我们对不同类型的医学图像进行分类和分割?预训练的计算机视觉模型对医学成像任务有用吗?在迁移学习方面,2D 图像分类与 3D MRI 分割有何不同?
Новая база изображений позволяет провести реалистичные испытания компьютерного зрения
计算机视觉模型已经可以识别照片中的物体,其准确度超出了人类在实验室测试中的能力。然而,在现实条件下,算法的准确性显着下降,引发了人们对自动驾驶和其他基于计算机视觉的技术的担忧。
Беспилотник сможет ощущать мир, как человек
Cognitive Technologies 开发了认知数据融合技术,该技术可以在计算机视觉模型中最有效地使用来自各种传感器(摄像机、雷达、激光雷达等)的组合数据,直接发送到计算单元。
------ http://www.deepart.io/ ------ 摘要:在美术,尤其是绘画中,人类已经掌握了通过在图像的内容和风格之间构建复杂的相互作用来创造独特视觉体验的技能。到目前为止,这一过程的算法基础尚不清楚,也没有具有类似能力的人工系统。然而,在视觉感知的其他关键领域,如物体和人脸识别,最近由一类受生物启发的视觉模型(称为深度神经网络)展示了接近人类的表现。在这里,我们介绍了一个基于深度神经网络的人工系统,它可以创建高感知质量的艺术图像。该系统使用神经表征来分离和重新组合任意图像的内容和风格,为艺术图像的创作提供了一种神经算法。此外,鉴于性能优化的人工神经网络和生物视觉之间惊