快速浏览的图像。尽管在计算机视觉中已经进行了巨大的发展,但诸如识别对象,动作分类,图像分类,属性分类和场景识别之类的任务是可能的,但是让计算机描述以类似人类句子的形式向其转发到它的图像是一个相对较新的任务。2。文献回顾了Andrej Karpathy等人的有影响力论文之一。在图像字幕中将任务划分为两个步骤:将句子段映射到图像中的视觉区域,然后使用这些通信来生成新的描述(Karpathy and Fei-Fei 2015)。作者使用区域卷积神经网络(RCNN)表示图像作为一组H维矢量,每个向量代表图像中的对象,基于200个Imagenet类检测到。作者在同一h维空间中的双向复发神经网络(BRNN)代表句子。每个句子是一组H维向量,代表片段或单词。BRNN的使用丰富了此表示,因为它学习了句子中每个单词上下文的知识。作者发现,有了这样的表示,单词的最终表示与与同一概念相关的视觉区域的表示密切一致。他们在单词和视觉区域的表示形式上定义了对齐得分,并在马尔可夫随机字段的帮助下,将各种单词与生成文本片段的同一区域对齐。借助图像区域和文本片段之间的这些对应关系,作者训练了另一个为新看不见的图像生成文本说明的模型(Karpathy and Fei-Fei 2015)。
• 当今的人工智能 (AI) 模型在统计上是模仿性的 — 它们不是通用人工智能 (AGI),而是“AGI-ish”。 • 遵循 Karpathy(5 月 24 日):1 • 低风险应用,有人类监督。• 灵感、建议的来源。• 自主代理的副驾驶。• 技术限制不断变化(例如,上下文长度、模态、许可)。• 文本到文本大型语言模型 (LLM) 目前是国防部 (DoD) 最有用的模型。• 如果得到适当的授权,不断增长的用户群将找到我们无法预测的用途。
人类一直在预测不可能的人方面具有固有的兴趣。旅程可能始于算命先驱者,甲骨文和先知,使用太阳标志,行星位置和恒星对准来预测未来。,但是今天,人工智能使用统计数据,大数据分析以及这一切的核心,机器学习(ML)取代了他们的位置。ML已渗透每个现代行业,以提供预测性见解。非整合列表如下。在医疗保健中,ML模型已用于预测大流行期间的Covid-19潮流,死亡人数和恢复率[17]。在制造业中,它们已被应用于提高智能工厂的效率[19]。在监视中,Karpathy等。[12]评估卷积神经网络(CNN)在487个视频类别上的性能,总共有100万个YouTube视频,以进一步监视自动化。在心理健康领域,Fathi等。[7]在具有七个输入功能的大型数据集上训练ANFIS模型,以检测医疗保健中的社交焦虑症。