为了创建能够自动从图像或图片中读取文本的计算机系统,研究人员专注于检测和识别图像中的文本。这个问题特别困难,因为图像通常具有复杂的背景和广泛的属性,包括颜色、大小、形状、方向和纹理。我们提出的方法基于形态学,它由膨胀和腐蚀过程组成,以提取文本并识别包含文档文本或图像的黑白文本区域。这种建议的方法已被研究,因为它能够自动识别与文本图片对齐的文本,例如商店名称、街道名称、横幅和海报。本文使用光学字符识别 (OCR) Tesseract 标准和优化的 OCR Tesseract 介绍了该设备实验的设计、应用和结果。我们的结果表明,优化的 OCR Tesseract 比标准性能好得多。图像预处理和文本处理模块构成了该设备的两个模块。该设备使用 Arduino Uno 和 drawbot/flutter 进行文本打印,是使用 Raspberry Pi 和 1.2GHz 处理器创建的。
问题 1.人工智能作为一个科学领域 人工智能 (AI) 作为一个与尝试形式化人类思维相关的科学领域有着悠久的历史。柏拉图、亚里士多德、笛卡尔、莱布尼茨和许多其他研究人员试图将思维过程描述为一系列基本运算。 “人工智能”一词首次出现在 1956 年夏天于美国达特茅斯举行的一次科学会议上。一方面,它被认为是创造能够进行与人类智力活动相当的智力活动的软件和硬件的理论。另一方面,既有软件,也有硬件,以及在它们的帮助下所完成的工作。人工智能包括以下技术: 问题解决、专家系统、支持系统和决策; 识别图像、动作等的系统; 文本处理和机器翻译系统; - 游戏程序。例如国际象棋; - 学习和培训系统; - 机器人和自主代理; 以自然语言与用户交互。人工智能系统是一套软件和硬件,其使用应产生与人类智力活动相同的结果。人工智能作为一门科学领域,与哲学、心理学、语言学、人类学等密切相关。
快速诊断脑肿瘤对于实施这种疾病的治疗是必要的。在本研究中,使用基于 ResNet 架构的网络对 MRI 图像中的脑肿瘤进行分类。癌症图像档案数据库中可用的 MRI 图像包括 159 名患者。首先,使用两个称为中值滤波器和高斯滤波器来改善图像质量。还使用边缘检测算子来识别图像的边缘。其次,首先使用数据库的原始图像训练所提出的网络,然后用高斯滤波和中值滤波图像训练。最后,使用准确度、特异性和敏感性标准来评估结果。本研究中提出的方法对原始图像、高斯滤波图像和中值滤波图像的准确率分别为 87.21%、90.35% 和 93.86%。此外,计算出的原始图像的灵敏度和特异性分别为 82.3% 和 84.3%。高斯滤波和中值滤波图像的灵敏度分别为 90.8% 和 91.57%,特异性分别为 93.01% 和 93.36%。总之,应研究预处理阶段的图像处理方法,以提高深度学习网络的性能。
摘要:人工智能可以识别图像,但无法像人一样理解图像。理解图像符号的难题在于类比,而类比无法明确地操作化。没有什么可以保证类比的意义,因为它既不是原因的必然结果,如指示性符号,也不是规则的必然结果,如符号(单词)。但类比也是人类状况的基础,因为我们的自我暗示着他人的存在。或者,就像图像一样,对他人的理解暗示着类比:他是一个像我一样的自我,但不是我自己的另一个自我,即一个类比自我。也就是说,你可以理解他人活动和行为的行为,甚至他传达的信息,因为你把它们解释成关于你自己的信息。与作为存在物的人类不同,在人工智能中,本质先于存在。即使类比过程的算法将得到无限完善,这种类比也会错过来自现存生命体的解释。人工智能了解数字,人类了解模拟;人工智能从知识中理解,人类从理解中了解。关键词:人工智能;图像;类比;理解;知识;其他;自我。引用方式:Codoban, A. (2020)。为什么人工智能不能像人类一样理解图像?后现代开篇,11 (4),174-182。doi:10.18662/po/11.4/228
课程描述:击败游戏玩家或比人类更好地识别图像的深度学习模型是否也能帮助我们理解基因组学?这项跨学科研究将在多大程度上帮助我们治愈癌症?在基因组学数据以比摩尔定律更快的速度呈指数增长的时代(Berger 等人,2016 年),深度学习方法终于能够帮助解决该领域的基本问题。然而,这些令人兴奋的发展也面临着处理来自我们 DNA 的数据所特有的挑战。作为试图将深度学习与基因组学结合起来的研究人员,我们必须仔细考虑如何将这些模型有效地应用于基因组学任务。在我们的应用中使用深度学习是否合适?我们应该使用什么模型?我们的方法是否会提高我们对数据或问题的理解?在本课程中,您将通过阅读最近的研究文献并在课堂上讨论来回答这些问题。您将了解不同的基因组学任务、深度学习模型以及它们如何结合在一起。本课程旨在培养批判性思维,并允许学生共同应用这些模型。
脑肿瘤是由于细胞不受控制地生长而产生的异常组织肿块。脑肿瘤通常会缩短寿命并在后期导致死亡。自动检测脑肿瘤是计算机辅助疾病诊断系统中一项具有挑战性且重要的任务。本文提出了一种基于深度学习的脑肿瘤分类方法。使用边缘方向总变分去噪去除脑 MRI 图像中的噪声。使用超像素融合的 SLIC 分割对脑 MRI 图像进行分割。将分割结果提供给经过训练的 GoogleNet 模型,该模型可识别图像中的肿瘤部分。一旦识别出肿瘤,便使用基于卷积神经网络 (CNN) 的改进语义分割模型对肿瘤段边缘的像素进行分类。改进的语义分割使用像素的线性邻域来进行更好的分类。由于边界处的像素被准确分类,因此最终识别出的肿瘤是准确的。实验结果表明,该方法在 GoogleNet 分类模型中的准确率为 97.3%,线性邻域语义分割的准确率为 98%。
脑肿瘤的识别是一个关键步骤,依赖于医生的专业知识和能力。为了让放射科医生能够发现脑肿瘤,自动肿瘤排列非常重要。本文提出了一种 MR 脑图像分割和分类技术,以识别图像的正常和异常。所提出的技术是一种混合特征提取,旨在增强分类结果,基本上包括三个阶段。第一阶段使用 3 级离散小波变换 (DWT) 提取图像特征。在第二阶段,应用主成分分析 (PCA) 来减小特征的大小。最后,使用随机森林分类器 (RF) 和特征选择进行识别。收集了 181 张 MR 脑图像(81 张正常和 100 张异常),在区分正常和异常组织方面,实验结果获得了 98% 的准确率,灵敏度达到 99.2%,特异性达到 97.8%,并与多种文献进行了比较,证明了所提出的技术的有效性。结果表明3L-DWT+PCA+RF仍然取得了最好的分类效果,该模型可以应用于脑MRI球体分类,在一定程度上可以帮助医生判断肿瘤是正常还是异常。
摘要:在医学诊断领域实施机器学习算法的趋势是必要且有意义的。然而,数据隐私已成为应用中的一大问题。本文使用联邦学习(FL)架构来处理隐私问题,并找到提高模型性能的方法。该研究结合 FedAvg FL 算法和 CNN 模型 EfficientNet 在脑肿瘤分类(MRI)数据集上训练模型。在实施算法之前,该研究对数据进行了一些预处理。然后,该研究使用 EfficientNet 进一步处理和识别图像,并使用 FedAvg 对客户端训练的模型进行加权平均。此外,该研究探索了优化器和损失函数,选择了更适合此任务的 AdamW 和交叉熵损失。最后,该研究深入了参数调整工作,绘制了一些曲线和表格来可视化结果。经过参数调整后,本文发现测试准确率高达 81.218%,所有客户端的平均训练准确率高达近 99%。另外,本文还讨论了不同CNN模型的实现条件,分析了它们在医学诊断领域的优缺点,为网络模型和算法的结合提供了一些思路。
摘要 - 信息是通过报纸,期刊,互联网和学术期刊中的图像传播的。借助各种工具,例如Adobe,gimp和Corel Draw,区分原始形象和伪造的人已经变得越来越具有挑战性。大多数传统方法都依赖于构造的特征来检测图像伪造。图像验证在确保和确保敏感文档中个人身份的真实性方面起着至关重要的作用。本研究提出了一种机器学习方法(支持向量机,SVM和定向梯度的直方图,Hog),以识别图像并确认其真实性。使用定向梯度(HOG)的直方图提取各种特征,包括匹配,图像大小和图像验证的尺寸。使用支持向量机(SVM)进行训练和测试阶段。使用广泛的数据集评估所提出的图像验证技术,以确定图像识别精度,以及特异性,灵敏度和精度等指标。与现有技术的比较分析表明,所提出方法的平均图像验证精度为98%,超过了先前的图像验证方法。
摘要本文介绍了一种基于实时检测、使用图像处理和人机交互的情绪检测系统。面部检测已经存在了几十年。再进一步,人类的表情可以通过视频、电信号或图像形式捕捉到,并被大脑感受到。通过图像或视频识别情绪对人眼来说是一项艰巨的任务,对机器来说也具有挑战性,因此机器检测情绪需要许多图像处理技术来提取特征。本文提出了一个具有人脸检测和面部表情识别(FER)两个主要过程的系统。本研究重点是识别面部情绪的实验研究。情绪检测系统的流程包括图像采集、图像预处理、人脸检测、特征提取和分类。为了识别这种情绪,情绪检测系统使用 KNN 分类器进行图像分类,使用 Haar 级联算法(一种对象检测算法)来识别图像或实时视频中的人脸。该系统通过从网络摄像头拍摄实时图像来工作。本研究的目的是建立一个自动面部情绪检测系统来识别不同的情绪,基于这些实验,系统可以识别出悲伤、惊讶、快乐、恐惧、愤怒等几种情绪。