ML 课程涵盖的广泛主题包括图像处理、计算机视觉、模式识别、信息检索、自然语言处理和语音处理、基于线性代数、概率和随机变量的自然语言处理。还包括一些更高级的主题,如深度神经网络、深度学习、卷积神经网络等。学生需要对图像处理、模式识别、计算机视觉和自然语言处理等主要领域有全面的了解。学生了解处理大规模数据的硬件和软件也很重要。为此,课程包括实验课程和加速计算课程,通过这些课程,学生将有更多的实践经验来处理实现机器学习高级领域所需的许多硬件和软件。凭借由能力出众的教师提供的完整课程,学生有望在完成课程后以员工身份加入各种研发组织。该学院的集中就业部门为该计划提供了就业流程的大力支持。最近,毕业生还加入了印度和国外许多知名组织的博士等高等研究。许多人加入了研究机构,从事前沿研究。到目前为止,项目完成后的就业情况非常令人满意。
机器学习是一种从已知的数据集[4]中提取数据的过程。这种学习可以是监督学习(其中机器学习模型在已知的数据输入和输出上进行训练)或无监督学习(其中在没有任何预定义信息的情况下从输入数据中提取隐藏模式)。深度学习 (DL) 是机器学习的一个子集,包含一组具有多个数据处理层的数学模型[5]。其操作非常复杂,可以通过在多个抽象层次上表示极大数据集来做出决策和处理它们[4]。人工神经网络 (ANN) 是一种模拟生物系统的 DL 算法。它由三层组成:输入层(接收输入信号)、多个隐藏层和输出层[6]。深度 ANN 具有大量隐藏层,因此准确度很高[7]。其他 DL 网络架构是根据特定应用或学习数据开发出来的。例如,卷积神经网络 (CNN) 通常用于 DL 中的图像处理,包括使用医学图像进行自动分割和计算机辅助诊断[8]。循环神经网络(RNN)是另一种适合处理时间相关信息的网络架构,例如语音处理或视频分析[9]。
言语交流在将我们的思想传达给他人,保持社会联系和支持教育成就方面起着至关重要的作用。因此,影响语音感知,例如自闭症,阅读障碍和听力损失的沟通障碍对个人和社会都可能是昂贵的。了解语音处理的神经生物学基础是在神经外科背景下侵入性颅内电生理学加剧的重要目标。然而,大量的行为证据表明,语音输入到音素中尚未考虑到神经生物学模型中尚未考虑的动态,灵活的方面。这个探索性/发展性R21项目追求了一个中心假设,即听力背景系统地影响了对语音的皮质反应,因此影响了信号传导音素中声学维度的诊断性。一个新成立的跨学科研究团队将通过在神经外科背景下获得的立体电脑摄影(SEEG)使用脑内记录,以追求这一假设。像电皮质学(ECOG)一样,Seeg具有高时空分辨率,可以针对皮质表面,包括上颞回(STG)。由于皮质内电极的放置,Seeg电极通过颞上平面记录,特别针对深沟和陀螺灰质,包括上颞沟(STS)和Heschl的Gyrus(Hg)。同时将获得头皮脑电图(EEG),以将这些物质内措施与健康听众研究中的无创方法联系起来。aim 1将建立对两个声 - 声音维度的神经反应,这是它们信号音素同一性的感知权重的函数。这将为每个参与者提供一个基线响应,以作为与听力背景的实验操作相比,在AIM 2中转移感知权重,并将确定感知加权策略中个体差异如何预测皮质电生理响应。aim 2将引入两个完善的操纵,从行为上讲,相对于基线而转移感知权重:引入噪声和引入“口音”的“噪声”,短期语音输入偏离了母语的分布规律性。对参与者内部实验操作的检查将提供一种敏感手段,通过该方法来测定神经反应的变化,这是在听力环境中产生的知觉权重变化的函数。参与者将在青春期(15-25岁)中进行采样,在此期间,感知权重提供了信息性的异质性。该项目将通过填补对语音处理的重要空白,从患者的侵入性电生理研究中建造一座桥梁,到通过结合eeg+EEG,婚礼经典和最先进的计算方法到为机制提供信息的机制,并理解具有实质性处理的动态性质,从而使人类听众的头皮衡量人类听众的衡量。
卡塔尔拥有独特的优势,可以从人工智能中获益。超过 94% 的卡塔尔人口使用互联网,这一比例位居世界前列。互联网的广泛使用表明卡塔尔公民不断接触人工智能技术,包括计算机视觉、语言和语音处理以及数字地图。谈到人工智能,未来已经到来。设计和生产针对当地需求和使用情况进行优化的人工智能产品并不像看起来那么遥不可及,可以通过必要的教育和培训来实现。AI+X 范式:人工智能教育应成为各学科各教育水平课程不可或缺的一部分。在 K-12 阶段,年轻的学生应该学会应对人工智能的建议。例如,人工智能通常以概率的形式提供建议,因此学生应该学习面对不确定性时做出决策的基础知识。从基于感觉转向智力感知的转变植根于中世纪伊斯兰哲学 5 。学生还应该学习与人工智能互动作为其环境的一部分。例如,学会拒绝明显不符合常识的人工智能建议。年龄较大的学生应该有机会学习人工智能的技术和哲学方面。通过开发专业学习课程或在线培训“向教师传授”人工智能知识也很重要。
摘要 —人工智能 (AI) 在语音处理、图像分类到药物发现等众多领域取得了令人瞩目的突破。这得益于数据的爆炸式增长、机器学习 (尤其是深度学习) 的进步以及强大计算资源的便捷获取。特别是,边缘设备 (如物联网设备) 的大规模部署产生了前所未有的数据规模,这为在网络边缘推导准确模型和开发各种智能应用提供了机会。然而,由于信道质量参差不齐、流量拥塞和/或隐私问题以及巨大的能耗,如此庞大的数据无法全部发送到云端进行处理。通过将 AI 模型的推理和训练过程推送到边缘节点,边缘 AI 已成为一种有前途的替代方案。边缘 AI 需要边缘设备 (如智能手机和智能汽车) 与无线接入点和基站的边缘服务器之间的密切合作,但这会导致繁重的通信开销。在本文中,我们全面概述了克服这些通信挑战的各种技术的最新发展。具体来说,我们首先确定了边缘 AI 系统中的关键通信挑战。然后,我们从算法和系统的角度介绍了用于网络边缘训练和推理任务的通信高效技术。我们还强调了未来的潜在研究方向。
与单一连续说话者相比,不连续、混合说话者的语音处理效率较低,但人们对处理说话者变异性的神经机制知之甚少。在这里,我们使用脑电图 (EEG) 和瞳孔测量法测量了听众在执行延迟回忆数字广度任务时对说话者变异性的心理生理反应。听众听到并回忆了七位数字序列,其中既有说话者不连续性(单个说话者数字与混合说话者数字),也有时间不连续性(0 毫秒与 500 毫秒数字间隔)。说话者不连续性降低了序列回忆准确性。说话者和时间不连续性都会引发类似 P3a 的神经诱发反应,而快速处理混合说话者的语音会导致相位瞳孔扩张增加。此外,混合说话者的语音在工作记忆维持期间产生的 alpha 振荡功率较低,但在语音编码期间不会产生。总体而言,这些结果与听觉注意力和流式框架一致,其中说话者的不连续性会导致不自愿的、刺激驱动的注意力重新定位到新的语音源,从而导致通常与说话者多变性相关的处理干扰。
摘要 — 生成对抗网络 (GAN) 在语音处理等领域的时间序列数据生成方面取得了重要进展。GAN 的这种能力对于脑机接口 (BCI) 非常有用,因为收集大量样本可能既昂贵又耗时。为了解决这个问题,本文提出了一种为运动想象生成人工脑电图 (EEG) 数据的新方法。这里的 GAN 使用由双向长短期记忆神经元组成的生成器和鉴别器网络。使用来自 BCI 竞赛 IV 的数据集 2b 评估训练后的模型。该数据集包括左手和右手运动想象的试验。训练单独的 GAN 以生成与数据集中存在的两种试验类型相对应的人工 EEG 样本。为了进行评估,使用短期傅里叶变换和 Welch 功率谱密度比较真实和人工 EEG 信号的时频特性。结果表明,GAN 可以捕捉运动想象脑电图数据的重要特征,例如 beta 波段的功率变化。从 Welch 的功率谱密度来看,人工生成信号和原始信号的功率变化处于相似的频率区间。
代码 课程名称 学分 AI300 人工智能中的概率方法 3-0-3 AI302 数字图像处理 3-0-3 AI304 语音处理 3-0-3 AI310 人工智能项目设计与开发 3-0-3 AI311 微控制器与嵌入式系统 3-0-3 AI312 自动化与机器人 3-0-3 AI313 物联网 3-0-3 AI314 普适计算 3-0-3 AI315 自动化中的人工智能 3-0-3 AI321 语义技术 3-0-3 AI322 计算语言学 3-0-3 AI323 信息检索 3-0-3 AI341 游戏人工智能 3-0-3 AI342 生物识别智能 3-0-3 AI405 认知人工智能 3-0-3 AI406 脑机接口3-0-3 AI407 生物启发计算 3-0-3 AI408 计算生物学 3-0-3 AI409 进化计算 3-0-3 AI415 智能系统 3-0-3 AI416 基于代理的建模 3-0-3 AI417 群体智能 3-0-3 AI424 链接数据工程 3-0-3 AI434 深度学习 3-0-3 AI435 强化学习 3-0-3 AI442 边缘计算 3-0-3 AI443 虚拟和增强现实 3-0-3 CS333 自动机理论 3-0-3 CS437 数据仓库和数据挖掘 3-0-3 MA421 数值分析 3-0-3 MT446 数字信号处理 3-0-3 MA105 多变量微积分 3-0-3
摘要 - 从大脑信号中介绍语音是一个具有挑战性的研究问题,对于研究大脑的语音处理至关重要。尽管在重建受试者在单词或字母水平上使用非入侵脑电图(EEG)所感知的主体所感知的音频刺激的MEL频谱已经取得了突破,但精确地重建连续的语音特征的精确重建连续的语音特征,尤其是在微小的水平上仍然存在关键的差距。为了解决这个问题,本文提出了一个状态空间模型(SSM),以重建来自脑电图的连续语音的MEL频谱,名为SSM2Mel。该模型引入了一个新型的MAMBA模块,以有效地对EEG信号的长序列进行建模,以进行想象的语音。在SSM2MEL模型中,S4-UNET结构用于增强EEG信号的局部特征的提取,并且使用嵌入强度调节器(ESM)模块用于合并主体特定信息。实验结果表明,我们的模型在Sparrkulee数据集上达到了0.069的Pearson相关性,这比上一个基线提高了38%。索引项 - 电子皮质学(EEG),MEL频谱图,多头自我注意力,状态空间模型,想象的语音。
LTPC 子流:电子系统工程 21ECE201J Python 和科学 Python 2 0 2 3 21ECE202T 微纳米制造技术 3 0 0 3 21ECE203J 农业智能传感器和设备 2 0 2 3 21ECE204T 光电子学 3 0 0 3 21ECE205T 柔性电子学 3 0 0 3 21ECE301T 纳米级电子设备 3 0 0 3 21ECE302J 实时操作系统 2 0 2 3 21ECE303T MEMS 技术 3 0 0 3 21ECE304T 网络物理系统框架 3 0 0 3 21ECE305J 机器学习算法 2 0 2 3 21ECE401T 高级数字系统设计 3 0 0 3 21ECE402T 半导体器件建模 3 0 0 3 21ECE403T 微波集成电路 3 0 0 3 21ECE404T 太赫兹器件及应用 3 0 0 3 子流:通信系统工程 21ECE220T 无线和光学传感器 3 0 0 3 21ECE221T 雷达和导航辅助设备 3 0 0 3 21ECE222T 自组织和传感器网络 3 0 0 3 21ECE223T 卫星通信和广播 3 0 0 3 21ECE224T 密码学和网络安全 3 0 0 3 21ECE225T 光学系统和网络 3 0 0 3 21ECE320T 软件定义网络 3 0 0 3 21ECE321T 射频和微波半导体器件 3 0 0 3 21ECE322T 使用 R 进行数据分析 3 0 0 3 21ECE323T 网络安全 3 0 0 3 21ECE324T 先进的移动通信系统 3 0 0 3 21ECE420T 信息理论与编码 3 0 0 3 21ECE421T 无线通信网络 3 0 0 3 子流:信号处理 21ECE240T 小波和信号处理 3 0 0 3 21ECE241J 音频和语音处理 2 0 2 3 21ECE242J 模式识别和神经网络 2 0 2 3 21ECE340J 数字图像和视频处理 2 0 2 3 21ECE341J DSP 系统设计 2 0 2 3 21ECE440T 自适应信号处理 3 0 0 3 21ECE441T 机器感知与认知 3 0 0 3 21ECE442T 多媒体压缩技术 3 0 0 3 总学习学分 18