最新出版物●Gohari,M.,Salvi,D.,Bestagini,P.,Adami,N。(2025)。音频功能调查用于唱歌的DeepFake检测,提交给ICASSP 2025。●Gohari,M.,Bestagini,P.,Benini,S.,Adami,N。(2024)。基于频谱图在音乐录音中自动调整人声的检测,在Wifs 2024接受。●Zanardelli,M.,Gohari,M.,Benini,S.,Adami,N。(2024)。基于PGNN的室外图像中鲁棒3D光方向估计的方法,在CBMI 2024接受。●Zanardelli,M.,Moghaddam,M.G。,Leonardi,R.,Benini,S。和N. Adami,2024年。Synthoutdoor:用于3D室外光估计的合成数据集。简要数据,第110700页。
历史背景 直到 2002 年,与生物医学成像相关的信号处理活动都由 SPS 的图像和多维数字信号处理委员会监督,并通常在 ICIP 和 ICASSP 的专题会议上提出。SPS 还共同赞助了《IEEE 医学成像学报》。然而,在世纪之交,成像在医学和生物学中的重要性日益凸显。与此同时,先进的信号处理在重建和分析生成的大量图像中发挥着越来越重要的作用。美国国立卫生研究院 (NIH) 和美国国会于 2000 年 12 月成立了国家生物成像和生物工程研究所 (NIBIB),进一步证实了这一认识。数字对象标识符 10.1109/MSP.2023.3242833 当前版本日期:2023 年 6 月 1 日
现有的先验使用预先训练的重量作为中心,这可能会构成对目标数据适应不足的严重风险。在[ICML2020-LI]中,我们提出了一种步枪方法,该方法会积极忘记通过在细调过程中重新定位完全连接的层所学到的东西,以增强目标适应性。学习过程的稳定性主要是由于模型崩溃或信息理论中输入和输出的异常相互信息。模型崩溃可以通过跨层相互信息的变化来检测。在[ICASSP 2023-LI]中,我们基于信息的感应偏见补充了现有的先验,以偏爱具有稳定信息传播的网络,以降低模型崩溃率并提高模型稳定性。我们进一步开发了具有可牵引概括的新先验,以鼓励微调模型对输入噪声不敏感[NAACL2021-LI]。(用于bert微调的噪声稳定性正则化)
2023 年夏季研究实习生,三星美国研究中心,山景城 导师:Li Zhu 博士和 Jilong Kuang 博士 - 领导了一个关于减轻基于 rPPG 的 SpO2 估计的跨用户性能变化的项目。 - 获得三星 A1 专利。 - 提出的方法正在部署到三星产品(手机和电视)。 - 发表了 ICASSP'24 论文。 2022 年夏季研究实习生,Snap Research,纽约 导师:Jian Wang 博士和 Shree Nayar 博士 - 领导了一个关于减少 AR/VR 的运动到光子延迟的项目。 - 提出的技术是 Snapchat App 的路线图。 - 发表了 N-euro Predictor 论文(UbiComp'23)。 2021 年夏季研究实习生,Signify(飞利浦研究中心),远程导师:Jin Yu 博士 - 领导一个传感器数据处理项目。 - 构建了一个可扩展且强大的概率模型并实施了整个流程。 - 系统性能提升19%,并申请专利。
专业活动共同组织者Umich AI研讨会(2024)CVPR研讨会主席(2024)首席组织者,视觉和声音研讨会,网址为CVPR 2018-2024。共同组织者,AV4D:空间工作室中声音的视觉学习,ECCV 2022,ICCV2023。共同组织者,开放世界视觉研讨会,CVPR 2021-2024。共同组织者,体现的多模式学习研讨会,位于ICLR 2021。评论者:CVPR(2015-2020,2022),ICCV(2015,2017,2019,2019,2021),ECCV(2016,2018,2018,2020,2022),Siggraph(2020,2024),Siggraph Paphaph Asia(2024),(2024),ICLR(2018,2024) (2017),Neurips(2017、2019、2021、2022),CHI(2018),UIST(2019),ACL(2022),Corl(2022),ICASSP(2023)(2023)区域主席:CVPR:CVPR(2021,2023,2023,2024,2025),Neurips(Neurips(Neurips),Neurips(2023),20222222222222222222222222222222222222222222222222222222222222222222222222222222年2月22日(neurips)(neurips datev)(neurips)( (2023),ICCV(2023),ECCV(2024)NSF小组成员(2023,2024)
1。H. F. Garc´ıa,O。Nieto,J。Salamon,B。Pardo和P. Seetharaman。 sketch2sound:通过随时间变化的信号和声音模仿,可控的音频发生。 ICASSP,2025 2。 H. Flores Garcia,P。Seetharaman,R。Kumar和B. Pardo。 Vampnet:通过掩盖的声学令牌建模发电。 在Ismir,2023 3。 D. Flores Garc´ıa,H。FloresGarc´ıa和M. Riondato。 clavenet:通过数据增强生成非洲古巴鼓模式。 在第19届国际音频会议论文集中主要是:Sonic Cultures中的剥削,AM '24,第355-361页,纽约,纽约,美国,2024年。 计算机协会4。 H. Flores Garcia,P。O'Reilly,A。Aguilar,C。Benetatos,Z。Duan和B. Pardo。 竖琴:通过托管,异步,远程处理深入学习DAW。 在第七届机器学习研讨会中,在神经2023,2023 5。上 Y. Wang,H。F. Garc´ıa和J. Choi。 音乐信息检索的几次射击和零拍学习。 在第23届国际音乐信息检索会议上,2022年H. F. Garc´ıa,O。Nieto,J。Salamon,B。Pardo和P. Seetharaman。sketch2sound:通过随时间变化的信号和声音模仿,可控的音频发生。ICASSP,2025 2。H. Flores Garcia,P。Seetharaman,R。Kumar和B. Pardo。Vampnet:通过掩盖的声学令牌建模发电。在Ismir,2023 3。D. Flores Garc´ıa,H。FloresGarc´ıa和M. Riondato。clavenet:通过数据增强生成非洲古巴鼓模式。在第19届国际音频会议论文集中主要是:Sonic Cultures中的剥削,AM '24,第355-361页,纽约,纽约,美国,2024年。计算机协会4。H. Flores Garcia,P。O'Reilly,A。Aguilar,C。Benetatos,Z。Duan和B. Pardo。竖琴:通过托管,异步,远程处理深入学习DAW。在第七届机器学习研讨会中,在神经2023,2023 5。Y. Wang,H。F. Garc´ıa和J. Choi。 音乐信息检索的几次射击和零拍学习。 在第23届国际音乐信息检索会议上,2022年Y. Wang,H。F. Garc´ıa和J. Choi。音乐信息检索的几次射击和零拍学习。在第23届国际音乐信息检索会议上,2022年
1。背包语言模型。在计算语言学协会年会(ACL)年会2023年。接受率:23.5%未偿还纸张奖:39 /3872纸提交。约翰·休伊特(John Hewitt),约翰·加斯敦(John Glongstun),克里斯托弗·D·曼宁(Christopher D. Manning),珀西·梁(Percy Liang)。2。通过生成预训练的旋律转录。在国际音乐信息检索研讨会(ISMIR)2022中。接受率:43.3%的克里斯·多纳休(Chris Donahue),约翰·加斯敦(John Glongstun),珀西·梁(Percy Liang)。3。扩散lm改善可控文本生成。神经信息处理系统的进步(神经)2022。接受率:25.6%的口头呈递。Xiang Lisa Li,John Glongstun,Ishaan Gulrajani,Percy Liang,Tatsunori B. Hashimoto。 4。 淡紫色:使用发散边界来测量神经文本和人类文本之间的差距。 神经信息处理系统的进步(神经)2021。 接受率:25.7%未偿还纸张奖:6 /9122纸质提交。 奎师那·普鲁图拉(Krishna Pillutla),斯瓦巴(Swabha Swayamdipta),罗文·泽勒斯(Rowan Zellers),约翰·盖斯坦(John Gondstun),肖恩·威尔克(Sean Welleck),Yejin Choi,Zaid Harchaoui。 5。 通过Langevin Dynamics从自回旋模型进行平行和灵活的采样。 在机器学习国际会议(ICML)2021中。 接受率:21.5%Vivek Jayaram*,John Glongstun*(*同等贡献)。 6。 使用连续时间梯度更快地学习。 动态与控制学习(L4DC)2021。 7。 8。 9。 10。Xiang Lisa Li,John Glongstun,Ishaan Gulrajani,Percy Liang,Tatsunori B. Hashimoto。4。淡紫色:使用发散边界来测量神经文本和人类文本之间的差距。神经信息处理系统的进步(神经)2021。接受率:25.7%未偿还纸张奖:6 /9122纸质提交。奎师那·普鲁图拉(Krishna Pillutla),斯瓦巴(Swabha Swayamdipta),罗文·泽勒斯(Rowan Zellers),约翰·盖斯坦(John Gondstun),肖恩·威尔克(Sean Welleck),Yejin Choi,Zaid Harchaoui。5。通过Langevin Dynamics从自回旋模型进行平行和灵活的采样。在机器学习国际会议(ICML)2021中。接受率:21.5%Vivek Jayaram*,John Glongstun*(*同等贡献)。6。使用连续时间梯度更快地学习。动态与控制学习(L4DC)2021。7。8。9。10。塞缪尔·阿恩斯沃思(Samuel Ainsworth),肯德尔·洛里(Kendall Lowrey),约翰·康斯敦(John Glongstun),扎伊德·哈科伊(Zaid Harchaoui),悉达多·斯里尼瓦萨(Siddhartha Srinivasa)。一种信息瓶颈方法,用于控制理由提取中的简洁性。自然语言处理中的经验方法(EMNLP)2020。接受率:24.5%Bhargavi Paranjape,Mandar Joshi,John Glongstun,Hannaneh Hajishirzi,Luke Zettlemoyer。用深的生成先验的源分离。在国际机器学习会议(ICML)2020中。接受率:21.8%Vivek Jayaram*,John Glongstun*(*同等贡献)。卷积作曲家分类。在国际音乐信息检索研讨会(ISMIR)2019中。接受率:45.1%苛刻的Verma,John Glongstun。耦合复发模型,用于复音音乐组成。在国际音乐信息检索研讨会(ISMIR)2019中。接受率:45.1%John Glongstun,Zaid Harchaoui,Dean P. Foster,Sham M. Kakade。11。监督音乐转录的不断增长和数据增强。在国际声学,言语和信号处理(ICASSP)2018中。接受率:49.7%的口头介绍。John Gongstun,Zaid Harchaoui,Dean P. Foster,Sham M. Kakade。12。用于多个F0估计的频域卷积。Mirex摘要(技术报告)2017。John Gongstun,Zaid Harchaoui,Dean P. Foster,Sham M. Kakade。13。音乐网:从头开始学习音乐的功能。在2017年国际学习表征会议(ICLR)。接受率:39.1%John Glongstun,Zaid Harchaoui,Sham M. Kakade。