相关的关键发现: - 诊断错误每年影响超过1200万美国人,耗资超过1000亿美元(第5、15页)。- 基于AI的技术提供了诸如较早的疾病检测,更一致的数据分析和改善患者的访问效果(第10、11、12页)。- 几种ML技术有助于诊断癌症,糖尿病性视网膜病,阿尔茨海默氏病,心脏病和Covid -19。这些工具主要使用图像数据(X射线,MRI等),但不像其他数据类型一样(第11、12页)。- 美国大多数主要医疗中心使用了一种心电图监测技术,而另一种Covid -19检测技术仅在少数大学和研究机构中使用(第6页)。- ML诊断技术尚未看到广泛采用(第14页)。- 公司报告采用水平的不同;一种ECG技术被广泛使用,而Covid-19的另一种则仅限于研究(第6、14页)。- 医疗提供者通常会犹豫采用ML技术,直到现实世界的绩效得到很好的表现为止(第6、23页)。- 三种新兴方法是自主,适应性和面向消费者的ML诊断(第17页)。- 自适应ML,使用新的患者数据更新算法,可能会提高准确性,但也可能导致不一致的性能(第17-19页)。- 自主系统可以降低成本,提高能力并提高准确性,但是它们的创造和采用可能很困难(第18-19页)。- 面向消费者的工具提供了增加的患者访问和更广泛的数据收集,但也需要采取其他步骤来确保适当的结果(第21-22页)。- 采用ML的挑战包括在各种临床环境中展示现实世界的表现,确保技术满足实际的医疗需求,并在现有的监管框架中弥合差距(第23-27页)。- 研究表明,在临床部位之间的性能可能会有很大的不同,从而强调了对特定地点验证的需求(第23-24页)。- 关于算法验证和采用技术的监管差距,特别是对于具有适应性能力的人(第26、33页)。- 解决这些挑战的政策选择包括激励对ML技术的评估,扩大对高质量数据的访问以及促进开发人员,提供者和监管机构之间的协作(第28-31页)。
摘要。文本对图像合成是机器学习中最具挑战性和最受欢迎的任务之一,许多模型旨在提高该领域的性能。深融合生成的对抗网络(DF-GAN)是图像生成的直接但有效的模型,但它具有三个关键局限性。首先,它仅支持句子级文本描述,从而限制了其从文字级输入中提取细颗粒特征的能力。第二,可以优化残差层和块的结构以及关键参数,以提高性能。第三,现有的评估指标,例如FréchetInception距离(FID),倾向于不适当地强调无关紧要的功能,例如背景,当重点放在生成特定对象上时,这是有问题的。为了解决这些问题,我们引入了一个新的文本编码器,该编码器增强了具有处理单词级描述能力的模型,从而导致更精确和文本一致的图像生成。此外,我们优化了关键参数,并重新设计了卷积和残留网络结构,从而产生了更高质量的图像并减少了运行时间。最后,我们提出了一种量身定制的新评估理论,以评估生成图像中特定对象的质量。这些改进使增强的DF-GAN在有效地产生高质量的文本分配图像方面更有效。
相关的关键发现: - 自动化技术取代了人工劳动,可能会减少劳动力需求,工资和就业(第198-201页)。这种位移效应可以使每个工人的工资和产出分离,从而导致劳动力占国民收入的份额下降(第198页)。- 虽然自动化的生产率提高,但它们可能并不总是抵消工作损失(第202-205页)。创建新任务是一项至关重要的平衡力,但是不能保证这个过程,并且可能落后于自动化,这可能会导致整体生产率增长速度较慢(第205-207、210-211、223-224页)。- 由于工人重新分配和技能不匹配所需的时间,自动化技术的引入会导致经济调整缓慢(第199,208-209页)。这种不匹配可以降低生产率的提高并加剧不等式(第221-223页)。由资本补贴等因素驱动的过度自动化也可能会阻碍生产率(第210-211,224-226页)。- 新任务的创建是反对自动化负面影响的重要反击力(第205-207、217-218页)。但是,新任务的发展需要投资,并且可以以其他技术进步为代价来阻碍自动化(第223-224页)。- AI可能无法取代所有人类劳动,因为其当前的应用集中在特定的,定义明确的任务上(第207页)。但是,新任务和工人技能要求之间的技能不匹配可以大大减慢适应性(第221-223页)。- 公司应预期技能不匹配并投资于培训计划,以帮助员工适应自动化创建的新任务(第223页)。通过政策调整来解决过度自动化并促进创建新的,劳动力密集的任务可以减轻对工人的负面影响(第224-226页)。
Pravin Chandra Trivedi教授(b。1953年3月3日),博士学位,博士。(美国),F.L.S。 (伦敦),F.B.5。,F.P.5。 !。 Trivedi教授担任植物学系主任兼协调员P.G. 生物技术课程(2003-06);大学发展委员会主任(2001-04);副校长,马哈拉哈学院(2000-03),是拉贾斯坦大学参议院,学术委员会和BOS植物学召集人的成员。 他在1983 - 84年在北卡罗来纳州立大学北卡罗来纳州立大学植物病理学系担任博士后研究员。 Trivedi教授在斋浦尔拉贾斯坦大学拥有35年的教学和研究经验。 他发表了250多篇研究论文,并在声誉期刊上审查了文章。 他已经编辑并撰写了110多本书,并指导了38 Ph.D.学生。 他曾是国家组织资助的20个主要研究项目的主要研究人员。 他是九个知名的学术机构的当选者。 Trivedi博士访问了几个主要的研究实验室,并在许多国际会议上发表了受邀的演讲。(美国),F.L.S。(伦敦),F.B.5。,F.P.5。!。Trivedi教授担任植物学系主任兼协调员P.G. 生物技术课程(2003-06);大学发展委员会主任(2001-04);副校长,马哈拉哈学院(2000-03),是拉贾斯坦大学参议院,学术委员会和BOS植物学召集人的成员。 他在1983 - 84年在北卡罗来纳州立大学北卡罗来纳州立大学植物病理学系担任博士后研究员。 Trivedi教授在斋浦尔拉贾斯坦大学拥有35年的教学和研究经验。 他发表了250多篇研究论文,并在声誉期刊上审查了文章。 他已经编辑并撰写了110多本书,并指导了38 Ph.D.学生。 他曾是国家组织资助的20个主要研究项目的主要研究人员。 他是九个知名的学术机构的当选者。 Trivedi博士访问了几个主要的研究实验室,并在许多国际会议上发表了受邀的演讲。Trivedi教授担任植物学系主任兼协调员P.G.生物技术课程(2003-06);大学发展委员会主任(2001-04);副校长,马哈拉哈学院(2000-03),是拉贾斯坦大学参议院,学术委员会和BOS植物学召集人的成员。他在1983 - 84年在北卡罗来纳州立大学北卡罗来纳州立大学植物病理学系担任博士后研究员。Trivedi教授在斋浦尔拉贾斯坦大学拥有35年的教学和研究经验。 他发表了250多篇研究论文,并在声誉期刊上审查了文章。 他已经编辑并撰写了110多本书,并指导了38 Ph.D.学生。 他曾是国家组织资助的20个主要研究项目的主要研究人员。 他是九个知名的学术机构的当选者。 Trivedi博士访问了几个主要的研究实验室,并在许多国际会议上发表了受邀的演讲。Trivedi教授在斋浦尔拉贾斯坦大学拥有35年的教学和研究经验。他发表了250多篇研究论文,并在声誉期刊上审查了文章。他已经编辑并撰写了110多本书,并指导了38 Ph.D.学生。他曾是国家组织资助的20个主要研究项目的主要研究人员。他是九个知名的学术机构的当选者。Trivedi博士访问了几个主要的研究实验室,并在许多国际会议上发表了受邀的演讲。
文本引导的图像编辑可以在支持创意应用程序方面具有变革性的影响。关键挑战是生成忠于输入文本提示的编辑,同时与输入图像一致。我们提出了Imagen Edor,这是一种构建的级联扩散模型,通过对文本引导的图像插入的微调[36]构建。Imagen ed- Itor的编辑忠实于文本提示,这是通过使用对象探测器在培训期间提出涂料面罩来提出的。此外,成像编辑器在输入图像中通过对原始高分辨率图像进行调节管道来详细信息。为了证明定性和定量评估,我们介绍了EditBench,这是用于文本指导图像插入的系统基准。EditBench评估在Natu-ral和生成的图像上探索对象,属性和场景的图像。Through extensive human evaluation on EditBench, we find that object-masking during training leads to across- the-board improvements in text-image alignment – such that Imagen Editor is preferred over DALL-E 2 [ 31 ] and Stable Diffusion [ 33 ] – and, as a cohort, these models are better at object-rendering than text-rendering, and handle mate- rial/color/size attributes better than count/shape attributes.
现有的文本视频检索解决方案本质上是侧重于最大程度地提高条件可能性的模型,即P(候选人|查询)。虽然很简单,但这种事实上的范式却忽略了基本的数据分布p(查询),这使得识别出分布数据的挑战。为了解决这一限制,我们从生成观点创造性地解决了此任务,并将文本和视频之间的相关性建模为其关节概率P(候选人,查询)。这是通过基于扩散的文本视频检索框架(扩散-RET)来完成的,该框架将检索任务建模为从噪声中产生关节分布的过程。在训练过程中,从发电和犯罪的角度优化了Diffusionret,其发电机通过生成损失优化,并且具有对比度损失的训练的特征提取器。以这种方式,diffusionret巧妙地杠杆化了生成和歧视方法的优势。在五个常用的文本检索基准测试中进行了广泛的实验,包括MSRVTT,LSMDC,MSVD,ActivityNet字幕和DIDEMO,并具有出色的性能,证明了我们方法的效果。更加谨慎,没有任何修改,diffusionret甚至在外域检索设置中表现良好。我们认为这项工作带来了对相关领域的基本见解。代码可从https://github.com/jpthu17/diffusionret获得。
生成式预训练 Transformer 大型语言模型的最新进展强调了在学术环境中不公平使用人工智能 (AI) 生成内容的潜在风险,并加大了寻找检测此类内容的解决方案的力度。本文研究了人工智能生成文本检测工具的一般功能,并根据准确性和错误类型分析对其进行了评估。具体来说,该研究试图回答以下研究问题:现有检测工具是否能够可靠地区分人类书写的文本和 ChatGPT 生成的文本,以及机器翻译和内容混淆技术是否会影响对人工智能生成文本的检测。该研究涵盖了 12 种公开可用的工具和两种在学术环境中广泛使用的商业系统(Turnitin 和 PlagiarismCheck)。研究人员得出结论,现有的检测工具既不准确也不可靠,主要偏向于将输出归类为人类书写的文本,而不是检测人工智能生成的文本。此外,内容混淆技术会显著降低工具的性能。该研究做出了几项重要贡献。首先,它总结了该领域最新的类似科学和非科学成果。其次,它展示了迄今为止最全面的测试之一的结果,该测试基于严格的研究方法、原始文档集和广泛的工具覆盖范围。第三,它讨论了在学术环境中使用检测工具检测人工智能生成的文本的含义和缺点。
文本对图像模型的当前指标通常依赖于不足以代表人类真正偏好的统计指标。尽管最近的工作试图通过人类注释的图像来学习这些偏好,但它们将人类偏好的丰富挂毯降低到单个总分。然而,当人类评估不同方面的图像时,偏好会有所不同。因此,为了学习多维人类偏好,我们提出了多维偏好评分(MPS),这是评估文本对图像模型的第一个多维偏好评分模型。MPS引入剪辑模型上的偏好条件模块,以学习这些不同的偏好。它是根据我们的多维人类偏好(MHP)数据集进行了训练的,该数据集包括607,541图像的四个维度(即美学,语义一致性,详细信息,详细质量和整体评估)的918,315个人类偏好选择(即,美学,语义一致性,细节质量和整体评估)。这些信息是由各种最新的文本对图像模型生成的。MPS在4个维度上的3个数据集上优于现有的评分方法,从而使其成为评估和改进文本对象的有希望的指标。该模型和数据集将被公开使用,以促进未来的研究。项目页面:https://wangbohan97.github.io/mps/。
如果没有许多个人和组织的宝贵贡献,这个项目不可能取得成功。我们特别感谢我们的客户 Natalie Banakis 和 Lyndsey Sullivan 的远见和合作。我们还衷心感谢我们的教职顾问 Matthew Potoski 博士和 David Tilman 博士以及我们的外部顾问 Roland Geyer 博士、Diana Rosenberg 和 Jennifer DuBuisson 的指导和专业知识。我们特别感谢 Jaenna Wessling 提供的指导。此外,我们还要感谢 Jaimee Redfern、Gosia Nowinka、Ciara Cates、Cassia Cameron、Kim Drenner、Mel Shank、Bennett Ray、Mitchell Maier、Rob Naughter、Laura Hoch、Luca Bonanomi、Rachel Kanter Kepnes、Wendy Savage、Matt Dwyer、Sam Hamilton、Richard Chen 和 Chau Diep 在整个项目过程中给予我们的额外支持。最后,我们感谢Dipaola基金会的慷慨赞助。
文本驱动的3D场景生成技术近年来取得了迅速的进步。他们的成功主要是为了使用现有的生成模型进行迭代执行图像翘曲和介入以生成3D场景。但是,这些方法在很大程度上依赖于现有模型的外部,从而导致几何和外观中的错误积累,从而阻止模型在各种情况下使用(例如,户外和虚幻的SCE-Narios)。为了解决此限制,我们通常通过查询和聚集全局3D信息来完善新生成的本地视图,然后逐步生成3D场景。具体而言,我们采用基于三平面特征的NERF作为3D场景的统一表示,以限制全局3D的一致性,并提出一个生成的改进网络,通过从2D差异模型以及当前场景的全球3D信息中利用自然图像来综合具有更高质量的新内容。我们的广泛实验表明,与以前的方法相比,我们的方法支持各种各样的场景产生和任意相机传播,并具有提高的视觉质量和3D一致性。