自动文本识别是一个困难但重要的问题。它可以概括为:如何使计算机能够识别预定义字母表中的字母和数字,可能使用上下文信息。已经进行了各种尝试来解决这个问题,使用不同的特征和分类器选择。自动文本识别系统在准确性方面已经达到了人类的表现,并且在单一大小、单一字体、高质量、已知布局、已知背景、文本的情况下,速度超过了人类的表现。当上述一个或多个参数发生变化时,问题变得越来越困难。特别是,尽管近四十年来不断进行研究,但要达到人类在识别不同大小、不同风格、未知布局、未知背景的草书方面的表现,远远超出了当今算法的范围。在本报告中,我们详细分析了该问题,介绍了相关困难,并提出了一个解决自动文本识别问题的连贯框架。
# Springer-Verlag Berlin Heidelberg 2011 本作品受版权保护。保留所有权利,无论涉及全部还是部分材料,具体而言是翻译、重印、重新使用插图、朗诵、广播、以缩微胶片或任何其他方式复制以及存储在数据库中的权利。 仅根据 1965 年 9 月 9 日现行版本的德国版权法的规定,才允许复制本出版物或其中的部分内容,并且必须始终获得 Springer 的使用许可。违反者将根据德国版权法受到起诉。 本出版物中使用的一般描述性名称、注册名称、商标等并不意味着(即使在没有具体声明的情况下)这些名称不受相关保护法律和法规的约束,因此可以自由使用。
• 使用潜意识、操纵或欺骗手段扭曲行为,妨碍知情决策,造成重大伤害。 • 利用与年龄、残疾或社会经济状况相关的弱点扭曲行为,造成重大伤害。 • 生物特征分类系统推断敏感属性(种族、政治观点、工会会员资格、宗教或哲学信仰、性生活或性取向),但标记或过滤合法获取的生物特征数据集,或执法部门对生物特征数据进行分类的情况除外。 • 社会评分,即根据社会行为或个人特征对个人或群体进行评估或分类,对这些人造成有害或不利的待遇。 • 仅根据分析或性格特征评估个人犯罪的风险,但用于增强基于与犯罪活动直接相关的客观、可验证事实的人类评估的情况除外。 • 通过从互联网或闭路电视录像中无针对性地抓取面部图像来编制面部识别数据库。 • 在工作场所或教育机构推断情绪,医疗或安全原因除外。 • 在公共场所为执法部门提供“实时”远程生物特征识别 (RBI),但以下情况除外:
Gregory G. Dess是德克萨斯大学达拉斯分校的Andrew R. Cecil管理主席。他的主要研究兴趣是战略管理,组织环境关系和知识管理。他在学术和从业者期刊上发表了许多有关这些主题的文章。他还在各种以从业者为导向和学术期刊的编辑委员会中任职。在2000年8月,他被入选《管理学院名人堂》作为其特许成员之一。DES教授在美国,欧洲,非洲,香港和澳大利亚进行了执行计划。在1994年,他是葡萄牙Oporto的富布赖特学者。2009年,他获得了伯尔尼大学(瑞士)的荣誉博士学位。他获得了华盛顿大学(西雅图)的工商管理博士学位,并获得了佐治亚理工学院的BIE学位。
在 2024 财年,Visit Bend 坚定地致力于长期可持续发展,成为一个繁荣的旅游目的地。随着客房税和入住率趋于稳定(甚至由于营销支出减少和天气等因素而下降),团队继续专注于平衡、可持续的目的地管理。Visit Bend 推出了一个新网站,提供现代化的用户界面和内容,重点介绍负责任的旅游工作和行业合作伙伴。本德可持续发展基金向当地项目拨款近 70 万美元,改善了当地人和居民的可达性和整体体验。本德文化旅游基金向文化活动和组织拨款 40 万美元。Visit Bend 成为 Leave No Trace 的第一个官方目的地合作伙伴,并被评为 Leave No Trace 的年度目的地合作伙伴。这些努力将在未来几年对我们的社区产生积极影响,这只是 Visit Bend 在 2024 财年取得成功的几个例子。
生成式预训练 Transformer 大型语言模型的最新进展强调了在学术环境中不公平使用人工智能 (AI) 生成内容的潜在风险,并加大了寻找检测此类内容的解决方案的力度。本文研究了人工智能生成文本检测工具的一般功能,并根据准确性和错误类型分析对其进行了评估。具体来说,该研究试图回答以下研究问题:现有检测工具是否能够可靠地区分人类书写的文本和 ChatGPT 生成的文本,以及机器翻译和内容混淆技术是否会影响对人工智能生成文本的检测。该研究涵盖了 12 种公开可用的工具和两种在学术环境中广泛使用的商业系统(Turnitin 和 PlagiarismCheck)。研究人员得出结论,现有的检测工具既不准确也不可靠,主要偏向于将输出归类为人类书写的文本,而不是检测人工智能生成的文本。此外,内容混淆技术会显著降低工具的性能。该研究做出了几项重要贡献。首先,它总结了该领域最新的类似科学和非科学成果。其次,它展示了迄今为止最全面的测试之一的结果,该测试基于严格的研究方法、原始文档集和广泛的工具覆盖范围。第三,它讨论了在学术环境中使用检测工具检测人工智能生成的文本的含义和缺点。
文本对图像模型的当前指标通常依赖于不足以代表人类真正偏好的统计指标。尽管最近的工作试图通过人类注释的图像来学习这些偏好,但它们将人类偏好的丰富挂毯降低到单个总分。然而,当人类评估不同方面的图像时,偏好会有所不同。因此,为了学习多维人类偏好,我们提出了多维偏好评分(MPS),这是评估文本对图像模型的第一个多维偏好评分模型。MPS引入剪辑模型上的偏好条件模块,以学习这些不同的偏好。它是根据我们的多维人类偏好(MHP)数据集进行了训练的,该数据集包括607,541图像的四个维度(即美学,语义一致性,详细信息,详细质量和整体评估)的918,315个人类偏好选择(即,美学,语义一致性,细节质量和整体评估)。这些信息是由各种最新的文本对图像模型生成的。MPS在4个维度上的3个数据集上优于现有的评分方法,从而使其成为评估和改进文本对象的有希望的指标。该模型和数据集将被公开使用,以促进未来的研究。项目页面:https://wangbohan97.github.io/mps/。
由于其广泛的应用范围,从文本描述中产生人类动作已引起了越来越多的研究兴趣。但是,只有少数作品将人类场景的互动与文本条件一起考虑,这对于视觉和物理现实主义至关重要。本文提出了在3D门场景中产生人类动作的任务,鉴于人类习惯的文本描述。由于文本,场景和运动的多种形式性质以及对空间推理的需求,此任务提出了挑战。为了应对这些挑战,我们提出了一种新方法,将复杂的概率分解为两个更可管理的子问题:(1)目标对象的语言接地和(2)以对象为中心的信息产生。对于目标对象的语言基础,我们利用大型语言模型的力量。对于运动生成,我们设计了一个以对象为中心的场景代表生成模型,以专注于目标对象,从而降低场景的复杂性并促进人类运动与对象之间关系的建模。实验证明了与基准相比,我们的方法的更好运动质量并验证了我们的设计选择。代码将在链接上可用。
文本到图像生成模型正变得越来越流行,公众可以访问。由于这些模型看到大规模的部署,因此有必要深入研究其安全性和公平性,以免消散和永久存在任何形式的偏见。然而,存在的工作重点是检测封闭的偏见集,定义了先验的偏见,将研究限制为众所周知的概念。在本文中,我们解决了出现OpenBias的文本到图像生成模型中开放式偏见检测的挑战,该模型是一条新管道,该管道可识别和量化双质量的严重性,而无需访问任何预编译的集合。OpenBias有三个阶段。在第一阶段,我们利用大型语言模型(LLM)提出偏见,给定一组字幕。其次,目标生成模型使用相同的字幕绘制图像。最后,一个视觉问题回答模型认识到了先前提出的偏见的存在和范围。我们研究了稳定扩散1.5、2和XL强调新偏见的稳定扩散,从未研究过。通过定量实验,我们证明了OpenBias与当前的封闭式偏见检测方法和人类判断一致。
I.在2024年6月3日至7日,针对东非地区数字整合计划(EA -RDIP,P176181)进行了项目实施支持任务(ISM)。作为该更广泛的地区项目的一部分,南苏丹共和国的混合动力(虚拟和面对面)任务于6月3日 - 7112023在南苏丹的朱巴举行。南苏丹的任务由Naomi 1-Lalewood(Tane Tean Leader,高级数字开发专家)领导,由Victor Kyalo(高级数字发展专家),Ariic David Reng(数字发展顾问),Michael Okuny(高级财务管理专家)和Ocheng Kenneth Kenneth Kaneth Kaunda Odek(高级生产专家)组成。Giacomo Assenza(网络安全专家)和Dereje Agonafir Hablewold(高级环保专家)和Jennifer Gui(南苏丹项目焦点,高级数字发展专家)实际上加入了任务。