Introducing zeroCPR: An Approach to Finding Complementary Products
推荐系统当前的 ML 模型可以推荐类似的产品,但互补性如何?在 AI 推荐系统领域,机器学习模型已被广泛用于推荐类似的样本,无论是产品、内容,还是建议类似的联系人。这些预训练模型大多数都是开源的,无需从头开始训练模型即可使用。但是,由于缺乏大数据,我们没有可以依赖的开源技术来推荐互补产品。在下面的文章中,我提出了一个框架(代码以用户友好库的形式呈现),该框架利用 LLM 以低成本的方式发现互补产品。我引入这个框架的目标是:可扩展该框架在运行时不需要监督,没有中断的风险,并且输出应该易于构建,可以与其他工具结合使用。负担得起应该能够以最低的花费(每 1000 个计算产品约 1 美元 - 使用 g
Transfer Learning for Structured Pruning under Limited Task Data
这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。大型预训练模型在资源受限的应用程序中使用存在问题。幸运的是,任务感知的结构化修剪方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多特定于任务的数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少…
Role of Medical Image Annotation in Enhancing Healthcare
摘要:医疗数据注释通过提高诊断工具的准确性,帮助医疗保健提供者做出准确诊断。它还确保为个体患者制定个性化的治疗计划。医学图像为诊断健康问题提供了必要的提示。这些图像又被计算机用于通过医学图像注释来解读视觉线索。医学图像注释涉及标记医学图像以训练机器学习算法进行医学图像分析。然后,这些数据集用于训练模型,以识别图像中的各种状况或疾病,这些状况或疾病将在医疗保健环境中部署时遇到。医学图像注释以极高的准确性执行,以获得最佳的患者结果。它需要大量带注释的图像,以便模型学习疾病的典型和非典型表现。医学图像注释产生了持久的影响,从协助复杂的程序到识别疾病。• 它是当今医疗环境中训练人工智能 (AI) 识别
The Machine Learning Guide for Predictive Accuracy: Interpolation and Extrapolation
评估训练数据之外的机器学习模型简介近年来,机器学习 (ML) 和深度学习 (DL) 等数据驱动方法已应用于广泛的任务,包括机器翻译和个性化定制推荐。这些技术通过分析大量数据揭示了给定训练数据集中的一些模式。但是,如果给定的数据集存在一些偏差并且不包含您想要了解或预测的数据,则可能很难从训练模型中获得正确答案。照片由 Stephen Dawson 在 Unsplash 上拍摄让我们考虑一下 ChatGPT 的情况。ChatGPT 目前的最新版本是 ChatGPT 4o,该模型使用的数据训练到 2023 年 6 月(本文撰写时)。因此,如果您询问 2024 年发生的事情,而这些事情未包含在训练数据
自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……
Interview with Henok Biadglign Ademtew: Creating an Amharic, Ge’ez and English parallel dataset
非洲语言在自然语言处理 (NLP) 中没有得到很好的体现。这在很大程度上是由于缺乏训练模型的资源。Henok Biadglign Ademtew 和 Mikiyas Girma Birbo 创建了一个阿姆哈拉语、吉兹语和英语并行数据集,以帮助推进对资源匮乏语言的研究。我们与 Henok 谈论了这个项目,[…]
What's new about generative AI in a business context?
过去八年,我一直在研究人工智能,学习在商业中构建和应用人工智能解决方案的来龙去脉。在犯了无数错误之后,我创建了自己的构建和应用该技术的方法。这一切都很好,直到 2022 年秋天,ChatGPT 发布,生成式人工智能的实用性和采用率突然上升。对于我的咨询公司 TodAI 来说,这意味着很多涉及生成式人工智能的新项目和大量的学习。在完成了几个项目之后,我发现了生成式模型在应用于商业时与其他人工智能明显不同的地方。有些很小,有些则非常重要。这些新的生成式人工智能模型如何改变应用人工智能的游戏规则?术语如果我们区分生成式人工智能和预测式人工智能,讨论这些变化会更容易。生成式人工智能是指大型预训练模型,
我们研究 CNN 和 ViT 的学习视觉表征,例如纹理偏差、如何学习良好的表征、预训练模型的稳健性以及最终从训练过的 ViT 中出现的属性。
Crowd Workers for Data Collection – an Indispensable Part of Ethical AI
在我们努力构建强大且无偏见的人工智能解决方案时,我们必须专注于在无偏见、动态和有代表性的数据上训练模型。我们的数据收集过程对于开发可靠的人工智能解决方案极为重要。在这方面,通过众包工人收集 AI 训练数据成为一个关键方面 […]
3 Simple Ways to Acquire Training Data for Your AI/ML Models
我们不必告诉您 AI 训练数据对您雄心勃勃的项目的价值。您知道,如果您将垃圾数据输入模型,它们将产生一致的结果,而使用优质数据集训练模型将产生一个能够提供准确结果的高效自主系统。虽然这个概念 […]
Differential Privacy with TensorFlow
差异隐私保证数据库查询的结果基本上与单个个体在数据中的存在无关。应用于机器学习,我们预计没有任何单个训练示例会以实质性的方式影响训练模型的参数。这篇文章介绍了 TensorFlow Privacy,这是一个基于 TensorFlow 构建的库,可用于从 R 训练差分隐私深度学习模型。
Яндекс выложил в открытый доступ новую библиотеку машинного обучения (+видео)
Yandex 开发了一种新的机器学习方法 CatBoost。它允许您有效地在异构数据上训练模型,例如用户位置、交易历史记录和设备类型。 CatBoost 机器学习库是公开可用的,任何人都可以使用。
机器学习可以在防范洗钱方面发挥重要的作用,既可以自动执行以往需要人工干预的任务(例如管理数据以训练模型),又可以检测出众多规则和基本分析技术可能遗漏的金融犯罪风险。