向量关键词检索结果

IEEE 神经网络和学习系统汇刊,第 35 卷,第 9 期,2024 年 9 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 35, Number 9, September 2024

1) 特邀编辑:图学习专题作者:Feng Xia、Renaud Lambiotte、Neil Shah、Hanghang Tong、Irwin King页数:11630 - 116332) 用于异质图学习的置换等变图框架作者:Jianfei Li、Ruigang Zheng、Han Feng、Ming Li、Xiaosheng Zhuang页数:11634 - 116483) MARML:多层网络中基于主题感知的深度表示学习作者:Da Zhang、Mansur R. Kabuka页数:11649 - 116604) 面向极端数据稀缺的稳健图半监督学习作者:Kaize Ding、Elnaz No

使用 LangChain 和 PySpark 通过 Amazon SageMaker Studio 和 Amazon EMR Serverless 大规模处理文档

Use LangChain with PySpark to process documents at massive scale with Amazon SageMaker Studio and Amazon EMR Serverless

在本文中,我们将探讨如何使用新的 EMR Serverless 集成、Spark 的分布式处理以及由 LangChain 编排框架提供支持的 Amazon OpenSearch Service 向量数据库构建可扩展且高效的检索增强生成 (RAG) 系统。此解决方案使您能够处理大量文本数据,生成相关嵌入,并将它们存储在强大的向量数据库中,以实现无缝检索和生成。

软计算,第 28 卷,第 15-16 期,2024 年 8 月

Soft Computing, Volume 28, Issue 15-16, August 2024

1) AENCIC:一种基于图像复杂度估计聚类数量的方法,用于图像分割的模糊聚类算法作者:Luis Madrid-Herrera、Mario I. Chacon-Murguia、Juan A. Ramirez-Quintana页数:8561 - 85772) 基于混合元启发式算法的深度神经网络肺癌检测和分类作者:Umesh Prasad、Soumitro Chakravarty、Gyaneshwar Mahto页数:8579 - 86023) 一种新的并行蝙蝠群优化算法及其在人工选择进化 CNN 架构中的应用作者:Kanishk Bansal、Amar Singh页数:8603 - 86214

使用 Meta Llama 3 进行文本到 SQL 用例的提示工程最佳实践

Best practices for prompt engineering with Meta Llama 3 for Text-to-SQL use cases

在本文中,我们将探索一种解决方案,该解决方案使用向量引擎 ChromaDB 和 Meta Llama 3(托管在 SageMaker JumpStart 上的公开基础模型)来实现文本到 SQL 用例。我们分享了 Meta Llama 3 的简要历史、使用 Meta Llama 3 模型进行快速工程的最佳实践,以及使用少样本提示和 RAG 提取存储在 ChromaDB 中的相关模式的架构模式。

构建本地人脸搜索引擎——分步指南

Building a Local Face Search Engine — A Step by Step Guide

构建本地人脸搜索引擎 — 一步一步指南第 1 部分:关于人脸嵌入以及如何动态运行人脸搜索“办公室”演员的面部识别和搜索示例演示在这篇文章(第 1 部分)中,我们将介绍人脸识别和搜索的基本概念,并纯用 Python 实现一个基本的工作解决方案。在本文的最后,您将能够在自己的图像上本地动态运行任意人脸搜索。在第 2 部分中,我们将通过使用矢量数据库来优化接口和查询,扩展第 1 部分的学习。人脸匹配、嵌入和相似性指标。目标:在图像池中找到给定查询人脸的所有实例。我们可以通过基于相似性对结果进行排序来放宽标准,而不是将搜索限制为完全匹配。相似度得分越高,结果匹配的可能性就越大。然后,我们可以只选择前

AI 为什么会产生幻觉?

Why does AI hallucinate?

4 月 2 日,世界卫生组织推出了一款名为 SARAH 的聊天机器人,以提高人们对如何健康饮食、戒烟等健康问题的认识。但和其他聊天机器人一样,SARAH 开始给出错误答案。这导致了很多网络喷子,最后,通常的免责声明:聊天机器人的答案可能不准确。这种编造事物的倾向被称为幻觉,是聊天机器人面临的最大障碍之一。为什么会发生这种情况?为什么我们不能解决它?让我们通过观察大型语言模型的工作原理来探索它们产生幻觉的原因。首先,编造东西正是 LLM 的设计目的。聊天机器人从大型语言模型中提取响应,而无需在数据库中查找信息或使用搜索引擎。大型语言模型包含数十亿个数字。它使用这些数字从头开始计算其响应,动态生成

Scikit-fingerprints:用于高效分子指纹计算和与机器学习管道集成的高级 Python 库

Scikit-fingerprints: An Advanced Python Library for Efficient Molecular Fingerprint Computation and Integration with Machine Learning Pipelines

在计算化学中,分子通常表示为分子图,必须将其转换为多维向量才能进行处理,特别是在机器学习应用中。这是使用将分子结构编码为向量的分子指纹特征提取算法实现的。这些指纹对于化学信息学中的任务至关重要,例如化学空间多样性、聚类、虚拟筛选、Scikit-fingerprints:用于高效分子指纹计算和与机器学习管道集成的高级 Python 库首先出现在 AI Quantum Intelligence 上。

扩展您的 RAG:使用 LanceDB 和 Candle 的 Rust 驱动索引管道

Scale Up Your RAG: A Rust-Powered Indexing Pipeline with LanceDB and Candle

为大规模文档处理构建高性能嵌入和索引系统照片由 Marc Sendra Martorell 在 Unsplash 上拍摄1. 简介最近,检索增强生成 (或简称 RAG) 已成为使用大型语言模型构建生成式 AI 应用程序的事实标准。RAG 通过确保生成模型使用适当的上下文来增强文本生成,同时避免了为同一任务微调 LLM 所涉及的时间、成本和复杂性。RAG 还允许更有效地使用外部数据源并更轻松地更新模型的“知识”。尽管基于 RAG 的 AI 应用程序通常可以使用更适中或更小的 LLM,但它们仍然依赖于嵌入和索引所需知识库的强大管道,以及能够有效地检索并将相关上下文注入模型提示。在许多用例中,可以使

代码嵌入:综合指南

Code Embedding: A Comprehensive Guide

代码嵌入是一种将代码片段表示为连续空间中的密集向量的变革性方式。这些嵌入捕获了代码片段之间的语义和功能关系,从而为 AI 辅助编程提供了强大的应用程序。与自然语言处理 (NLP) 中的词嵌入类似,代码嵌入将相似的代码片段在向量空间中紧密定位在一起,[…] 文章《代码嵌入:综合指南》首先出现在 Unite.AI 上。

芯片悬浮:苏黎世联邦理工学院在纳米粒子控制方面的突破

Левитация на чипе: прорыв ETH Zurich в управлении наночастицами

苏黎世联邦理工学院的研究人员正在向量子力学的未来迈出一步。

麻省理工学院的暑期研究

Summer Research at MIT

Forest Ho-Chen,SEAS '26,宾夕法尼亚州亚德利 去年夏天,我在马萨诸塞大学洛厄尔分校担任学生研究员。任务是使用机器学习和支持向量回归模型来填补……

如何规范化你的回归

How to regularize your regression

制药应用中的一系列回归实例。我们能否从类似的特定领域数据中学习如何设置正则化参数 \(\lambda\)?概述。实际因变量 \(y\)和特征向量 \(X\)之间最简单的关系可能是线性模型 \(y = \beta X\)。给定一些由特征和因变量对 \((X_1,y_1),(X_2,y_2),\dots,(X_m,y_m)\)组成的训练示例或数据点,我们希望学习 \(\beta\),在给定未见过的示例的特征 \(X’\)的情况下,哪个会给出最佳预测 \(y’\)。将线性模型 \(\beta\)拟合到数据点的过程称为线性回归。这种简单而有效的模型在生物、行为和社会科学、环境研究和金融预测等领域有着广

我们邀请您参加 Positive Hack Days 2

Приглашаем на Positive Hack Days 2

第二届国际网络节 Positive Hack Days 将于今年 5 月 23 日至 26 日在莫斯科卢日尼基体育中心举行。 UCSB再次支持这样一项重大活动,并成为PHDays Fest 2的合作伙伴。活动将分为两个主要区域。技术专家和企业代表的传统会议将在闭门会议中举行。在节日的开放区域,免费向所有人开放的互动装置将帮助客人更加熟悉数字世界并提高他们的网络素养技能。所有参观者将第一次能够看到网络战对峙——白帽黑客团队和虚拟国家捍卫者之间的壮观对抗。节日的商业部分将汇集网络安全行业的最佳代表——从专家到知名专家、大型 IT 公司的 CIO 和 CISO。超过 250 名演讲者将就信息安全最紧

不断发展的系统。第 15 卷,第 3 期,2024 年 6 月

Evolving Systems. Volume 15, Issue 3, June 2024

1)基于改进的Bi-LSTM神经网络的山区公路隧道入口路面温湿度预测作者:陶睿,彭睿……乔建刚页数:691 - 7022)反脆弱视角下涉及非凸属性的投资组合选择多目标优化作者:Davi Gotardelo,Leonardo Goliatt页数:703 - 7153)通过深度学习和计算机视觉打造AI设计师作者:Caner Balim,Kemal Ozkan页数:717 - 7294)RVFLN-CDFPA:一种利用混沌差分花授粉算法优化的随机向量函数链接神经网络,用于日前净资产价值预测作者:Smita Mohanty,Rajashree Dash页数:731 - 7575)DeepNet-WI:

Altman 让投资者心烦意乱?

Altman Upsetting Investors?

术语向量被高估了

斯拉法基本定理

The Fundamental Sraffian Theorem

1.0 简介我一直在读 Robin Hahnel 的书。Hahnel 比 Steedman 更有力地论证了劳动价值是多余的。他还论证了基本斯拉法定理的重要性。我认为这可能是 Hahnel 的创造。无论如何,这是我对他所说的一些观点的理解。Hahnel 有一些有趣的观点,这里没有讨论,关于在斯拉法框架中分析环境问题。我忽略了 Hahnel (2017) 中关于资本主义道德批判的章节。根据 Eatwell (2019) 和其他人的观点,我认为主流经济学家无论如何都没有价值和分配理论。2.0 背景假设在给定的时间点观察到资本主义经济。 n 种商品正在生产,每种商品都由不同的行业生产。假设所使用的技术

递归期刊影响因子的置信区间

Confidence Intervals for Recursive Journal Impact Factors

我与 Johannes König 和 Richard Tol 合作撰写了一篇新工作论文。这是我在《经济文献杂志》上发表的 2013 年论文的后续,在那篇论文中,我计算了所有经济学期刊的简单期刊影响因子的标准误差,并试图评估期刊之间的差异是否显著。* 在这篇新论文中,我们为递归期刊影响因子制定了标准误差和置信区间,这些因素考虑到某些引用比其他引用更有声望,以及期刊的相关排名。我们再次将这些方法应用于 Web of Science 中包含的所有经济学期刊。递归影响因子包括流行的 Scimago 期刊排名 (SJR) 和 Clarivate 的文章影响力分数。我们使用 Pinski 和 Narin

机器学习中最有用的多功能工具:嵌入

Machine Learning's Most Useful Multitool: Embeddings

嵌入是机器学习中最通用的技术之一,也是每个 ML 工程师工具箱中都应该拥有的关键工具。遗憾的是,我们中很少有人了解它们是什么以及它们有什么用处!问题可能在于嵌入听起来有点抽象和深奥:在机器学习中,嵌入是一种将数据表示为 n 维空间中的点的方式,以便相似的数据点聚集在一起。听起来无聊又不起眼?不要被愚弄。因为一旦您了解了这个 ML 多功能工具,您将能够构建从搜索引擎到推荐系统再到聊天机器人等所有内容。此外,您不必是具有 ML 专业知识的数据科学家即可使用它们,也不需要庞大的标记数据集。我是否已经说服您这些坏家伙有多棒了?🤞很好。让我们开始吧。在这篇文章中,我们将探索:什么是嵌入?它们有什么用?在