The Essential Guide to Effectively Summarizing Massive Documents, Part 1
文档摘要对于 GenAI 用例很重要,但如果文档太大怎么办!?继续阅读以了解我是如何解决这个问题的。“总结大量文本”——使用 GPT-4o 生成的图像文档摘要如今已成为使用现代生成式人工智能 (GenAI) 技术解决的最常见问题陈述之一(如果不是最常见问题)。检索增强生成 (RAG) 是一种用于解决该问题的常见但有效的解决方案架构。但是,如果文档本身太大以至于无法在单个 API 请求中作为一个整体发送怎么办?或者,如果它产生太多块而导致臭名昭著的“迷失在中间”上下文问题怎么办?在本文中,我将讨论我们在处理此类问题陈述时面临的挑战,并逐步介绍我使用 Greg Kamradt 在其 GitHub
Introducing Semantic Tag Filtering: Enhancing Retrieval with Tag Similarity
语义标签过滤如何使用语义相似性来改进标签过滤***要理解本文,需要了解 Jaccard 相似性和向量搜索。该算法的实现已在 GitHub 上发布,并且完全开源。多年来,我们已经发现了如何从不同模态中检索信息,例如数字、原始文本、图像以及标签。随着定制 UI 的日益普及,标签搜索系统已成为一种方便的方式,可以轻松过滤具有良好准确度的信息。通常使用标签搜索的一些情况是检索社交媒体帖子、文章、游戏、电影甚至简历。然而,传统的标签搜索缺乏灵活性。如果我们要过滤掉包含指定标签的样本,可能会出现这样的情况:特别是对于只包含几千个样本的数据库,可能没有任何(或只有几个)与我们的查询匹配的样本。在结果稀缺的情
How Generative AI can Enhance Human Creativity
生成式人工智能如何彻底改变创造力和创新想象一个创造力无止境的世界,唯一的限制就是你的想象力。生成式人工智能正在将这个世界变成现实,将人类的聪明才智与机器的力量融为一体。在本文中,我们将探讨生成式人工智能如何不仅是一种工具,而且还是一种协作者,帮助艺术家、设计师和创作者突破可能的界限。让我们深入了解这项技术如何改变创意格局,释放人类创造力和创新的新潜力。一张视觉冲击力强的图片代表了生成式人工智能增强人类创造力的概念。它说明了人类创造力和人工智能之间的动态协作。生成式人工智能简介生成式人工智能是指一类旨在生成新内容的人工智能模型;文本、图像、音乐或其他形式的媒体。与主要专注于分析数据和提供见解的传
Microsoft lanserar Github Models som en konkurrent till Hugging Face
Microsoft 最近推出了 Github Models 一项新功能,旨在通过将生成式 AI 模型直接与 GitHub 上的现有工具和功能集成,使开发人员更容易使用生成式 AI 模型。 Github Models 主要是 GitHub 上提供的 Azure AI-Playground/集成,令人惊讶的是,Huggingface 不仅仅是一个权重 CDN,[…]微软推出 Github Models 作为 Hugging Face 的竞争对手的帖子首次出现在 AI 上。消息。
Deploying dbt Projects at Scale on Google Cloud
使用 Artifact Registry、Cloud Composer、GitHub Actions 和 dbt-airflow 容器化和运行 dbt 项目继续阅读 Towards Data Science »
ITC 2024 at Stanford! Early-Bird Registration Deadline August 1
信息理论密码学 (ITC) 会议将于 8 月 14 日至 16 日在斯坦福举行,恰好在圣巴巴拉的 CRYPTO 之前!会议将有一系列精彩的演讲和演讲者,包括几场“焦点”和“亮点”演讲!您可以在此处找到时间表:https://itcrypto.github.io/2024/2024prog.html 早鸟注册截止日期为 7 月 24 日星期三、8 月 1 日星期四,请立即注册!
BlazeFace: How to Run Real-time Object Detection in the Browser
训练 BlazeFace 模型的分步指南,从 Python 训练管道到 JavaScript 演示,再到模型转换。自由改编自 Unsplash 上的 visuals 的照片得益于 Ultralytics 的 YOLO 等库,如今只需几行代码即可轻松创建强大的对象检测模型。不幸的是,这些解决方案的速度还不够快,无法在任何设备上以每秒 30 帧(通常被认为是视频应用程序的实时极限)的速度在 Web 浏览器中实时视频流上运行。通常,它在普通移动设备上的运行速度低于 10 fps。Web 浏览器上最著名的实时对象检测解决方案是 Google 的 MediaPipe。这是一个非常方便且用途广泛的解决方案
Introducing zeroCPR: An Approach to Finding Complementary Products
推荐系统当前的 ML 模型可以推荐类似的产品,但互补性如何?在 AI 推荐系统领域,机器学习模型已被广泛用于推荐类似的样本,无论是产品、内容,还是建议类似的联系人。这些预训练模型大多数都是开源的,无需从头开始训练模型即可使用。但是,由于缺乏大数据,我们没有可以依赖的开源技术来推荐互补产品。在下面的文章中,我提出了一个框架(代码以用户友好库的形式呈现),该框架利用 LLM 以低成本的方式发现互补产品。我引入这个框架的目标是:可扩展该框架在运行时不需要监督,没有中断的风险,并且输出应该易于构建,可以与其他工具结合使用。负担得起应该能够以最低的花费(每 1000 个计算产品约 1 美元 - 使用 g
Diffusion Model from Scratch in Pytorch
去噪扩散概率模型 (DDPM) 的实现 MNIST 上的 DDPM 示例 — 作者提供的图片简介一般来说,扩散模型是一种生成式深度学习模型,它从学习到的去噪过程中创建数据。扩散模型有很多种,最流行的通常是文本条件模型,它可以根据提示生成特定的图像。一些扩散模型 (Control-Net) 甚至可以将图像与某些艺术风格融合在一起。下面是一个例子:作者使用经过微调的 MonsterLabs 的 QR Monster V2 提供的图片如果您不知道这幅图像有什么特别之处,请尝试远离屏幕或眯起眼睛来查看图像中隐藏的秘密。扩散模型有许多不同的应用和类型,但在本教程中,我们将构建基础的无条件扩散模型 DDP
Improve RAG accuracy with fine-tuned embedding models on Amazon SageMaker
这篇文章演示了如何使用 Amazon SageMaker 微调 Sentence Transformer 嵌入模型并将其部署到 Amazon SageMaker Endpoint。本文中的代码和更多示例可在 GitHub 存储库中找到。
Spicing up Ice Hockey with AI: Player Tracking with Computer Vision
使用 PyTorch、计算机视觉技术和卷积神经网络 (CNN),我开发了一个跟踪球员、球队和基本表现统计数据的模型。如今,我不再像自己想的那样经常打曲棍球,但从小它就成了我的一部分。最近,我有机会在利马举行的第一届冰球锦标赛 (3 对 3) 中帮助裁判桌并记录一些统计数据。这项赛事涉及秘鲁直排轮滑球协会 (APHL) 的非凡努力和友谊联盟的亲切访问。为了增加 AI 元素,我使用 PyTorch、计算机视觉技术和卷积神经网络 (CNN) 构建了一个跟踪球员和球队并收集一些基本表现统计数据的模型。本文旨在成为设计和部署模型的快速指南。虽然该模型仍需要进行一些微调,但我希望它可以帮助任何人了解计算机
NLP: Text Summarization and Keyword Extraction on Property Rental Listings — Part 1
NLP:房产租赁清单上的文本摘要和关键字提取 - 第 1 部分文本摘要、NER、主题建模和文本分类等 NLP 技术在租赁清单数据上的实际应用简介自然语言处理 (NLP) 可以显著增强租赁清单描述的分析和可用性。在本练习中,我们将探索文本摘要、命名实体识别 (NER) 和主题建模等 NLP 技术的实际应用,以提取见解并丰富东京 Airbnb 房源数据中的房源描述。使用公开可用的数据和 spaCy 和 SciKit-Learn 等工具,您可以跟着做,重现结果,或将这些技术应用于您自己的文本数据,只需进行最少的调整。代码库可在 GitHub 上找到,您可以 fork 并进行试验。本文演示了如何使用各
How Should You Test Your Machine Learning Project? A Beginner’s Guide
使用 Pytest 和 Pytest-cov 等标准库对机器学习项目进行测试的友好介绍代码测试,图片由作者提供简介测试是软件开发的重要组成部分,但根据我的经验,它在机器学习项目中被广泛忽视。很多人都知道他们应该测试他们的代码,但很少有人知道如何做并真正做到这一点。本指南旨在向您介绍测试机器学习流程各个部分的基本知识。我们将专注于在 IMDb 数据集上对 BERT 进行文本分类微调,并使用 pytest 和 pytest-cov 等行业标准库进行测试。我强烈建议您遵循此 Github 存储库中的代码:GitHub - FrancoisPorcher/awesome-ai-tutorials:最好
Seamless CI/CD with Viam's Registry | Viam
探索 Viam 的模块化注册表如何彻底改变持续集成和部署,通过与 GitHub Actions 的无缝集成简化流程。
12,8 миллионов утечек: фантомные секреты наводят страх на разработчиков
GitHub 中的漏洞如何威胁世界上最大的组织。
Эволюция систем управления версиями в эпоху DevOps
GitHub 和其他组织为处理与主题相关的事务提供了便利,包括编辑、测试、审核和不信任。
MS Edge Tweaker: возьмите управление браузером в свои руки
一位研究人员在 GitHub 上发布了一个调整器,用于微调 Microsoft Edge。