从 20 年来最糟糕的科技就业市场中吸取的教训长话短说。。。。。这个就业市场很艰难。真的很难。我们都知道过去几年就像过山车一样,尤其是对那些从事科技行业的人来说。我们从创纪录的工资到冻结招聘和裁员,这一切都发生在几个月之内。2023 年的科技裁员人数创历史新高,仅次于 2001 年的互联网泡沫破灭。虽然其他行业的招聘仍然保持弹性,但许多人认为当前的科技就业市场是本世纪初以来最糟糕的。多轮裁员的影响导致大量科技工作者申请较少数量的空缺职位。再加上许多大雇主实施的非常不受欢迎的重返办公室规定,几乎每个人都在寻找新工作。这导致职位数量减少,竞争加剧,工资和福利似乎在下降。雇主可以更加挑剔,面试过程变
Choosing and Implementing Hugging Face Models
将预先训练好的模型从盒子中取出,用于您的用例照片由 Erda Estremera 在 Unsplash 上拍摄我最近在日常工作中尝试使用 Hugging Face 目录中的模型,从中获得了很多乐趣,我认为这可能是一个很好的时机来分享我所学到的知识,并为读者提供一些如何以最小的压力应用这些模型的提示。我最近的具体任务是查看大量非结构化文本数据(如备忘录、电子邮件、自由文本注释字段等)并根据与业务用例相关的类别对其进行分类。有很多方法可以做到这一点,我一直在尽可能多地探索,包括模式匹配和词典搜索等简单的东西,也扩展到使用预构建的神经网络模型来实现许多不同的功能,我对结果感到相当满意。我认为最好的策
LLM Evaluation, AI Side Projects, User-Friendly Data Tables, and Other October Must-Reads
是否想写出您的第一篇 TDS 文章?我们始终欢迎新作者的投稿。我们似乎正处于日历上的一个甜蜜点,即夏末和假期来临前的最后高峰之间——换句话说,这是一年中学习、修修补补和探索的最佳时机。我们 10 月份阅读次数最多的文章反映了这种专注的精神,涵盖了一系列实践主题。从可行的 AI 项目想法和数据科学收入流到易于理解的时间序列分析和 LLM 指南,这些故事很好地代表了我们作者的专业知识广度以及他们(和我们的读者)兴趣的多样性。如果您还没有阅读它们,现在就是最佳时机?每月亮点您可以在本周末构建的 5 个 AI 项目(使用 Python)如果您还没有撸起袖子,那么很快就会撸起袖子:我们 10 月份阅读次
How To Specialize In Data Science / Machine Learning
成为通才还是专才更好?继续阅读 Towards Data Science »
Les Misérables Social Network Analysis Using Marimo Notebooks and the NetworkX Python library️⚔️
使用 NetworkX Python 库构建 Marimo 笔记本,揭开维克多·雨果杰作中隐藏的结构继续阅读 Towards Data Science »
构建最小的可用于生产的情绪分析模型照片由 Stephen Dawson 在 Unsplash 上拍摄什么是可用于生产的模型?我们听到了很多关于生产化机器学习的消息,但拥有一个可以在实际应用中蓬勃发展的模型到底意味着什么?有很多因素会影响机器学习模型在生产中的有效性。为了本文的目的,我们将重点介绍其中的五个。可重复性监控测试自动化版本控制服务推理构建可用于生产的机器学习模型的最重要部分是能够访问它。为此,我们构建了一个提供情绪分析响应的 fastapi 客户端。我们利用 pydantic 来确保输入和输出的结构。我们使用的模型是 huggingface 的 transformers 库中的基础情
构建 PubMed 列出的心血管疾病研究出版物数据集的分步说明作者拍摄照片挑战当我开始撰写硕士论文“与 NIH 资助的心脏病研究中有影响力的科学出版物相关的因素”时,第一个任务是构建一个原始数据集来研究。为了实现这一目标,我求助于 PubMed,这是美国国家医学图书馆 (NLM) 提供的免费研究数据库,用于访问生物医学文献。数据集需要满足几个特定标准,包括:跨越尽可能长的时间段。包括由国立卫生研究院 (NIH) 资助的研究。专注于心血管疾病研究出版物。提供有关第一作者的详细信息,例如其全名、性别、机构隶属关系和研究机构所在的国家/地区。包含每篇文章收到的引用次数、NIH 百分位排名、文章中的总
Demystifying Azure Storage Account network access
揭开 Azure 存储帐户网络访问的神秘面纱服务端点和私有端点动手实践:包括 Azure Backbone、存储帐户防火墙、DNS、VNET 和 NSG 连接网络 — 图片来自 Unsplash 上的 Nastya Dulhiier1. 简介存储帐户在建立企业数据湖的徽章架构中起着至关重要的作用。它们充当集中式存储库,实现生产者和消费者之间的无缝数据交换。此设置使消费者能够执行数据科学任务并构建机器学习 (ML) 模型。此外,消费者可以将数据用于检索增强生成 (RAG),通过 ChatGPT 等大型语言模型 (LLM) 促进与公司数据的交互。高度敏感的数据通常存储在存储帐户中。在数据科学家和
Computer Use and AI Agents: A New Paradigm for Screen Interaction
探索多模态 AI 代理的未来和屏幕交互的影响作者使用 GPT4o 创建的图像简介:不断发展的 AI 代理格局Anthropic、微软和苹果最近发布的公告正在改变我们对 AI 代理的看法。如今,“AI 代理”一词已经饱和——几乎每个与 AI 相关的公告都提到了代理,但它们的复杂程度和实用性差别很大。一方面,我们拥有先进的代理,它们利用多个循环进行规划、工具执行和目标评估,并不断迭代直到完成任务。这些代理甚至可以创建和使用记忆,从过去的错误中吸取教训,以推动未来的成功。确定什么是有效的代理是 AI 研究的一个非常活跃的领域。它涉及了解哪些属性造就了一个成功的代理(例如,代理应该如何规划、如何使用内
How to Make Proximity Maps with Python
快速成功数据科学Geopy 的大圆方法密西西比州立大学的距离地图(作者)您是否注意到社交媒体上的一些“距离”地图?我刚刚看到 Todd Jones 的一张地图,它显示了您在美国本土 48 个州的任何位置与国家公园的距离。这些邻近地图既有趣又有用。如果您是生存主义者,您可能希望尽可能远离潜在的核导弹目标;如果您是狂热的垂钓者,您可能希望靠近 Bass Pro Shop。我和一个对美国大学橄榄球几乎一无所知的英国人一起读研究生。尽管如此,他在我们每周的投注中表现非常出色。他的秘诀之一是,假设参赛球队实力相当,或者主队更受青睐,那么他就押注任何需要行驶 300 多英里才能比赛的球队。在这个 Quic
Understanding K-Fold Target Encoding to Handle High Cardinality
平衡复杂性和性能:深入了解 K 折目标编码照片由 Mika Baumeister 在 Unsplash 上拍摄简介数据科学从业者在处理不同项目中的不同数据类型时会遇到许多挑战,每个项目都需要独特的处理方法。一个常见的障碍是使用传统机器学习模型难以有效处理的数据格式,导致模型性能不佳。由于大多数机器学习算法都针对数值数据进行了优化,因此将分类数据转换为数值形式至关重要。然而,这通常会过度简化复杂的分类关系,尤其是当特征具有高基数(即大量唯一值)时,这会使处理复杂化并妨碍模型准确性。高基数是指特征中唯一元素的数量,具体解决机器学习环境中分类标签的不同计数。当一个特征有许多唯一的分类标签时,它具有高
ARIMA: A Model to Predict Time Series Data
了解 ARIMA 模型的工作原理以及如何在 Python 中实现它们以实现准确预测继续阅读 Towards Data Science »
Ensemble Learning for Anomaly Detection
深入研究隔离森林模型以检测时间序列数据中的异常异常检测是任何组织必备的功能。通过检测异常和离群值,我们不仅可以识别看似可疑(或可能错误)的数据,还可以确定“正常”数据是什么样子。异常检测可以识别数据错误,从而成为强大数据治理系统的重要功能。对于分析而言,异常值在某些情况下(例如欺诈检测和预测性维护)可能是一个关注点。然而,随着数据的增长,异常检测会变得越来越困难。高维数据带有噪声,难以用于分析和洞察。大型数据集也可能存在错误和/或特殊情况。值得庆幸的是,集成学习带来了速度和效率,帮助我们处理高维数据并检测异常。什么是集成学习?集成学习是一种机器学习技术,它结合了多个单独模型的预测,以获得比任何
Using Objective Bayesian Inference to Interpret Election Polls
如何构建一个仅针对民意调查的客观贝叶斯模型,该模型从州民意调查结果转变为赢得该州的概率继续阅读 Towards Data Science »
Data Leakage in Preprocessing, Explained: A Visual Guide with Code Examples
数据预处理预处理管道泄漏的 10 种隐秘方式在我教授机器学习的经验中,学生经常会遇到同样的问题:“我的模型表现很好——准确率超过 90%!但是当我将其提交给隐藏数据集进行测试时,它现在不那么好了。哪里出了问题?”这种情况几乎总是指向数据泄漏。当测试数据中的信息在数据准备步骤中潜入(或泄漏)到您的训练数据中时,就会发生数据泄漏。这通常发生在常规数据处理任务中,而您没有注意到。当发生这种情况时,模型会从它不应该看到的测试数据中学习,从而使测试结果具有误导性。让我们看看常见的预处理步骤,看看数据泄漏时究竟会发生什么——希望您可以在自己的项目中避免这些“管道问题”。所有视觉效果:作者使用 Canva
The Ultimate Guide to RAGs — Each Component Dissected
RAG 终极指南 — — 剖析每个组件视觉导览构建生产就绪的 LLM 管道所需的条件让我们学习 RAG 吧!(图片来自作者)如果您使用过大型语言模型,很有可能您至少听说过 RAG(检索增强生成)这个术语。RAG 的想法非常简单 — — 假设您想向 LLM 提问,您首先要从外部知识库中检索相关信息,而不是仅仅依赖 LLM 的预训练知识。然后,将检索到的信息与问题一起提供给 LLM,使其生成更明智、最新的响应。将标准 LLM 调用与 RAG 进行比较(来源:图片来自作者)那么,为什么要使用检索增强生成呢?当提供准确和最新的信息是关键时,您不能依赖 LLM 的内置知识。 RAG 是一种廉价实用的方法
Predictive Power Score: Calculation, Pros, Cons, and JavaScript Code
该项目旨在了解一般相关性,并使用 Brain.js 和 Tensorflow.js 在 Web 浏览器中测试神经网络继续阅读 Towards Data Science »
Hands-On Data Visualization with Google Mesop
Google Mesop 是一个易于使用的 Python UI 框架。我们将了解如何使用它来创建带有 Plotly 的数据可视化应用程序。继续阅读 Towards Data Science »