走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

如何学习机器学习所需的数学

How to Learn the Math Needed for Machine Learning

机器学习所需的三个基本数学字段的细分:统计,线性代数和计算。

如何为模型构建基准

How To Build a Benchmark for Your Models

建立基准和如何做的重要性是如何首先朝着数据科学构建基准。

🚪🚪🐐蒙蒂大厅问题的决策课程

🚪🚪🐐 Lessons in Decision Making from the Monty Hall Problem

进入三个直觉的旅程:普通,贝叶斯和因果关系post the Monty Hall问题的决策课程首先出现在数据科学方面。

用EORA提升2位LLM精度

Boost 2-Bit LLM Accuracy with EoRA

一种用于极限LLM压缩的无训练解决方案。邮寄后2位LLM的EORA精度首先出现在数据科学方面。

Microsoft Fabric和Esri GeoAnalytics的地理空间能力,演示

The Geospatial Capabilities of Microsoft Fabric and ESRI GeoAnalytics, Demonstrated

更靠近空间AI,并与Fabric进行了地理空间处理,即Microsoft Fabric和Esri GeoAnalytics的地理空间能力,首先出现在数据科学方面。

数量的强度:结合模型,带包装和增强

Strength in Numbers: Ensembling Models with Bagging and Boosting

掌握包装和提升的基本原理,并以简单的审查邮政强度数量:带包装和增强的模型首先出现在数据科学方面。

使用基于集团的压缩的实体分辨率的有效图形存储

Efficient Graph Storage for Entity Resolution Using Clique-Based Compression

实体分辨率系统通过密集的,互连的图面临挑战,基于集团的图形压缩通过减少存储开销和在数据删除和重新处理过程中改善系统性能,从而提供了有效的解决方案。使用基于集团的压缩的实体分辨率的Post Efficity Graph Storage首先出现在数据科学方面。

Parquet文件格式 - 您需要知道的一切!

Parquet File Format – Everything You Need to Know!

新的数据口味需要新的方法来存储它!了解有关镶木木材文件格式的所有您需要了解的所有内容,即Post Parquet文件格式 - 您需要知道的所有内容!首先出现在数据科学上。

没有人死亡的生存分析:一种基于价值的方法

Survival Analysis When No One Dies: A Value-Based Approach

Kaplan-Meier的广义版本允许建模连续价值(如货币),而不是二进制信号(如生存),当没有人死亡时,生存分析:首先在数据科学上出现了基于价值的方法。

非参数密度估计:理论和应用

Non-Parametric Density Estimation: Theory and Applications

对非参数密度估计的理论和实用介绍。非参数密度估计:理论和应用首先出现在数据科学方面。

重新考虑培训AI的环境成本 - 为什么我们应该超越硬件

Rethinking the Environmental Costs of Training AI — Why We Should Look Beyond Hardware

对AI培训中驱动能源,水和碳消耗的因素以及硬件改进是否足够的统计分析。该帖子重新考虑了培训AI的环境成本 - 为什么我们应该超越硬件出现在数据科学方面。

TDS作者现在可以通过Stripe

TDS Authors Can Now Receive Payments Via Stripe

作者付款计划刚刚变得更加精简,TDS的作者现在可以通过条纹首先出现在数据科学上。

授权LLM通过擦除思想来深入思考

Empowering LLMs to Think Deeper by Erasing Thoughts

引言最近的大型语言模型(LLMS)(例如OpenAI的O1/O3,DeepSeek的R1和Anthropic的Claude 3.7)表明,允许该模型在测试时间更深入地思考可以显着增强模型的推理能力。他们深思熟虑能力的核心方法称为“经营链”(COT),该模型迭代地产生了中间体[…]赋予LLMS的邮政通过擦除思想的深入思考,这首先出现在数据科学方面。

西部世界的错误

The Westworld Blunder

让人造思想遭受痛苦的外观而没有意识到这只是一种表演不仅是不道德和不必要的,而且是危险和自我伤害的。西方世界的失误首先出现在数据科学上。

您会发现泄漏吗?数据科学挑战

Will You Spot the Leaks? A Data Science Challenge

当模型飞得太高时:通过数据泄漏的危险旅程,您会发现泄漏吗?数据科学挑战首先出现在数据科学方面。

菲利普斯曲线的艺术

The Art of the Phillips Curve

将经济学最喜欢的模型之一融合在一起的主观细节首先出现在数据科学方面。

log链接与r中的日志转换 - 误导您的整个数据分析的差异

Log Link vs Log Transformation in R — The Difference that Misleads Your Entire Data Analysis

尽管正常分布是最常用的,但不幸的是,许多现实数据并不正常。当面对极度偏斜的数据时,我们很容易利用日志转换来归一化分布并稳定方差。最近,我使用数据[…] R中的数据链接与日志转换分析了训练AI模型的能源消耗的项目 - 误导您的整个数据分析的差异首先出现在数据科学方面。

对AccentFold的评论:关于非洲ASR的最重要论文之一

A Review of AccentFold: One of the Most Important Papers on African ASR

AccentFold解决了我们许多人可能与之相关的特定问题:当前的ASR系统对非洲元素的英语无法正常工作。这不是因为缺乏尝试。