Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum
大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档,然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力,减少了标记块的有效长度。此外,由于注意力的二次成本,对长序列的训练在计算上变得难以承受。在本研究中,我们引入了数据集分解,一种新颖的可变序列长度……
Q&A: Making in situ serial crystallography more accessible
欧洲分子生物学实验室格勒诺布尔分校和欧洲同步辐射装置 (ESRF) 的科学家开发了一种使用原位序列晶体学 (iSX) 研究大分子结构的新方法。他们最近在 IUCrJ 杂志上发表的一篇论文中描述了这种新技术。该方法目前已在由 EMBL 和 ESRF 联合运营的 ID23-2 光束线上投入使用。
Detecting Anomalies in Social Media Volume Time Series
我如何检测社交媒体量中的异常:基于残差的方法照片由 Joshua Hoehne 在 Unsplash 上拍摄在社交媒体时代,分析对话量对于了解用户行为、检测趋势以及最重要的是识别异常至关重要。了解异常发生的时间可以帮助管理层和营销部门应对危机情况。在本文中,我们将使用来自 Twitter 的真实示例,探索一种基于残差的方法来检测社交媒体量时间序列数据中的异常。对于这样的任务,我将使用 Numenta Anomaly Benchmark 的数据,它提供了 Twitter 帖子的成交量数据,其基准测试中有 5 分钟的帧窗口。我们将从两个角度分析数据:作为第一个练习,我们将使用完整数据集检测异常,然
Time-Series Forecasting Methods: A Review
摘要:时间序列预测技术对于通过分析过去趋势来预测未来值至关重要。这些技术假设未来趋势将与历史趋势相似。预测涉及使用基于历史数据的模型来预测未来值。时间序列模型具有广泛的应用,从天气预报到销售预测,并且是最有效的预测方法之一,尤其是在做出涉及未来不确定性的决策时。为了评估预测准确性并比较适合时间序列的模型,本研究使用了三个性能指标:平均绝对误差 (MAE)、均方误差 (MSE) 和均方根误差 (RMSE)。
A new piece in the grass pea puzzle – updated genome sequence published
一个国际团队为草豆创建了一个详细的基因组组装,增强了气候智能型农业。文章《草豆谜题的新部分——更新的基因组序列发表》首次出现在《科学探究者》上。
ARIMA: A Model to Predict Time Series Data
了解 ARIMA 模型的工作原理以及如何在 Python 中实现它们以实现准确预测继续阅读 Towards Data Science »
Time Series — From Analyzing the Past to Predicting the Future
如何通过时间序列从过去中学习。继续阅读 Towards Data Science »
Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement
对个性化和隐私设备应用程序的不断增长的需求凸显了无源无监督域自适应 (SFDA) 方法的重要性,尤其是对于时间序列数据,其中个体差异会产生较大的域偏移。随着传感器嵌入式移动设备变得无处不在,优化 SFDA 方法以提高时间序列环境中的参数利用率和数据样本效率变得至关重要。时间序列中的个性化对于适应个人用户的独特模式和行为至关重要,从而提高预测的相关性和准确性。在此...
The US Fears An Uncontrollable Escalation Sequence With Russia Much More Than With Iran
美国更担心与俄罗斯发生不可控的升级序列,而非与伊朗发生不可控的升级序列作者:Andrew Korybko,通过 Substack,Politico 援引一位参议院高级助理和拜登政府的两位消息人士周三报道称,美国更担心与俄罗斯发生不可控的升级序列,而非与伊朗发生不可控的升级序列,因为俄罗斯拥有核能力。为了证明这一点,美国毫不犹豫地击落伊朗向以色列发射的导弹,但不会考虑击落俄罗斯向乌克兰发射的导弹,这让泽连斯基和他的一些同胞感到不安,他们因此觉得自己是二等盟友。俄罗斯/乌克兰和伊朗/以色列在这方面的差异导致了美国对这两对关系的不同态度。正如上个月在关于“为什么“普京明确证实了俄罗斯核理论中已经不言
Comparing gene sequences across species to understand aging and dementia
一项新的资助计划将罗彻斯特的长寿研究人员和阿尔茨海默病专家合作,研究有助于长寿和健康寿命的基因机制。
Backtesting with Skforecast: Time Series Forecasting in Python
为什么重要:使用 Skforecast 进行回测的综合指南:确保使用 Python 进行可靠的时间序列预测
Generalizable Autoregressive Modeling of Time Series Through Functional Narratives
时间序列数据本质上是时间的函数,但当前的 Transformer 通常通过将时间序列建模为时间段的简单连接来学习时间序列,而忽略了它们的功能属性。在这项工作中,我们为 Transformer 提出了一个新的目标,即通过将时间序列重新解释为时间函数来学习时间序列。我们通过在功能空间中构建不同强度的退化算子来构建时间序列的替代序列,从而创建原始样本的增强变体,这些变体被抽象或简化到不同的程度。基于新的...
TimesFM: The Boom of Foundation Models in Time Series Forecasting
探索 Google 的最新 AI 模型如何使用超过 3070 亿个数据点实现零样本预测准确度继续阅读 Towards Data Science »
Differentiate Noisy Time Series Data with Symbolic Regression
如果数据稀缺,则逐步示例说明如何得出嘈杂的时间序列概况继续阅读 Towards Data Science »
在本文中,我们演示了如何使用 Amazon Managed Service for Apache Flink 和其他 AWS 托管服务为流式传输时间序列数据构建强大的实时异常检测解决方案。
Geometric deep learning for protein sequence design
使用 CARBonAra 进行序列预测的示意图。几何变换器对 β-内酰胺酶 TEM-1 酶(灰色)的序列空间进行采样,该酶与天然底物(青色)复合,以产生新的折叠良好且活性高的酶。图片来源:Alexandra Banbanaste (EPFL)。作者:Nik Papageorgiou 设计能够执行特定功能的蛋白质涉及理解和操纵其序列 […]
Neural Network (MLP) for Time Series Forecasting in Practice | by Daniel J. TOTH | Jul, 2024
时间序列,更具体地说是时间序列预测,是专业人士和商业用户中非常熟悉的数据科学问题。存在几种预测方法,为了便于理解和更好地概述,可以将其归类为统计或机器学习方法,但事实上,对预测的需求如此之高,Daniel J. TOTH 于 2024 年 7 月发表的《神经网络 (MLP) 在时间序列预测中的应用》一文首次出现在 AI Quantum Intelligence 上。
Neural Network (MLP) for Time Series Forecasting in Practice
特征工程和构建 MLP 模型的实用示例简介时间序列,更具体地说是时间序列预测,是专业人士和商业用户中非常著名的数据科学问题。存在几种预测方法,为了理解和更好的概述,可以将其归类为统计或机器学习方法,但事实上,对预测的需求如此之高,以至于可用的选项非常丰富。机器学习方法被认为是时间序列预测中最先进的方法,并且越来越受欢迎,因为它们能够捕捉数据中复杂的非线性关系,并且通常可以提高预测的准确性 [1]。一个流行的机器学习领域是神经网络领域。具体来说,对于时间序列分析,循环神经网络已被开发并应用于解决预测问题 [2]。数据科学爱好者可能会发现此类模型背后的复杂性令人生畏,作为你们中的一员,我可以说我也