Anthropic can now track the bizarre inner workings of a large language model
AI公司的人类拟人化已经开发了一种在大型语言模型中凝视的方法,并在响应中观察其所做的事情,从而揭示了有关该技术如何运作的关键新见解。要点:LLM甚至比我们想象的陌生。拟人团队对一些违反直觉感到惊讶……
Amazon SageMaker JumpStart adds fine-tuning support for models in a private model hub
今天,我们宣布了一项增强的私人枢纽功能,并具有几种新功能,可为组织提供更大的控制权。这些增强功能包括直接在私人枢纽内微调SageMaker JumpStart模型的能力,支持和管理定制训练的模型,为关联笔记本电脑的深层链接功能以及改进的模型版本管理。
Text-to-Speech Solutions with Contemporary Models
近年来,基于音频的模型已经迅速发展,企业越来越多地将现代的文本到语音功能纳入其运营中。
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models
语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……
Custom Training Pipeline for Object Detection Models
我检查了几个著名的对象检测管道,并设计了一种最适合我的需求和任务的对象检测模型的自定义培训管道首先出现在数据科学上。
What is Data Labeling? The Key to Building High-Quality AI Models
发现数据标记在AI模型培训中的重要性,以及如何使用高质量的标签解决方案来简化该过程。
Novel View Synthesis with Pixel-Space Diffusion Models
从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…
Formal Online Learning: The 10% Of The 70-20-10 Model
有很多令人兴奋的方法可以使正式的在线学习有意义。让我们探讨如何在不牺牲其结构和内容的情况下真正充分利用您的在线学习体验,但要保持新鲜和相关。这篇文章首次在电子学习行业上发表。
Unexpected shape of lead-208 nucleus prompts reevaluation of atomic nuclei models
由萨里大学核物理小组领导的国际研究合作推翻了长期以来的信念,即铅208(²⁰⁸PB)的原子核是完全球形的。该发现挑战了关于核结构的基本假设,并且对我们对宇宙中最重的要素的理解具有深远的影响。
Remote Learning By Doing: The 70% Of The 70-20-10 Model
虽然听起来不像,但作为一名远程工作者,学习可以是一种实践体验。探索在远程工作时可以实际应用知识的所有方法,并使学习更具影响力。本文首次发表于 eLearning Industry。
The Method of Moments Estimator for Gaussian Mixture Models
音频处理是数字信号处理 (DSP) 和机器学习最重要的应用领域之一。对声学环境进行建模是开发数字音频处理系统(例如:语音识别、语音增强、声学回声消除等)的重要步骤。声学环境中充满了背景噪音,这些噪音可能来自多个来源。例如,[…]The post The Method of Moments Estimator for Gaussian Mixture Models appeared first on Towards Data Science.
Cut Your Losses in Large-Vocabulary Language Models
随着语言模型变得越来越大,其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层:损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵,对于小型模型,其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 仅计算逻辑……
由 QIMR Berghofer 和埃默里大学领导的一项长期研究可能为治疗一种最常见的儿童脑癌——髓母细胞瘤提供一种新方法。临床前模型研究表明,实验药物 CT-179 能够破坏已知的癌症干细胞标记物,而这种标记物在肿瘤复发中起着关键作用。该研究结果补充了加拿大儿童医院领导的研究,两项研究同时发表在《自然通讯》上
OpenEuroLLM är ett europeiskt projekt för att skapa öppna språkmodeller
OpenEuroLLM 是一个历史性的欧洲合作项目,将于 2025 年 2 月 1 日启动,旨在开发下一代开源语言模型。我们的开创性举措得到了委员会“数字欧洲计划”的大力支持,代表了充满活力的欧洲数字主权 openeurollm.eu。通过 OpenEuroLLM,超过 20 家领先的欧洲研究机构、公司和听力损失中心与同一个 […]《OpenEuroLLM 是一个创建开放语言模型的欧洲项目》一文首次出现在 AI 新闻中。
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加两者,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加……
在这次采访中,我们与摩根大通高级应用 AI/ML 研究员 Swati Tyagi 进行了交谈,深入了解了她在人工智能和机器学习领域的历程。 Swati 拥有跨学术、金融和医疗的独特背景,她分享了自己对人工智能如何重塑行业的看法,包括彻底改变 [...]
Продемонстрирован способ украсть модель ИИ без доступа к ней
科学家根据运行该模型的处理器产生的电磁辐射波动重新创建了该模型。