模型的关键词检索结果

人类现在可以跟踪大语言模型的奇异内部工作

Anthropic can now track the bizarre inner workings of a large language model

AI公司的人类拟人化已经开发了一种在大型语言模型中凝视的方法,并在响应中观察其所做的事情,从而揭示了有关该技术如何运作的关键新见解。要点:LLM甚至比我们想象的陌生。拟人团队对一些违反直觉感到惊讶……

Amazon SageMaker Jumpstart在私人模型中添加了对模型的微调支持

Amazon SageMaker JumpStart adds fine-tuning support for models in a private model hub

今天,我们宣布了一项增强的私人枢纽功能,并具有几种新功能,可为组织提供更大的控制权。这些增强功能包括直接在私人枢纽内微调SageMaker JumpStart模型的能力,支持和管理定制训练的模型,为关联笔记本电脑的深层链接功能以及改进的模型版本管理。

带有现代模型的文本到语音解决方案

Text-to-Speech Solutions with Contemporary Models

近年来,基于音频的模型已经迅速发展,企业越来越多地将现代的文本到语音功能纳入其运营中。

探索语音基础模型的蒙版预训练中的预测目标

Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models

语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……

对象检测模型的自定义培训管道

Custom Training Pipeline for Object Detection Models

我检查了几个著名的对象检测管道,并设计了一种最适合我的需求和任务的对象检测模型的自定义培训管道首先出现在数据科学上。

什么是数据标签?建立高质量AI模型的关键

What is Data Labeling? The Key to Building High-Quality AI Models

发现数据标记在AI模型培训中的重要性,以及如何使用高质量的标签解决方案来简化该过程。

具有像素空间扩散模型的新型视图合成

Novel View Synthesis with Pixel-Space Diffusion Models

从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…

正式的在线学习:70-20-10模型的10%

Formal Online Learning: The 10% Of The 70-20-10 Model

有很多令人兴奋的方法可以使正式的在线学习有意义。让我们探讨如何在不牺牲其结构和内容的情况下真正充分利用您的在线学习体验,但要保持新鲜和相关。这篇文章首次在电子学习行业上发表。

铅-208核的意外形状促使原子核模型的重新评估

Unexpected shape of lead-208 nucleus prompts reevaluation of atomic nuclei models

由萨里大学核物理小组领导的国际研究合作推翻了长期以来的信念,即铅208(²⁰⁸PB)的原子核是完全球形的。该发现挑战了关于核结构的基本假设,并且对我们对宇宙中最重的要素的理解具有深远的影响。

Perm Polytechnic的科学家改善了使用X射线层析成像创建3D岩石模型的方法

Ученые Пермского Политеха улучшили способ создания 3D-модели горных пород с помощью рентгеновской томографии

为了有效的石油生产,您需要知道如何从内部排列层岩石的岩石,其特性是孔隙率,渗透性,水的饱和度,裂缝和洞穴的存在

远程边做边学:70-20-10 模型的 70%

Remote Learning By Doing: The 70% Of The 70-20-10 Model

虽然听起来不像,但作为一名远程工作者,学习可以是一种实践体验。探索在远程工作时可以实际应用知识的所有方法,并使学习更具影响力。本文首次发表于 eLearning Industry。

高斯混合模型的矩估计量法

The Method of Moments Estimator for Gaussian Mixture Models

音频处理是数字信号处理 (DSP) 和机器学习最重要的应用领域之一。对声学环境进行建模是开发数字音频处理系统(例如:语音识别、语音增强、声学回声消除等)的重要步骤。声学环境中充满了背景噪音,这些噪音可能来自多个来源。例如,[…]The post The Method of Moments Estimator for Gaussian Mixture Models appeared first on Towards Data Science.

减少大词汇量语言模型的损失

Cut Your Losses in Large-Vocabulary Language Models

随着语言模型变得越来越大,其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层:损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵,对于小型模型,其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 仅计算逻辑……

临床前模型的长期研究确定了潜在的新治疗方法治疗儿童脑癌类型的策略

Long-term study in preclinical models identifies potential new treatment strategy for type of childhood brain cancer

由 QIMR Berghofer 和埃默里大学领导的一项长期研究可能为治疗一种最常见的儿童脑癌——髓母细胞瘤提供一种新方法。临床前模型研究表明,实验药物 CT-179 能够破坏已知的癌症干细胞标记物,而这种标记物在肿瘤复发中起着关键作用。该研究结果补充了加拿大儿童医院领导的研究,两项研究同时发表在《自然通讯》上

OpenEuroLLM 是一个创建开放语言模型的欧洲项目

OpenEuroLLM är ett europeiskt projekt för att skapa öppna språkmodeller

OpenEuroLLM 是一个历史性的欧洲合作项目,将于 2025 年 2 月 1 日启动,旨在开发下一代开源语言模型。我们的开创性举措得到了委员会“数字欧洲计划”的大力支持,代表了充满活力的欧洲数字主权 openeurollm.eu。通过 OpenEuroLLM,超过 20 家领先的欧洲研究机构、公司和听力损失中心与同一个 […]《OpenEuroLLM 是一个创建开放语言模型的欧洲项目》一文首次出现在 AI 新闻中。

参数与 FLOP:混合专家语言模型的最佳稀疏度缩放定律

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加两者,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加……

Swati Tyagi,摩根大通高级应用 AI/ML 研究员 — 专攻 AI/ML、大型语言模型的影响、道德 AI 以及金融和医疗保健的未来

Swati Tyagi, Senior Applied AI/ML Researcher at JP Morgan Chase & Co. — Inspiration for Specialization in AI/ML, Impact of Large Language Models, Ethical AI, and the Future of Finance and Healthcare

在这次采访中,我们与摩根大通高级应用 AI/ML 研究员 Swati Tyagi 进行了交谈,深入了解了她在人工智能和机器学习领域的历程。 Swati 拥有跨学术、金融和医疗的独特背景,她分享了自己对人工智能如何重塑行业的看法,包括彻底改变 [...]

一种无需访问 AI 模型即可窃取该模型的方法已被证明

Продемонстрирован способ украсть модель ИИ без доступа к ней

科学家根据运行该模型的处理器产生的电磁辐射波动重新创建了该模型。