gpu关键词检索结果

带有GPT-5的抹布:企业体系结构和用例

RAG with GPT-5: Enterprise Architecture & Use Cases

在NVIDIA B200和H100 GPU,新型号,Ollama支持等基准测试GPT-OSS-1220B模型。

GPT-5与其他型号:功能,定价和用例

GPT-5 vs Other Models: Features, Pricing & Use Cases

在NVIDIA B200和H100 GPU,新型号,Ollama支持等基准测试GPT-OSS-1220B模型。

使用Amazon SageMaker AI推理组件优化Salesforce的模型端点

Optimizing Salesforce’s model endpoints with Amazon SageMaker AI inference components

在这篇文章中,我们分享了Salesforce AI平台团队如何优化GPU利用率,提高了资源效率并使用Amazon SageMaker AI,特别是推理组件来节省成本。

CLALIFAI 11.7:在H100和B200S

Clarifai 11.7: Benchmarking GPT-OSS Across H100s and B200s

在NVIDIA B200和H100 GPU,新型号,Ollama支持等基准测试GPT-OSS-1220B模型。

Nvidia B200 vs。 H100:为您的AI工作负载选择合适的GPU

NVIDIA B200 Vs. H100: Choosing The Right GPU For Your AI Workloads

NVIDIA H100和B200 GPU与GPT-OSS-1220B基准的比较,突出了性能,效率和部署见解。

sima.ai生产中物理AI的下一代平台

SiMa.ai Next-Gen Platform for Physical AI in Production

Modalix™生产中,现在与领先的GPU SOM,开发套件和Llima一起运送SOM PIN兼容,用于无缝LLM-TO-Modalix Integration

核武器支出正在上升

Dark Side Of 'The Next AI Trade': Welcome To The People's Revolt

“下一个AI交易”的阴暗面:欢迎对人民起义的反抗,公众反对“下一个AI交易”,随着全国范围内的Power Bills在全国范围内激增,尤其是在大西洋中部和东北地区,Mag 7的Mag 7庞大的CAPEX BOOM在该地区的地毯上与能源Hung-Hungry Gpus Chatbus and Things Chatbots和All All All All All All All All Ally II II II II II II II II II II II II II II II II II II。到目前为止,我们所知道的是,我们可能在反对数据中心的早期局中,由特朗普总统的AI Starga

infiniband vs rocev2:为大规模AI选择正确的网络

InfiniBand vs RoCEv2: Choosing the Right Network for Large-Scale AI

了解Infiniband和Rocev2如何启用高速GPU通信Infiniband vs Rocev2:选择合适的大型AI网络首先出现在数据科学方面。

NVIDIA A100对H100:为您的AI工作负载选择合适的GPU

NVIDIA A100 vs. H100: Choosing the Right GPU for Your AI Workloads

比较NVIDIA A100与H100 GPU。了解AI和HPC工作负载的关键架构差异,性能基准和部署注意事项。

NVIDIA A10与A100:为您的AI工作负载选择合适的GPU

NVIDIA A10 vs. A100: Choosing the Right GPU for Your AI Workloads

与AI和LLM工作负载进行比较NVIDIA A10与A100 GPU。了解它们在性能,规格,成本和用例方面的不同之处。

AWS上的Nvidia DGX Cloud和Amazon Bedrock自定义模型导入

Supercharge generative AI workflows with NVIDIA DGX Cloud on AWS and Amazon Bedrock Custom Model Import

这篇文章与Nvidia的Andrew Liu,Chelsea Isaac,Zoey Zhang和Charlie Huang共同撰写。 Amazon Web服务(AWS)上的DGX Cloud代表了民主化获得高性能AI基础架构的重大飞跃。通过将NVIDIA GPU专业知识与AWS可扩展的云服务相结合,组织可以加速训练时间,降低操作复杂性并解锁[…]

Quantspec:用层次量化的量子量化kV缓存

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…

PERM理工学的科学家研究了椎动脉的弯曲如何影响流入大脑的血液 div> “数字部门” PNIP:超过950名学生掌握了IT能力 div>PERM理工学的科学家研究了椎动脉的弯曲如何影响流入大脑的血液 div>“数字部门” PNIP:超过950名学生掌握了IT能力 div>

«Цифровая кафедра» ПНИПУ: более 950 студентов освоили ИТ-компетенции

数字部门项目是该地区IT专家培训系统中最重要的地方之一。在2024-2025学年,他达到了一个新的水平:包括PNIPU学生在内的950多名学生以及PGFA和PGGPU div div div div>

commvq:KV缓存压缩的交换矢量量化

CommVQ: Commutative Vector Quantization for KV Cache Compression

大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,要解决解码过程中的高计算成本,我们设计了…

aws ai基础架构与NVIDIA BLACKWELL:AI

AWS AI infrastructure with NVIDIA Blackwell: Two powerful compute solutions for the next frontier of AI

在这篇文章中,我们宣布由NVIDIA Blackwell GPU驱动的Amazon EC2 P6E-GB200 Ultraservers和P6-B200实例的一般可用性,该实例旨在培训和部署最大,最复杂的AI型号。

Ubuntu禁用Spectre/Meltdown Protections

Ubuntu Disables Spectre/Meltdown Protections

在2018年发布了针对CPU的全部投机执行攻击。当时,它们似乎很灾难性。但是修复程序也是如此。投机执行是一种加快CPU的方法,并且消除这些增强功能导致了大幅度的性能下降。 Ubuntu禁用了一些保护措施,导致了20%的性能提升。在英特尔和规范的安全团队之间进行了讨论,我们同意在计算运行时级别不再需要为GPU减轻Specter。在这一点上,幽灵在内核中得到了减轻,并且对计算运行时构建的明确警告是那些没有这些补丁的运行修改的内核的通知。由于这些原因,我们认为计算运行时的幽灵缓解不再提供足够的安全性影响来证明当前的绩效折衷...

AMD使用MI300X策略加速AI

AMD Accelerates AI with MI300X Strategy

它很重要:AMD通过使用强大的GPU和开源软件来挑战NVIDIA,通过MI300X策略加速了AI。

具有多条文记忆的AI代理

AI Agent with Multi-Session Memory

仅使用Python&Ollama(没有GPU,无apikey)从头开始构建。具有多课程记忆的后AI代理首先出现在数据科学上。