使用Llama.cpp XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用Llama.cpp

2025年6月24日 12:00 33 Comments

本指南将带您完成在本地计算机上设置和运行Llama.cpp服务器的整个过程，构建本地AI代理，并使用各种提示进行测试。

来源:KDnuggets

作者的图像

Llama.cpp是原始的高性能框架，它为许多流行的本地AI工具提供动力，包括Ollama，本地聊天机器人和其他设备上的LLM解决方案。通过直接与Llama.cpp合作，您可以最大程度地减少开销，获得细粒度的控制并优化特定硬件的性能，从而使您的本地AI代理和应用程序更快，更可配置

在本教程中，我将指导您使用Llama.cpp构建AI应用程序，这是一个有效地运行大型语言模型（LLMS）的功能强大的C/C ++库。我们将介绍设置Llama.CPP服务器，将其与Langchain集成，并构建能够使用Web Search和Python repl的工具的React代理。

1。设置Llama.cpp服务器

本节涵盖了Llama.cpp及其依赖项的安装，将其配置为CUDA支持，构建必要的二进制文件并运行服务器。

注意：我们使用的是在Linux操作系统上使用CUDA Toolkit预先配置的NVIDIA RTX 4090图形卡。如果您无法访问类似的本地硬件，则可以以更便宜的价格从Vast.AI租用GPU实例。

注意： vast.ai vast.ai |控制台 vast.ai |控制台

更新系统的软件包列表，并安装基本工具，例如构建，cmake，curl和git。用于硬件信息包括PCIUTILS，Llama.cpp需要从Hugging Face下载型号。

apt-get更新
apt-get安装pciutils build-esential cmake curl libcurl4-openssl-dev git -y

克隆Github的官方Llama.CPP存储库，并使用CMAKE配置构建。

＃克隆Llama.cpp存储库
git克隆https://github.com/ggml-org/llama.cpp

＃在CUDA支持的情况下配置构建
cmake Llama.cpp -b Llama.cpp/build \
    -dbuild_shared_libs = OFF \
    -dggml_cuda = on \
    -dllama_curl = on

使用不舒服/gemma-3-4b-it-gguf型号启动Llama.cpp服务器。

输出：

2。用Langgraph和Llama.cpp

PythonRepltool：

细粒度机器人信息包 cmake cpp 使用工具的预先配置软件包支持的流行的 Llama curl 安装克隆硬件的使用的操作系统控制台构建运行必要的原始的 CUDA 系统的应用程序配置类似的工具包括 git 高性能 AI 强大的服务器便宜的设置二进制

使用Llama.cpp

1。设置Llama.cpp服务器

2。用Langgraph和Llama.cpp

其他外部链接

Tags

XiaoMi-AI