使用Llama.cpp

本指南将带您完成在本地计算机上设置和运行Llama.cpp服务器的整个过程,构建本地AI代理,并使用各种提示进行测试。

来源:KDnuggets
作者的图像

Llama.cpp是原始的高性能框架,它为许多流行的本地AI工具提供动力,包括Ollama,本地聊天机器人和其他设备上的LLM解决方案。通过直接与Llama.cpp合作,您可以最大程度地减少开销,获得细粒度的控制并优化特定硬件的性能,从而使您的本地AI代理和应用程序更快,更可配置

在本教程中,我将指导您使用Llama.cpp构建AI应用程序,这是一个有效地运行大型语言模型(LLMS)的功能强大的C/C ++库。我们将介绍设置Llama.CPP服务器,将其与Langchain集成,并构建能够使用Web Search和Python repl的工具的React代理。

1。设置Llama.cpp服务器

本节涵盖了Llama.cpp及其依赖项的安装,将其配置为CUDA支持,构建必要的二进制文件并运行服务器。

注意:我们使用的是在Linux操作系统上使用CUDA Toolkit预先配置的NVIDIA RTX 4090图形卡。如果您无法访问类似的本地硬件,则可以以更便宜的价格从Vast.AI租用GPU实例。

注意: vast.ai
vast.ai |控制台
vast.ai |控制台
    更新系统的软件包列表,并安装基本工具,例如构建,cmake,curl和git。用于硬件信息包括PCIUTILS,Llama.cpp需要从Hugging Face下载型号。
apt-get更新
apt-get安装pciutils build-esential cmake curl libcurl4-openssl-dev git -y
    克隆Github的官方Llama.CPP存储库,并使用CMAKE配置构建。
#克隆Llama.cpp存储库
git克隆https://github.com/ggml-org/llama.cpp

#在CUDA支持的情况下配置构建
cmake Llama.cpp -b Llama.cpp/build \
    -dbuild_shared_libs = OFF \
    -dggml_cuda = on \
    -dllama_curl = on
    使用不舒服/gemma-3-4b-it-gguf型号启动Llama.cpp服务器。

输出:

2。用Langgraph和Llama.cpp

PythonRepltool: