详细内容或原文请订阅后点击阅览
使用Llama.cpp
本指南将带您完成在本地计算机上设置和运行Llama.cpp服务器的整个过程,构建本地AI代理,并使用各种提示进行测试。
来源:KDnuggetsLlama.cpp是原始的高性能框架,它为许多流行的本地AI工具提供动力,包括Ollama,本地聊天机器人和其他设备上的LLM解决方案。通过直接与Llama.cpp合作,您可以最大程度地减少开销,获得细粒度的控制并优化特定硬件的性能,从而使您的本地AI代理和应用程序更快,更可配置
在本教程中,我将指导您使用Llama.cpp构建AI应用程序,这是一个有效地运行大型语言模型(LLMS)的功能强大的C/C ++库。我们将介绍设置Llama.CPP服务器,将其与Langchain集成,并构建能够使用Web Search和Python repl的工具的React代理。
1。设置Llama.cpp服务器
本节涵盖了Llama.cpp及其依赖项的安装,将其配置为CUDA支持,构建必要的二进制文件并运行服务器。
注意:我们使用的是在Linux操作系统上使用CUDA Toolkit预先配置的NVIDIA RTX 4090图形卡。如果您无法访问类似的本地硬件,则可以以更便宜的价格从Vast.AI租用GPU实例。
注意: vast.ai- 更新系统的软件包列表,并安装基本工具,例如构建,cmake,curl和git。用于硬件信息包括PCIUTILS,Llama.cpp需要从Hugging Face下载型号。
apt-get更新 apt-get安装pciutils build-esential cmake curl libcurl4-openssl-dev git -y
- 克隆Github的官方Llama.CPP存储库,并使用CMAKE配置构建。
#克隆Llama.cpp存储库 git克隆https://github.com/ggml-org/llama.cpp #在CUDA支持的情况下配置构建 cmake Llama.cpp -b Llama.cpp/build \ -dbuild_shared_libs = OFF \ -dggml_cuda = on \ -dllama_curl = on
- 使用不舒服/gemma-3-4b-it-gguf型号启动Llama.cpp服务器。
输出: