在喵窝网站怎么做图网站的运营管理方案
- 作者: 五速梦信息网
- 时间: 2026年04月20日 06:52
当前位置: 首页 > news >正文
在喵窝网站怎么做图,网站的运营管理方案,敬请期待打一生肖,外国网站怎么做一直想在自己电脑或者测试环境随便找台服务器尝试部署一下“大模型”#xff0c;但“大模型”对于内存和GPU的要求令人望而却步#xff0c;层出不穷的各种术语也令人困惑#xff0c;有点难以下手。
经过一段时间#xff0c;在百度千帆大模型平台、讯飞星火大模型平台、魔搭…一直想在自己电脑或者测试环境随便找台服务器尝试部署一下“大模型”但“大模型”对于内存和GPU的要求令人望而却步层出不穷的各种术语也令人困惑有点难以下手。
经过一段时间在百度千帆大模型平台、讯飞星火大模型平台、魔搭社区等平台的锤炼之下对于“大模型”的应用有了一点点认知但离“本地”部署和应用仍然差距甚远。无意中了解到 llama.cpp 这个开源项目才算打开了一扇窗户。 The main goal of llama.cpp is to run the LLaMA model using 4-bit integer quantization on a MacBook … 根据llama.cpp项目的介绍我们知道它是 llama 大模型的c实现通过对参数的量化减少模型体积(内存占用)、提高推理速度使得 llama 等大模型可以在个人电脑、linux 等环境下只依赖cpu就能跑起来。目前它已经可以支持包括LLaMA2、Chinese LLaMA-2 / Alpaca - 2、百川、通义千问等等在内的众多开源大模型。项目介绍中甚至可以在安卓手机中跑起来。更多详细介绍参考https://github.com/ggerganov/llama.cpp
初体验
基础环境准备
给自己分配了一台测试虚拟机配置了10核心20线程的CPU原本分配的是8核心16线程后来测试发现分配为10核心后有明显提升因此此处直接描述为修改后的配置16G内存centos 7 操作系统。 对于服务器主要做了如下调整
安装git升级gcc版本否则在编译llama.cpp时会报错升级python到3.10.5 以上版本
下载和安装
通过git 拉取项目
git clone https://github.com/ggerganov/llama.cpp编译
make下载模型 llama.cpp项目提供了脚本可以将网上下载的开源模型文件转换成F16格式然后再使用脚本进行向量化生成4-bit的gguf格式这种格式的模型文件大大减少了模型体积加快了推理速度并且相比于F16格式并没有显著降低推理效果 请注意这一切都是我从文档得知的结论我本身并未进行效果对比测试。 到这一步的时候文档是让你自己选择模型去huggingface进行下载。考虑到LLaMa 本身对中文支持并不好并且LLaMa本身是个基座模型并不适用于对话类场景也就是我们平时用的ChatGPT这种因此我选择了一个开源的基于LLaMa2的中文Alpaca模型 Chinese-LLaMA-Alpaca-2最有意思的是,这个模型提供了一个RLHF版本经过精调在 正确价值观方面获得了显著性能提升内涵。
总而言之考虑到内存、CPU性能限制但是对效果又想有点追求我直接在huggingface下载了 7B级别的 q4_k.gguf 和 q6_k.gguf 两个版本的模型文件进行测试。下载地址https://huggingface.co/hfl/chinese-alpaca-2-7b-rlhf-gguf/tree/main
将模型文件上传到测试服务器进入 llama.cpp项目路径下执行脚本测试
跑一跑
先来试试文字生成按照说明文档执行命令
./main -m ../../chinese-llama-alpaca-rlhf-7b/ggml-model-q4_k.gguf –prompt 从前有一座山山上有个老和尚程序呼哧呼哧加载后就开始跑了如下所示 我们换成 q6_k 模型试试
./main -m ../../chinese-llama-alpaca-rlhf-7b/ggml-model-q4_k.gguf –prompt 从前有一座山山上有个老和尚唔我们很明显可以看到q6_k 版本要比 q4_k 啰嗦多了。
模型推理时观察CPU和内存占用CPU将将跑满内存占用35%左右与模型文件大小相仿。
试完文字生成让我们再来试试对话能力。
参考https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh 给的例子我们准备一个chat.sh脚本, 内容如下:
SYSTEMYou are a cheerful and lively assistant named 小六. You can help users answer questions about work and life, solving their problems. If a question confuses you, and you dont know how to answer, you should say, Im sorry, I dont understand what youre saying, please ask me in a different way. If you dont know the answer to a question, you should respond with, Im sorry, I dont know either, instead of providing a random answer. 你是一个性格开朗、语气活泼的助手你的名字叫小六能够帮用户回答工作和生活的疑问解决他们的难题。如果一个问题让你感到困惑你不知道怎么回答你应该说 “对不起我不知道你在说什么请换一种方式问我”。如果你不知道问题的答案你就回答:“对不起我也不知道”,而不是随意回答。
FIRST_INSTRUCTION\(2./main -m \)1
–color -i -c 4096 -t 10 –temp 0.5 –top_k 40 –top_p 0.9 –repeat_penalty 1.1
–in-prefix-bos –in-prefix [INST] –in-suffix [/INST] -p
[INST] SYS
\(SYSTEM
/SYS\)FIRST_INSTRUCTION [/INST]其中, [INST]SYS等标签是LLaMa-2-chat的指令模板需要自行探索。
使用q4_k版模型测试如下
./chat.sh ../../chinese-llama-alpaca-rlhf-7b/ggml-model-q4_k.gguf 世界上最大的鱼是什么鱼使用q6_k版模型再试一次
./chat.sh ../../chinese-llama-alpaca-rlhf-7b/ggml-model-q6_k.gguf 世界上最大的鱼是什么鱼q6_k模型依然啰嗦又贴心当然可以通过promt去约束模型的输出。
我们接着测试 正确价值观 的问题
可以看到此模型还是很友善地处理和回答了负能量的问题对于“正确价值观”的处理可以让使用者松一口气。
总的来说gpt的本质是根据你的输入做“推理”它实际上并不理解你问的是什么问题只是根据概率推断出应该回答的内容。因此在处理“客观”问题时需要仔细甄别才能知道它是否在“胡言乱语”。但是对于文本生成、语言翻译、文本总结 等“艺术性”创作时则能以及高效率较好满足自然人的需求。也因此如何更好的使用gpt也成了一门学问
下一步思路
尝试使用llama.cpp的server功能搭建一个简单的web服务体验通过api调用大模型尝试使用 通义千问1.8B-Chat模型 对比一下效果尝试使用LangChain框架结合llama.cpp尝试基于LangChain框架本地构建一个简单的文档AI应用通过将文档向量化和搜索之后调用大模型进行回答尝试大模型微调…
参考
Chinese-LLaMA-Alpaca-2llama.cpp
相关文章
-
在免费空间上传网站为什么访问不了网站的网络营销方案
在免费空间上传网站为什么访问不了网站的网络营销方案
- 技术栈
- 2026年04月20日
-
在门户网站中营销者通过制作什么apache 搭建多个网站
在门户网站中营销者通过制作什么apache 搭建多个网站
- 技术栈
- 2026年04月20日
-
在溧水做新店推广那家网站好郴州专业seo
在溧水做新店推广那家网站好郴州专业seo
- 技术栈
- 2026年04月20日
-
在某网站被骗钱该怎么做wordpress国内免费教程
在某网站被骗钱该怎么做wordpress国内免费教程
- 技术栈
- 2026年04月20日
-
在哪查看网站被收录的情况给别人做网站在那里接单
在哪查看网站被收录的情况给别人做网站在那里接单
- 技术栈
- 2026年04月20日
-
在哪个公司建设网站好ai室内设计生成软件
在哪个公司建设网站好ai室内设计生成软件
- 技术栈
- 2026年04月20日
