最近两年大模型非常的火,自己也想部署一个来玩一玩,然后去整一个服务器,搜索各种资料研究,发现很多篇文章内容,总是缺那么一两个步骤,或者衔接中少了一环,走了很多弯路,现在研究跑通之后,做了版基础小白都可用的手册篇,可运行大部分模型,如Qwen2-7b,供大家参考。
部署模型步骤大致分为以下:
1,确定可用于部署大模型的硬件环境。
2,安装可部署模型的系统和依赖组件。
3,下载模型文件。
4,加载运行模型。
那么现在按照以上步骤,开始直入主题吧。
服务器硬件
我这里选择了带2块GPU卡的硬件服务器。
GPU的型号是RTX3090。
服务器系统和依赖组件
现在跑大模型的系统中,一般使用Ubuntu系统,所以这里我也安装了Ubuntu22的系统。
以及使用GPU所需要的NVIDIA驱动,装完之后可以查看驱动是否ok。
安装完以上之后,来安装模型依赖所必须的组件。
更新一下Ubuntu的库文件。
如果更新中出问题或者报错,这里大概率就是ubuntu的源问题,我们可以切换国内的源。
比如以下阿里源,为了安全起见,先保存一下源文件列表。
可直接复制以下代码到系统中,再重新更新一下库即可。
安装python组件和pip组件并查看版本
安装模型依赖组件。
为了方便安装,不用一个一个来,我们可以touch一个requirements.txt文件,将组件写到文件中。
运行以下命令开始安装。(这里添加了-i参数,来指定源,尝试过后发现使用清华源速度会快很多)。
可以看到开始安装了。。。这里根据个人网速的快慢,可能需要等待一会了。
安装完成后,继续安装以下组件。
如果以上组件都安装完,那么其实这里模型框架就基本上好了。
模型文件下载
接下来,我们下载模型文件,这里我们使用魔塔社区的模型库,当前的框架其实可以跑很多模型,但是由于GPU的限制,所以比较大的跑不起来,这里我们选一个相对小的模型进行下载。
魔塔社区的地址:
在模型库中搜索模型
点击进去,可以查看模型的介绍。
其中有一点需要关注的就是每个模型会有一个推荐的max_new_tokens,这个我们后面运行的时候可以用到。
选择模型文件,进行模型的下载。
模型的下载分很多种方式,这里由于我们前面安装了modelscope,所以可以采用这种方式下载。
这里模型我下载好了,放在以下目录中。
到这里该准备的工作都已经完成了,不出意外,我们就可以正常的加载运行模型了。
加载运行模型
我们使用以下命令,启动一个基于 vllm 库的 OpenAI 兼容 API 服务器,它将加载指定路径下的 Qwen2.5-7B 模型,并将其命名为 Qwen2-7B (这个名字可以自己定义,在后面调用验证的时候修改为对应的就行)作为服务模型。同时,设置了最大模型长度为512个token(这里我们就可以用到刚才模型介绍里的那个参数了)。指定日志文件的位置, 将标准输出和标准错误都重定向到 mylog.out 文件中。
我们可以通过查看日志文件,确认模型加载的状态。
也可以看一下GPU的使用情况。
已经正常使用GPU加载了模型。
访问验证
此时模型已启动,可以访问验证一下。
本地调用,可以使用以下代码
可以看到以下答复,这里就验证成功了。
以上,就是简单的本地部署大模型以及成功运行的所有操作了。
如有问题,可联系博主,一起讨论。
到此这篇模型部署框架(模型 框架)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/hd-yjs/50172.html