模型部署框架（模型框架）

云计算与后端部署来源：网络编辑：小编更新时间：2024-12-20 14:45:05 浏览量：39

最近两年大模型非常的火，自己也想部署一个来玩一玩，然后去整一个服务器，搜索各种资料研究，发现很多篇文章内容，总是缺那么一两个步骤，或者衔接中少了一环，走了很多弯路，现在研究跑通之后，做了版基础小白都可用的手册篇，可运行大部分模型，如Qwen2-7b，供大家参考。

部署模型步骤大致分为以下：

1，确定可用于部署大模型的硬件环境。

2，安装可部署模型的系统和依赖组件。

3，下载模型文件。

4，加载运行模型。

那么现在按照以上步骤，开始直入主题吧。

服务器硬件

我这里选择了带2块GPU卡的硬件服务器。

GPU的型号是RTX3090。

服务器系统和依赖组件

现在跑大模型的系统中，一般使用Ubuntu系统，所以这里我也安装了Ubuntu22的系统。

以及使用GPU所需要的NVIDIA驱动，装完之后可以查看驱动是否ok。

安装完以上之后，来安装模型依赖所必须的组件。

更新一下Ubuntu的库文件。

如果更新中出问题或者报错，这里大概率就是ubuntu的源问题，我们可以切换国内的源。

比如以下阿里源，为了安全起见，先保存一下源文件列表。

可直接复制以下代码到系统中，再重新更新一下库即可。

安装python组件和pip组件并查看版本

安装模型依赖组件。

为了方便安装，不用一个一个来，我们可以touch一个requirements.txt文件，将组件写到文件中。

运行以下命令开始安装。（这里添加了-i参数，来指定源，尝试过后发现使用清华源速度会快很多）。

可以看到开始安装了。。。这里根据个人网速的快慢，可能需要等待一会了。

安装完成后，继续安装以下组件。

如果以上组件都安装完，那么其实这里模型框架就基本上好了。

模型文件下载

接下来，我们下载模型文件，这里我们使用魔塔社区的模型库，当前的框架其实可以跑很多模型，但是由于GPU的限制，所以比较大的跑不起来，这里我们选一个相对小的模型进行下载。

魔塔社区的地址：

在模型库中搜索模型

点击进去，可以查看模型的介绍。

其中有一点需要关注的就是每个模型会有一个推荐的max_new_tokens，这个我们后面运行的时候可以用到。

选择模型文件，进行模型的下载。

模型的下载分很多种方式，这里由于我们前面安装了modelscope，所以可以采用这种方式下载。

这里模型我下载好了，放在以下目录中。

到这里该准备的工作都已经完成了，不出意外，我们就可以正常的加载运行模型了。

加载运行模型

我们使用以下命令，启动一个基于 vllm 库的 OpenAI 兼容 API 服务器，它将加载指定路径下的 Qwen2.5-7B 模型，并将其命名为 Qwen2-7B (这个名字可以自己定义，在后面调用验证的时候修改为对应的就行）作为服务模型。同时，设置了最大模型长度为512个token(这里我们就可以用到刚才模型介绍里的那个参数了)。指定日志文件的位置，将标准输出和标准错误都重定向到 mylog.out 文件中。

我们可以通过查看日志文件，确认模型加载的状态。

也可以看一下GPU的使用情况。

已经正常使用GPU加载了模型。

访问验证

此时模型已启动，可以访问验证一下。

本地调用，可以使用以下代码

可以看到以下答复，这里就验证成功了。

以上，就是简单的本地部署大模型以及成功运行的所有操作了。

如有问题，可联系博主，一起讨论。

到此这篇模型部署框架（模型框架）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇：发送验证码过于频繁,请稍后再试怎么办（发送验证码过于频繁,请稍后再试怎么办）

下一篇： Redis端口号（redis端口号在哪改）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/hd-yjs/50172.html

服务器硬件

服务器系统和依赖组件

模型文件下载

加载运行模型

访问验证

相关文章：