如何在Kubernetes上部署一个深度学习模型
随着企业增加了对人工智能(AI)、度学机器学习(ML)与深度学习(DL)的习模型使用,出现了一个关键问题:如何将机器学习的部署开发进行规模化与产业化?这些讨论经常聚焦于机器学习模型本身;然而,模型仅仅只是个深完整解决方案的其中一环。为了达到生产环境的度学应用和规模,模型的习模型开发过程必须还包括一个可以说明开发前后关键活动以及可公用部署的可重复过程。
本文演示了如何使用 Kubermatic Kubernetes 平台对图像识别预测的部署深度学习模型进行部署、扩展与管理。个深

Kubermatic Kubernetes 平台是度学一个生产级的开源 Kubernetes 集群管理工具,提供灵活性和自动化,习模型与机器学习/深度学习工作流程整合,部署具有完整的个深集群生命周期管理。
开始
这个例子部署了一个用于图像识别的度学深度学习模型。它使用了 CIFAR-10 数据集,包含了 60,000 张分属 10 个类别的 32x32 彩色图,同时使用了 Apache MXNet 的 Gluon 与 NVIDIA GPU 进行加速计算。如果你希望使用 CIFAR-10 数据集的b2b信息网预训练模型,可以查阅其 入门指南。
使用训练集中的样本对模型训练 200 次,只要训练误差保持缓慢减少,就可以保证模型不会过拟合。下方图展示了训练的过程:

训练结束后,必须保存模型训练所得到的参数,以便稍后可以加载它们:
file_name = "net.params" net.save_parameters(file_name)一旦你的模型训练好了,就可以用 Flask 服务器来封装它。下方的程序演示了如何接收请求中的一张图片作为参数,并在响应中返回模型的预测结果:
from gluoncv.model_zoo import get_model import matplotlib.pyplot as plt from mxnet import gluon, nd, image from mxnet.gluon.data.vision import transforms from gluoncv import utils from PIL import Image import io import flask app = flask.Flask(__name__) @app.route("/predict",methods=["POST"]) def predict(): if flask.request.method == "POST": if flask.request.files.get("img"): img = Image.open(io.BytesIO(flask.request.files["img"].read())) transform_fn = transforms.Compose([ transforms.Resize(32), transforms.CenterCrop(32), transforms.ToTensor(), transforms.Normalize([0.4914, 0.4822, 0.4465], [0.2023, 0.1994, 0.2010])]) img = transform_fn(nd.array(img)) net = get_model(cifar_resnet20_v1, classes=10) net.load_parameters(net.params) pred = net(img.expand_dims(axis=0)) class_names = [airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck] ind = nd.argmax(pred, axis=1).astype(int) prediction = The input picture is classified as [%s], with probability %.3f.% (class_names[ind.asscalar()], nd.softmax(pred)[0][ind].asscalar()) return prediction if __name__ == __main__: app.run(host=0.0.0.0)容器化模型
在将模型部署到 Kubernetes 前,你需要先安装 Docker 并使用你的模型创建一个镜像。
下载、安装并启动 Docker:
sudo yum install -y yum-utils device-mapper-persistent-data lvm2 sudo yum-config-manager --add-repo <https://download.docker.com/linux/centos/docker-ce.repo> sudo yum install docker-ce sudo systemctl start docker创建一个你用来管理代码与依赖的文件夹:
mkdir kubermatic-dl cd kubermatic-dl创建 requirements.txt 文件管理代码运行时需要的所有依赖:
flask gluoncv matplotlib mxnet requests Pillow创建 Dockerfile,Docker 将根据这个文件创建镜像:
FROM python:3.6 WORKDIR /app COPY requirements.txt /app RUN pip install -r ./requirements.txt COPY app.py /app CMD ["python", "app.py"]这个 Dockerfile 主要可以分为三个部分。首先,Docker 会下载 Python 的基础镜像。然后,Docker 会使用 Python 的包管理工具 pip 安装 requirements.txt 记录的包。最后,站群服务器Docker 会通过执行 python app.py 来运行你的脚本。
构建 Docker 容器:
sudo docker build -t kubermatic-dl:latest .这条命令使用 kubermatic-dl 镜像为你当前工作目录的代码创建了一个容器。
使用
sudo docker run -d -p 5000:5000 kubermatic-dl命令检查你的容器可以在你的主机上正常运行。
使用
sudo docker ps -a命令查看你本地容器的运行状态:

查看容器的运行状态
将你的模型上传到 Docker Hub
在向 Kubernetes 上部署模型前,你的镜像首先需要是公开可用的。你可以通过将你的模型上传到 Docker Hub 来将它公开。(如果你没有 Docker Hub 的账号,你需要先创建一个)
在终端中登录 Docker Hub 账号:
sudo docker login给你的镜像打上标签,这样你的模型上传到 Docker Hub 后也能拥有版本信息:
sudo docker tag <your-image-id> <your-docker-hub-name>/<your-app-name> sudo docker push <your-docker-hub-name>/<your-app-name>
给镜像打上 tag
使用
sudo docker images命令检查你的镜像的 ID。
部署你的模型到 Kubernetes 集群
首先在 Kubermatic Kubernetes 平台创建一个项目, 然后根据 快速开始 创建一个 Kubernetes 集群。

创建一个 Kubernetes 集群
下载用于访问你的集群的 kubeconfig,将它放置在下载目录中,并记得设置合适的环境变量,云服务器使得你的环境能找到它:

Kubernetes 集群示例
使用 kubectl 命令检查集群信息,例如,需要检查 kube-system 是否在你的集群正常启动了就可以使用命令 kubectl cluster-info。

为了在集群中运行容器,你需要创建一个部署用的配置文件(deployment.yaml),再运行 apply 命令将其应用于集群中:
apiVersion: apps/v1 kind: Deployment metadata: name: kubermatic-dl-deployment spec: selector: matchLabels: app: kubermatic-dl replicas: 3 template: metadata: labels: app: kubermatic-dl spec: containers: - name: kubermatic-dl image: kubermatic00/kubermatic-dl:latest imagePullPolicy: Always ports: - containerPort: 8080 kubectl apply -f deployment.yaml`为了将你的部署开放到公网环境,你需要一个能够给你的容器创建外部可达 IP 地址的服务:
kubectl expose deployment kubermatic-dl-deployment --type=LoadBalancer --port 80 --target-port 5000`就快大功告成了!首先检查你布署的服务的状态,然后通过 IP 请求的你图像识别 API:
kubectl get service 
最后根据你的外部 IP 使用以下两张图片对你的图像识别服务进行测试:



总结
在这篇教程中,你可以创建一个深度学习模型,并且使用 Flask 提供 REST API 服务。它介绍了如何将应用放在 Docker 容器中,如何将这个镜像上传到 Docker Hub 中,以及如何使用 Kubernetes 部署你的服务。只需几个简单的命令,你就可以使用 Kubermatic Kubernetes 平台部署该应用程序,并且开放服务给别人使用。
相关文章
电脑手动重启发生错误的解决方法(如何应对电脑手动重启引发的故障及修复技巧)
摘要:在我们使用电脑的过程中,偶尔会遇到电脑手动重启发生错误的情况,这不仅给我们带来不便,还可能导致数据丢失和系统崩溃。本文将介绍一些常见的电脑手动重启发生错误的原因和解决方法,帮助读者...2025-11-04
一.双端队列(Deque)概念:deque(也称为双端队列)是与队列类似的项的有序集合。它有两个端部,首部和尾部,并且项在集合中保持不变。特性:deque 特殊之处在于添加和删除项是非限制性的。可以在2025-11-04
8月20日,吉林松花湖疗养院的节能体验会后,一场璀璨烟花在夜空绽放——这是疗养院为感谢海尔量身定制的惊喜。这个举动的背后,源于双方18年的合作信任。在2007年,疗养院用了一台海尔螺杆机为院区提供制冷2025-11-04- Go语言的sync包中实现了两种锁 Mutex (互斥锁)和 RWMutex (读写锁),其中 RWMutex 是基于 Mutex 实现的,只读锁的实现使用类似引用计数器的功能。互斥锁Mutex 是互2025-11-04
 深度解析iPadmini3(探究iPadmini3的关键特性及其与前代产品的差异)
摘要:iPadmini3作为苹果公司的一款智能平板电脑,于2014年发布。它是iPadmini系列的第三代产品,相较于前代产品,在外观设计、硬件配置、系统功能等方面进行了升级与改进。本文...2025-11-04
错误整体记录Rsync1.not a regular file2.remote command not found3.Connection Refuse4.auth failed on module2025-11-04

最新评论