📚快速开始(必读) #
为了更好的保证平台使用体验,推荐使用Google浏览器最新版进行操作,更稳定;不要开梯子,开梯子可能导致网路不稳定,页面加载慢/超时。
平台登录地址:https://www.lanrui-ai.com/
登录揽睿星舟官网,点击算力市场,可以看到平台上提供的算力资源。按照计费方式,可以分为按量/包周/包月资源。这两个区分是:
- 购买按量付费的资源后,会帮用户自动创建一个工作空间,平台会按分钟进行资源计费。只要用户没有手动停止,该实例会一直运行计费,停止后结束计费。
- 购买包周/包月资源后,不会自动创建工作空间,已购的资源会出现个人中心-我的资产中。包月资源在购买时进行扣费,到期后会自动释放。
🔥AI绘画/炼丹相关 #
SD webui相关 #
如何使用SD-WebUI |
---|
一键快速启动配置(适用新手):教程点这里 |
自定义创建(使用api或者代码调试):教程点这里 |
如何上传模型:详见上传模型步骤 |
如何安装插件:详见安装插件步骤 |
图片输出目录及批量下载:详见步骤 |
comfyui相关 #
如何使用comfyui |
---|
comfyui教程:点击这里 |
如何上传模型:详见上传模型步骤 |
如何安装插件:详见上传插件步骤 |
图片输出目录及批量下载:详见步骤 |
训练lora模型相关 #
sd-trainer:详见秋叶炼丹教程
kohya_ss:详见kohya训练LoRA教程
🚀常见问题汇总 #
更多问题FAQ,点击查看详情
🔶训练开发相关 #
平台提供多种机器学习算法和框架的AI开发环境镜像。可以根据需求选择按量或包年包月计费的GPU资源。加载镜像后,用户即可快速启动一个全功能工作空间。这个工作空间内置了Jupyter和VSCode开发工具,并支持Grafana监控、事件日志以及SSH登录等功能。
进入「工作空间」页面,点击创建工作空间,显示应用启动器和自定义创建两种创建模式。
应用启动器:快捷部署应用镜像 #
目前平台已经提供了SD WebUI/ComfyUI/Fooocus/秋叶lora训练/GPT-SoVITS启动器,无需输入命令,支持一键启动快速部署打开应用。
自定义创建:灵活配置环境及存储 #
下面以pytorch镜像训练举例
1. 创建工作空间 #
这里我们选择按量付费的资源,点击使用,然后选择一个pytorch镜像,用户可以选购买数据盘,加载平台数据集,模型,并设置自动停止时间。如果无需这些设置,直接点击创建实例即可。
为了后续的例子,我们加载数据集flower-photos,加载模型resnet34-pth
在工作空间列表页面,可以看到刚才创建的工作空间,待状态变为运行中时,就可以正常使用了。在启动过程中如果遇到问题,可以点击更多-事件按钮,会在屏幕下方显示事件窗口,查看相关信息,事件窗口的右上角可以切换高级模式,显示更详细的错误信息。
选择Jupyter或者VSCode打开工作空间,也可以点击SSH星号后面的小眼睛,就可以显示SSH登录命令,复制粘贴到个人电脑终端中进行登录(注意使用SSH登录的前提是先在平台上传了SSH pubkey, 这块的介绍参见这里)
1.1 文件系统 #
工作空间中几个重要的文件系统说明如下:
- /home/user/datadisk,该目录是工作空间的数据盘,会持久化到块存储上,工作空间停止或者重启后,数据不会丢失,除非用户手动释放工作空间。
- /home/user/netdisk/data,该目录是网盘的data文件夹,是在多个实例之间共享的,可以当成NAS来使用,但读写速度会比数据盘慢一些。
- 该路径与原路径/ark-contexts/data一样,均可作为网盘路径使用,建议后续网盘data读写路径使用/home/user/netdisk/data - 如果在启动工作空间时挂载了数据集,数据集会放在/home/user/imported_datasets/目录下,该目录是一个只读目录。
- /home/user/persistentdisk,该目录是环境持久盘,将持久化pip安装的依赖
- 如果在启动工作空间时挂载了模型,模型会放在/home/user/imported_models/目录下,该目录是一个只读目录。
- 根目录/,该目录是工作空间的数据盘,显示为500G,但实际可用空间为150G(其他空间被系统占用),实例关闭或者重启后,数据会丢失。请尽量不要写系统盘,特别的不要写满系统盘,否则会引起实例异常重启!
网盘数据上传和下载请参见以下方式:
-
(推荐)如果是本地数据可使用文件管理工具,需要开启工作空间上传;
-
本地数据或可使用MC命令行/小黄鸭客户端上传,小于2G可以用小黄鸭,大于2G建议mc命令行,无需开启工作空间;
-
(推荐)如果是c站、抱脸等网站的模型等文件,只要能获取到模型有效下载地址,使用「外部数据管理-url数据功能」进行下载,点击查看具体操作步骤
-
如果是百度网盘数据,可直接连接百度网盘传输,点击查看具体操作步骤。
-
如果您需要跨区传输数据,请参考跨区功能介绍
数据盘:训练及其他高IO场景用户,建议您务必选择挂载数据盘,可以得到比网盘好百倍的体验。
环境持久盘:具体介绍和收费规则详见这里
2. 开始训练 #
2.1 准备工作 #
在工作空间中,我们可以使用nvidia-smi命令查看显卡信息。
可以看到HOME目录是在/home/user目录,该目录下有一个data目录,会默认挂载网盘中的data目录。同时HOME目录下会出现imported_datasets和imported_models两个目录,里面有刚才设置的数据集和模型。
我们以github上的这个例子进行说明
git clone https://github.com/WZMIAOMIAO/deep-learning-for-image-processing.git
注意:如果发现git clone慢,请参考这里进行加速
2.2 训练模型 #
我们来复现pytorch_classification/Test5_resnet这个项目,按照说明,这个项目会使用resnet34网络对flower_photos数据集进行迁移学习。
首先,我们按照项目要求,将数据集复制到deep-learning-for-image-processing/data_set目录并进行训练集和验证集的划分
cd ~/deep-learning-for-image-processing/data_set
mkdir -p flower_data/flower_photos
cp -r ~/imported_datasets/flower-photos/* flower_data/flower_photos
python3 split_data.py
进入pytorch_classification/Test5_resnet项目目录,按照说明,把resnet34这个模型拷贝到该目录下,并执行train.py脚本
cd ~/deep-learning-for-image-processing/pytorch_classification/Test5_resnet
cp ~/imported_models/resnet34-pth/resnet34-333f7ec4.pth resnet34-pre.pth
python3 train.py
默认epoch=3,可以看出,因为使用了resnet34预训练的权重,第1轮epoch,准确率就能达到94%。
我们可以对train.py做一点修改,不使用预训练模型,而是从头开始训练resnet,如下图我们注释掉部分内容,并修改epoch为20,重新训练(python3 train.py)
可以看到,不使用迁移学习时,经过20轮后,准确率也只有79%
在训练过程中,我们可以使用平台提供的监控功能,打开grafana查看GPU,CPU的运行状况
客服支持 #
在使用过程中有任何疑问或建议,可以【扫码添加客服小助手微信】获得支持
网络加速 #
git clone、wget慢,请开启学术加速尝试,参考学术网站加速文档;
pip install慢,请切换国内源尝试,参考切换源为国内源文档;
💰充值和计费相关 #
平台计费规则,详见计费说明