智能计算管理一体化平台(X2023102)  询价采购公告

江苏 2023-11-30 17310690583
导出PDF收藏打印
您当前为:【游客状态】文中**为隐藏内容,仅对会员开放,后查看完整商机,本网为注册会员提供免费试用服务。

智能计算管理一体化平台(X****)  询价采购公告

一、询价采购编号:*******

二、询价人:***

地址:***

邮编:***:***-****

联系人:***:***-****,****

电子邮箱:********* suda.****.cn

技术联系人:***:****766

三、设备名称、数量及主要技术指标等要求

智能计算管理一体化平台 1套

1.总体要求:***,提供符合本次GPU卡软件授权,提供≥5000个物理核心授权;基于B/S架构实现,支持主流浏览器(IE、Firefox、Chrome),软件界面必须实现完全中文化;与现有软件平台兼容(提供原厂证明材料并加盖公章)。

2.开发环境服务:***,提供TensorFlow、PyTorch等开发框架,提供JupyterLab、VS Code、RStudio等开发工具,支持服务实例的暂停和重启,支持开发环境自定义,提供开发工具界面截图或软件使用手册。

3.数据集管理:***,删除、克隆等;集成Winscp客户端软件,提供软件下载链接,调用客户端软件时自动设置服务端地址、服务端目标目录和登录用户;供基于Web的文件管理功能,支持文件和文件夹的创建、删除、重命名、在线编辑、权限设置,支持文件的节点间同步,支持文件批量上传和打包下载。

4.模型管理:***、模型克隆、模型删除和展示模型状态等,通过模型管理可以更方便的对不同模型进行处理、更直观的了解当前模型的运行情况以支持训练管理。

5.数据集预处理:***,用户可自行选择lmdb和leveldb等不同后端格式。

6.模型训练:***。对Caffe、TensorFlow、PyTorch等框架提供在线模型编辑功能,用户可自定义训练使用的框架版本,容器数量,GPU数量,内存,GPU型号等资源,并且可以实时查看训练曲线输出,监控各容器内资源使用状况;对TensorFlow和Pytorch等框架下的训练任务提供Horovod训练模式,支持通过Horovod进行大规模Ring All Reduce训练,提供TensorFlow和Pytorch框架通过Horovod提交任务的界面截图或软件使用手册

7.在线推理:***。支持Caffe、TensorFlow、PyTorch等框架,用户可自定义推理使用的框架版本,模型路径,模型输出层及前后处理脚本。集成图像分类,目标检测、语义分割等推理应用类型,可进行数据批量推理,显示原始图片、推理结果及必要标注信息,提供docker容器下支持Caffe、TensorFlow、PyTorch框架并在该框架下提交任务的界面截图或软件使用手册。

8.超参调优:***。支持TPE自动搜索算法,多参数同时调优,分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围,使用的框架版本、容器数量、GPU数量、内存、GPU型号等内容,并可以实时查看调参曲线输出,监控各容器内资源使用状况,提供TPE自动搜索算法、多参数调优、分布式调优、用户可自定义调参、实时查看调参曲线界面截图或软件使用手册。

9. TensorBoard:***框架下的可视化的TensorBoard应用。

10. 镜像管理:***,用户可以订阅平台公有的容器镜像资源进行使用;管理员可以向公有镜像库上传镜像资源;支持私有镜像管理,将私有镜像分享至公有镜像库,供其他用户订阅和使用。支持本地镜像上传和自定义;支持用户自定义镜像,包括在线固化,本地上传,从DockerHub拉取,基于Dockerfile在线制作等模式。提供镜像制作进度和日志查询功能界面截图或软件使用手册;支持镜像推送,支持用户将自定义镜像或订阅镜像推送至训练、调优、推理等图形化流程进行使用。用户推送的镜像仅对自身生效,不影响平台其他用户。

11. 容器端口:***,支持http和socket等端口模式。

12. IDE工具:***地IDE工具;

13. 容器任务:***,用户可以自定义容器任务使用的镜像版本、容器实例数量、GPU数量、GPU类型、CPU数量、内存大小等资源,并可通过页面嵌入的SSH和Jupyter方式对容器进行访问。;支持容器跨节点进行调度计算;Caffe/TensorFlow/PyTorch分布式计算方式;支持NVIDIA多实例GPU(MIG)技术,可定义实例数量,调度GPU实例,并在容器中进行使用和监控。

14. 数据分享:***、模型、代码和文档等内容。用户可获得订阅内容的访问权限,其中数据集和模型可在编辑训练任务时直接访问,提供分享中心和订阅数据界面截图或软件使用手册。

15. 主页自定义:***,可按需将常用或重要应用添加至主页快捷访问。

16. 开发接口:***,用户可基于现有平台功能进行二次开发。

17. 应用容器化:***/Tensorflow/PyTorch等应用软件预设配置到容器中;并且可以在容器中使用IB网络进行计算。

18. 作业管理:***,不同的分区进行不同的访问控制和调度策略。提供全方位的作业提交、作业管理、调度策略定制,集群资源限制等功能;支持基于队列、用户、用户组等多个维度的优先级定义策略,根据作业的静态(如资源请求、所属用户等)和动态指标(如入队时间、公平共享份额等),通过不同的权重设置,灵活控制作业优先级;支持基于队列、用户、用户组等不同维度的资源限额(即可用处理器数、内存数、节点数、作业数、GPU数等),方便管理员控制资源分配;支持针对不同用户(或用户组、队列)设置资源使用的份额,保证公平合理的使用资源;允许作业独占计算节点,支持集群、队列、作业三级的的节点独占策略设置。;支持对高优先级作业进行资源预留,有效解决在集群高负载情况下的大作业“饥饿”问题;支持灵活可配置的节点可用性判定策略。检查作业的可用节点时,需要考虑多种资源请求(如处理器、内存、磁盘)进行判定,允许针对不同的资源使用不同的判定算法(如按照实际使用量、按照调度分配量,或者综合两者进行判定);支持将作业均衡的分配到所有计算节点上,避免任务堆积在个别节点,因争抢CPU、内存等资源导致计算变慢;支持随机选择作业的计算节点,解决特定场景和固定调度算法下某些计算节点被频繁使用的问题。

19. 异构调度:***+GPGPU(包括GPU、MIC)异构集群的调度。支持CPU作业和GPU作业共用GPGPU节点,支持为GPU/MIC按比例预留一定的CPU,保证GPU/MIC作业调度的成功。

20. 兼容性:***RICON等多种异构资源的统一管理与使用。

21. 资产管理功能:***(如服务器、机柜、刀箱、交换机等)的Excel批量导入导出功能,提供模板和示例;支持服务器等设备型号的管理,允许用户添加新机型,允许修改已有机型(如图片、高度等);支持资产分组管理,允许添加、删除和修改分组;可以根据集群不同节点的预定义角色,进行智能开关机以及批量开关机。

22. 监控功能:***,包括指挥视图、基础运维视图、告警视图、关键服务视图等;支持大规模监控管理,系统采集节点规模至少支持15000多节点,采集指标数量1000种,采集秒级反馈,查询秒级响应;支持监控GPU资源总量/使用量、核心平均利用率、显存平均利用率、温度、显存频率、核心频率、型号、SN号、负载进程、功耗、风扇转速、PCIE宽度、PCIE gen、PCIE接收与发送速率、GPU驱动版本等指标;支持热图方式集中展现集群中所有服务器的关键指标,如CPU利用率、内存利用率、网络可用性、电源状态、温度等,支持指标快速切换。

23. 集群配置功能:***,可以一键完成对整个集群的检测和配置,如检测网络可用性、配置ssh/rsh无密码登陆、停止系统冗余服务、配置NFS、同步集群时间、同步集群用户等。管理员可以灵活组合不同的配置项。

24. 报告分析:***,包括系统资源利用情况、作业队列用户使用分析等;支持PDF、Excel、Html等不同的导出格式;实现作业统计、队列作业统计、作业规模统计、异常作业统计、集群作业趋势分析等报表,从不同维度满足用户统计分析需求,支持报表及原始数据的导出,可做二次分析;实时采集和图形显示所运行的进程名称,同时采集和显示进程所对应的用户名称。

25. 作业调度:***,支持最大瞬时大规模作业(超过3000个)的同时提交;支持大批量作业的动态优先级调动并发瞬时吞吐率峰值(超过2000个),提供不少于3000个作业提交的界面截图或软件使用手册;支持基于Web的作业管理,支持对运行作业的输出进行实时监控,支持输出文件的下载,对VNC图形作业提供基于浏览器的远程访问功能;提供调度系统状态分析视图Dashboard,直观展示集群、队列、用户等不同视角的资源使用信息和作业负载信息,为管理员的调整优化提供决策依据,提供Dashboard的资源实用信息和作业负载界面截图或软件使用手册;支持计算数据或计算结果极速上传下载,支持快传和断点续传,可一次性高速传输数百个文件以及TB级文件,支持大文件远程传输,提供界面截图或软件使用手册。

26. 作业回填:***,有效平衡大作业和小作业的调度,提高集群作业吞吐量。

27. 作业抢占:***,支持对被抢占作业进行“挂起”、“重新入队”等处理操作。

28. 计费管理:***,允许多个用户使用一个计费账号;支持通过“先充值后扣费”方式使用集群资源,只有账号余额充足时才能运行作业,提供账号计算关联界面截图或软件使用手册;支持导出作业粒度的计费详表,供用户核对;支持GPU、存储计费,提供CPU、GPU、存储计费预设及导出计费详表的界面截图或软件使用手册。

29. 数据安全服务:***心针对本项目的数据恢复服务,提供国家信息中心出具的服务承诺函。

30.质保期不少于1年。

四、询价采购文件价格:***(相关缴纳事宜详见附件),售后不退。

五、报价截止时间:****-**-**日14:***。

六、有兴趣并符合资格条件的供应商,请务必认真阅读《苏州大学网上询价采购仪器设备报价须知》,在接受其所有条款要求的基础上按要求进行报价。

七、报价文件递交:***(请充分考虑快递送达时间,避免错过时间)。

附件:***.pdf

——————————————

询价采购编号:*******

成交供应商:

您当前为:【游客状态】文中**为隐藏内容,仅对会员开放,后查看完整商机,本网为注册会员提供免费试用服务。

尊敬的用户,和您一起投标的企业都在关注 “标800服务平台” 哦,最新项目精准匹配推送,下方扫码轻松关注!