以下为《某单位hpc云曙光方案设计-投标文件》的无排版文字预览,完整内容请下载
标准技术文档
分类:售前方案类
名称:生物领域高性能发展现状
编号:C13.1
作者:马某某
修改时间:***
XX大学XX学院高性能项目曙光技术方案
曙光信息产业(XX)***
技术支持中心 XXX
XX年X月
目 录
第1章 系统配置表与投标偏离表 5
1.1 系统配置表 5
1.2 投标偏离表 8
第2章 需求分析 9
2.1 高性能计算的和大规模数据处理的应用 9
2.1.1 计算机架构 9
2.1.2 软件的并行特点 10
2.1.3 互连网络 10
2.1.4 操作系统 12
2.2 高性能计算中心需求特点与发展趋势 13
2.2.1 需求特点 13
2.2.2 技术发展趋势 14
2.3 云计算概述 16
2.4 系统需求分析 18
第3章 系统方案设计 19
3.1 方案总体设计 19
3.1.1 系统拓扑图 19
3.1.2 系统方案说明 19
3.1.3 需求响应分析 20
3.2 计算系统 21
3.2.1 刀片集群 21
3.2.2 SMP胖节点 22
3.2.3 GPGPU计算节点 23
3.3 虚拟机群系统 24
3.3.1 管理节点 25
3.3.2 分组登录节点 25
3.3.3 开发调试节点 25
3.3.4 用户虚拟终端 25
3.3.5 用户实验教学集群 25
3.4 网络系统 26
3.4.1 千兆管理网络 26
3.4.2 Infiniband高速网 26
3.5 存储系统 28
3.5.1 HPC云存储系统的需求特点 28
3.5.2 Parastor200并行存储系统 29
3.5.3 DBstor 备份系统 31
3.6 管理调度系统 32
3.6.1 KVM系统 32
3.6.2 GridView集群管理调度系统 33
3.6.3 Gridview Clusportal 应用门户模块 42
3.6.4 Gridview Clusquota 集群配额模块 45
3.6.5 Clouview 虚拟机管理系统 47
3.7 Clusnap 集群容错系统 48
3.8 集群基础软件环境 52
3.8.1 编译环境 52
3.8.2 并行环境 54
3.8.3 数学库 56
第4章 机房方案设计 57
4.1 机柜尺寸和摆放要求 57
4.2 机房环境要求 60
4.3 供电和环境要求 60
第5章 项目实施及验收方案 61
5.1 项目团队 61
5.2 项目系统集成 62
5.3 实施时间进度表 63
5.4 项目管理 64
5.4.1 项目计划 64
5.4.2 项目跟踪和汇报 64
5.5 项目实施 64
5.5.1 硬件安装 64
5.5.2 操作系统 64
5.5.3 存储系统 65
5.5.4 集群网络环境 65
5.5.5 系统管理软件 65
5.5.6 并行库软件 65
5.5.7 资源调度软件 65
5.5.8 应用软件集成 65
5.5.9 系统备份 65
5.5.10 安装后验证 65
5.6 IT系统验收方案 66
5.6.1 功能性考核 66
5.6.2 性能考核 66
5.6.3 稳定性考核 66
第6章 项目培训方案 67
6.1 培训目标 67
6.2 培训方式、地点及人数 68
6.2.1 培训方式 68
6.2.2 培训地点 68
6.2.3 培训人数 68
6.3 高性能计算培训课程内容 68
第7章 售后服务方案 70
7.1 售后服务承诺 70
7.2 保修服务内容 71
7.3 服务流程和响应时间 72
7.3.1 报修形式和方法 72
7.3.2 响应时间 73
7.3.3 定期回访制度 73
7.4 专属的售后服务团队 74
7.5 备件支持承诺 75
第8章 相关产品介绍 76
8.1 曙光刀片服务器TC3600技术资料 76
8.2 曙光天阔服务器A620r-G 82
8.3 曙光DS600-F20磁盘阵列 84
第9章 附件 88
9.1 ***介绍 88
9.2 曙光HPC方案优势 89
9.2.1 市场占有率高 89
9.2.2 “SUMA”标准的完美体现 89
9.2.3 产品技术优势 90
9.2.4 成熟方案 90
9.2.5 售后服务 90
9.2.6 高级技术服务和用户应用支持 90
9.2.7 全面的用户培训 91
9.3 曙光高性能计算中心典型案例 91
9.3.1 典型案例一 *_**—“星云” 91
9.3.2 典型案例二 **_*—“魔方” 92
9.3.3 典型案例三 **_* 93
9.3.4 典型案例四 *_** 97
9.3.5 典型案例五 复旦大学高性能计算中心 98
9.4 曙光高性能计算中心成功案例列表 99
系统配置表与投标偏离表
系统配置表
曙光HPC云系统配置清单
序号名称技术规格单位数量计算峰值(TFLOPS)/存储容量(TB)
1
硬件部分
1.1
计算子系统
刀片平台
TC4600
标准19英寸5U机架式刀片机箱、可以支持14个计算刀片;1×管理模块,集成远程KVM和远程虚拟媒体;1×千兆网络交换模块,提供6个RJ45千兆接口;4×冗余热插拔散热模块;4×2000W电源(3+1冗余热拔插);
台
5
-
计算刀片
CB60-G15
2×Intel?Xeon?E5-2660 八核处器?(2.2GHz);8×4GB?DDR3?1333MHz;1×300G 2.5寸10000转SAS硬盘;1×56Gb?Infiniband?接口;2×1000M以太网接口;
片
70
19.712
SMP胖节点
曙光A840-G
4U机架式;?4*AMD?Opteron?6220?8核处理器?(3.0GHz);?256GB?DDR3 1333MHz?ECC?Register内存;?4*300GB?SAS热插拔硬盘(1块装系统,3块raid5);?2*千兆以太网网卡;1*Infiniband?HCA卡;冗余电源;?
台
2
0.768
虚拟机云系统
曙光I620r-G10
2U机架式;2×Intel?Xeon?E5-2660 八核处器?(2.2GHz);8×4GB?DDR3?1333MHz;1×300G 2.5寸10000转SAS硬盘;1×56Gb?Infiniband?接口;2×1000M以太网接口; 1*冗余电源;1*超薄DVD-RW;1*上架导轨;
台
8
-
集群容错模块
曙光CluSnap
4U标准机架式设备;基于硬件的系统级检查点功能;16G高速缓存;1*IB接口;8TB断点存储空间;Clusnap 控制软件;Clusnap web portal;
套
1
-
GPU计算节点
曙光W580I
4U机塔互换式;2*Intel?Xeon E5620?四核处理器(2.4GHz);24GB?DDR3?1333MHz;1*300GB?SAS热插拔硬盘;2*1000M以太网卡;4*Nvidia Tesla C2075 GPGPU;1*40Gb?Infiniband?接口;1*冗余电源;1*超薄DVD-RW;1*上架导轨;
台
4
8.24
1.2
存储子系统
Parastor200 并行存储系统(可用容量96TB,裸容量192TB)
P200_oStor(数据控制器)SATA
高性能64位处理器,24GB Cache,1个管理网络接口,1*Infiniband接口,提供高达48TB的SATA存储容量,,内嵌高性能数据存取引擎,并行处理所有客户端的数据访问请求,并支持多个数据控制器以副本方式容错;数量大于等于4
套
4
96
P200-oPara(索引控制器)***
专为均衡型应用而设计,同时兼顾海量小文件和大文件读写的应用需求,满足多种应用模式的数据存取需求,高性能64位处理器,48GB Cache,1个管理网络接口,1*Infiniband接口,Raid10模式保护的600GB高某某SAS存储,冗余电源,内嵌高性能数据索引引擎,管理客户端的并行访问,实现全局统一命名空间,并支持两个索引控制器以Active-Active方式运行
套
2
P200-MGR(管理控制器)***
高性能64位处理器,12GB Cache,2个管理网络接口,内嵌曙光并行存储管理软件,中文图形界面,包含系统配置、客户端管理、性能优化、监控告警等功能模块,实现存储系统的集中化部署、管理、监控和维护,提供命令行支持
台
1
-
曙光备份系统Dbstor(20T)
基础系统
:DBstor100 , 企业版备份存储系统,Linux OS ,含7个异构客户端;:备份;
套
1
扩容许可
:存储容量扩容单元(10T~20T);:备份;
套
1
容量许可
:曙光DBstor100 1TB 智能磁盘容量许可(带重复数据删除);此部件仅适用于购买过DBstor系列产品,在智能磁盘容量升级时使用。;:备份;
套
20
20
1.3
网络子系统
计算网络
IB 交换机
Mellanox FDR Infiniband交换机,1U 36个QSFP端口 单某某 无管理 含上架套件
台
8
-
Infiniband线缆
FreePort QSFP(QDR) IB线缆(QDR 4X QSFP-QSFP IB线缆)
根
160
-
管理网络
H3C 5120-48P-EI交换机
48端口交换机,10/100/1000baseT铜接口
台
1
-
防火墙
集群安全模块
TLFW-1000L 龙芯防火墙(***)
台
1
-
1.4
机柜子系统
机柜系统
曙光天潮标准机柜
标配2个PDU、双侧门,无电源箱,无监控液晶触摸一体机
个
7
-
曙光天潮标准电源箱
380V无监控电源箱
个
4
-
监控系统
曙光智能机柜监控系统
支持四台机柜温湿度远程监控
套
1
-
曙光集群监控中心
监控液晶触摸一体机,含LCD、触摸屏、监控主机各1套,安装在机柜前面板门上
套
1
-
控制台
曙光集群控制台
1U手动伸缩控制台(曙光17”液晶显示器、鼠标、键盘、8口切换器等)
套
1
-
视频切换系统
SKVM
SKVM IV Over IP(包含键盘鼠标)
台
1
-
CIM
KVM节点控制模块
个
16
-
2
软件部分
操作系统
Linux
SuSE?Linux?企业版?
套
1
-
集群管理系统
曙光GridView 2.5
GridView HPC版,支持系统部署、系统监控、集群管理、数据报表、统一告警、作业调度。basic portal,包含serial 和 mpi,支持互动作业,作业故障自动切换重启,文件传输,查看修改文件操作。
套
1
-
Gridview ClusQuota 集群配额系统,可支持用户机时配额管理,充值计费管理,用户信用管理等功能。(可选)
套
1
-
GridView 集群节能模块PowerConf 2.0(可选)
套
1
-
云管理系统
曙光Cloudview 1.0
云计算管理系统提供虚拟化管理、项目管理、系统资源管理、资源状态监控、告警管理、计费管理、用户管理等功能。
套
1
应用门户系统
曙光Gridview Clusportal 系统
CAE portal,包含Ansys,Fluent,Abaqus,CFX,Nastran,Fecko,James,Comsol共7个Portal。(根据用户应用选择)
套
1
Qchem(量子化学) Portal,包含vasp,Gaussian,siesta,CPMD,abinit,PWSCF共5个Portal。(根据用户应用选择)
套
1
MD(分子动力学) Portal,包含Namd,Gromacs,lammps,charmm,amber 共5个portal。(根据用户应用选择)
套
1
BIO(生命科学)Portal,包含mpiblast,dock共2个portal.(根据用户应用选择)
套
1
应用开发环境
编译器
GNU?编译器,支持C/C++?Fortran77/90Intel 编译器,支持C/C++ Fortran
套
1
-
数学库
MKL,BLAS、LAPACK、ScaLAPACK、FFTW
套
1
-
MPI并行环境
OpenMPI(支持Infiniband和以太网的MPI环境)
套
1
-
MPICH2(支持千兆以太网的MPI环境)
套
1
-
投标偏离表
序号
条目号
招标文件规格
投标规格
偏离
说明
1.?? ?
1
标书编号:0730-1142GD01M501/01
标书编号:0730-1142GD01M501/01
无偏离
2.?? ?
2
设备名称:高性能计算机系统
设备名称:高性能计算机系统
无偏离
3.?? ?
3
数 量: 1套
数 量: 1套
无偏离
需求分析
高性能计算的和大规模数据处理的应用
高性能计算作为一种先进的科研手段,在国内的应用发展很快,得到了普遍的重视,近年来国家投入逐年加大。
高性能计算的应用条件已经成熟,表现在:
价格相对低廉的高性能机群系统为高性能计算应用提供了物质基础;
高性能计算应用的技术门槛逐渐降低;
国家鼓励相关单位做高性能计算的研究,相关投入不断加大;
很多高校的科研人员使用高性能计算手段,取得了很好的成果。
计算机架构
由于各学科高性能计算应用软件种类繁多,各种软件的应用特点也各不相同,对计算资源的需求存在差别,方案的设计需要充分考虑到实际应用的特点。
作为高性能计算基础设施的核心,现代高性能计算机的发展从20世纪70年代的向量计算机开始,也已经有了30年的发展历程。先后出现了向某某、多处理器并行向某某、MPP大规模并行处理机、SMP对XX处理机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等多种主体的架构,并分别在不同的时期占据着应用的主流。
开放的Cluster集群系统具有较多的优势,已经占据了目前高性能计算机的主流位置,在TOP500中占据了约80%的份额,在中小规模的高性能计算系统中更是占据统治地位。
/
软件的并行特点
按照应用程序是否为并行程序,可以分为如下几类:
串行程序
程序运行中只有一个进程或线程。串行程序不能利用高性能计算机多个处理器的并行特点,但可以同时运行程序的多个任务或算例。
共享内存并行程序
程序运行中可以有多个进程或多个线程,可以使用多个处理器进行并行计算。但这种并行程序不能在分布式内存的机群系统上运行。
消息传递并行程序
消息传递式并行程序可以在所有架构的计算机上运行,可以同时使用数目很多的处理器,以加速程序的运行。
在高性能集群系统上,各种程序都可以运行,可以使用集群系统的一个CPU,一个节点或多个节点。
互连网络
高性能计算系统的互连网络包括计算网络,数据IO网络,管理监控网络等。
对于并行程序来说,进程之间的通信量也有着显著差别。对于进程间通信量较小的程序来说,使用高性价比的千兆以太网就可以满足需求。
对于通信密集型的并行程序,多个进程之间数据交换频繁,对互连网络的性能要求很高,要求具有较高的带宽和很低的延迟,千兆以太网就不能很好满足要求,需要使用高速网络,如Infiniband,其单向带宽达到20Gb,延迟小于2微秒。
//
从2010 TOP500 排行榜中我们可以看到,千兆以太网和Infiniband网成为高性能计算机网络互联的主流,尤其从性能份额上来说,Infiniband网更是占据了绝大部分的份额,所以在国际主流的较大系统中,Infiniband计算网逐渐成为主流。
高性能网络的基本性能如下
/
/
我们可以看到,对于千兆以太网,带宽达到112MB/s,延时非常高,达到47.57us。而使用万兆以太网,虽然带宽和延时均有显著提高,但是与Infiniband网相比,还是有较大差距。万兆以太网使用TCP/IP协议,带宽达到770MB,延时约为12us,使用Iwarp的RDMA协议,性能有一定提升,带宽达到1046MB/s,延时达到7.68us。
对于Infiniband网,DDR和QDR的带宽有较大差距,但是延时比较接近,分别为1.6us 和1.3us。值得注意的是,QDR的IP over IB的性能有了大幅的提升。
操作系统
高性能计算的操作系统由最初的Unix操作系统为主,目前随着集群架构的逐渐广泛和Linux操作系统的逐渐成熟,Linux操作系统逐渐成为高性能计算机的主流,占到80%以上的市场份额。
/
为了使得集群系统有较好的兼容性,可以配置多种操作系统,如Linux(Redhat,Suse),Windows HPC server等.
高性能计算中心需求特点与发展趋势
需求特点
高性能计算中心的建立往往是由专门的IT部门承担,同时对部门内部和外部,甚至向社会提供高性能计算硬件、软件和服务资源。所以高性能计算中心需要往往有以下特点:
应用种类多,特点复杂
高性能计算中心面向的服务对象非常广泛,往往是一个高校的各个学科、***。学科种类繁多,应用五花八门,由成熟商业软件、主流开源软件,还有众多自编程序。有MPI并行程序、多线程并行程序、GPU程序和众多的串行程序。对硬件资源的需求也千差万别,有计算密集、网络密集型、IO密集型和耦合密集型等等。
用户数量众多、离散度高
高性能计算中心的用户不同于一般课题组或院系独立承建的计算集群,用户数量巨大,一般都在数十到数百个,管理运维方与用户之间没有比较紧密的行政关系,缺乏有效的沟通环境,导致管理与维护难度加大
项目规模大、影响力强
由于高性能计算中心面对服务对象的数量巨大,所以资金预算较为充裕,项目规模较大,往往达到数十万亿次甚至百万亿次。
运维与管理难度大
由于用户数量巨大、离散度高,应用需求复杂、项目规模大、硬件软件资源丰富,给项目的管理 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 航空航天CAE仿真
2007.01
*_**
64个双路计算节点I610r-V,128个Xeon Nocona处理器;
教育网格项目:网格研究,高性能计算研究
2005.03
XX大学计算机系
28个双路双核计算节点A620r-E,56个Opteron双核处理器;
教育网格项目:网格研究,高性能计算研究
2006.01
**_*
64个双路计算节点I610r-V,128个Xeon Nocona处理器;
教育网格项目:网格研究,高性能计算研究
2005.08
XX工程大学计算机系
32个计算节点,64个Woodcrest双核处理器;
网格项目,做网格研究,高性能计算研究平台
2007.04
云南大学
32个4路计算节点R4280A,128颗Opteron CPU;
高校计算中心,运行物理化学,生物等领域的软件
2005.09
XX大学
64个计算节点,128个Opteron双核处理器,Myrinet2000网络
高校计算中心,主要运行数学,物理,化学,生物等领域的软件
2006.01
[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《某单位hpc云曙光方案设计-投标文件》的无排版文字预览,完整内容请下载
某单位hpc云曙光方案设计-投标文件由用户“huzi_sz”分享发布,转载请注明出处