图形工作站、集群应用方案
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
全球领先的高端图形工作站供应商

免费测试 热线 : 400-7056-800 【 为任何应用提供 最快计算设备 如不符,退货】【最新报价】【选购指南】【京东商城】



企业通用模版网站

  • 科研团队全能超算平台25v1
  • 超高分拼接 数字孪生
  • 科学计算MatLAB工作站24
  • 地质建模 油藏模拟工作站
  • 工业CT扫描 机器视觉计算
  • 电力系统关键应用配置24
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
  • 送无人机啦 8核6.4GHz  96核4.8GHz 加速改装 

  • 高性能集群 虚拟并行计算 芯片设计 光学仿真 

  • 蛋白质预测 生物信息 冷冻电镜 材料模拟

  • RSS订阅
  • 理科计算推荐
  • 仿真计算最快最完美25v1
  • 电磁仿真单机与集群25v1
  • 航拍实景建模单机集群
  • 遥感图像处理工作站集群
  • 4K/8K剪辑特效调色24v1
  • AI大模型工作站集群25v1
  • Abaqus硬件配置大全24v3
  • CST电磁仿真工作站25v1
  • 多物理场仿真单机与集群
  • 流体/空气动力学仿真25v1
  • 量子化学 分子动力模拟
  • 三维设计24v2  3D打印

 

您的位置:UltraLAB图形工作站方案网站 > 科学工程计算 > 光学设计与仿真 > 面向系统管理员和软件用户的英特尔® 集群工具

面向系统管理员和软件用户的英特尔® 集群工具

时间:2008-11-22 15:29:00   来源:UltraLAB图形工作站方案网站   人气:6778 作者:admin

现代 HPC 集群的功能时常通过诸如 StarCD* 或 Fluent* 等软件提供给最终用户(StarCD* 或 Fluent* 软件是计算流体力学(CFD)领域中的两个典型应用)。只要一切工作正常进行,或至少按预期进行,设置计算的工程师和确保集群流畅工作的管理员实际上都不知道二进制包的哪些程序正在继续执行所有计算。

但遗憾的是,事情往往不那么顺利。此时,问题“什么正在进行?”成为回答“我如何解决此问题?”的基础。如果您无法回答前一个问题,您所做的一切就如同在黑暗中摸索。即使您能够解决此问题,您仍可能不能够确切了解修补奏效的原因,也不知此修补是否只是一个权宜之计。本文将讨论英特尔集群工具,特别是英特尔® 跟踪采集器、英特尔® 跟踪分析器和英特尔® MPI 性能指标评测,这些工具应使在二进制黑暗中摸索的您看到一些光明。

客户访问时,作者遇到了在千兆位以太网交换机上运行 StarCD* 的 Hewlett-Packard (HP)*/英特尔® 安腾® 2 1.5 GHz 集群问题。客户对系统的性能极为不满,指出它们既不能高效地运行简单的 32 线程工作,也不能重现购买之时产生的性能评测结果。在拜访客户期间,作者很快证实,客户的主要问题在于每个节点的 CPU 利用率,CPU 利用率仅为 60% 左右,而不是常用标准 95-100%

客户和作者就简单性能指标评测(四百万个单元,不含知识产权)迅速达成一致。令人庆幸的是,性能指标评测表明其现场表现相同,这说明是系统问题而非软件本身的问题。作者和 Hewlett-Packard 证实,在英特尔或 HP 现场所安装的类似于英特尔® 安腾® 的系统不会出现此类问题。

由于此类问题与使用的 MPI 实现无关,因此作者假定此行为由网络硬件中的某个问题引起。下一步将是调查 StarCD 的通信结构。本文所选择的工具是英特尔® 跟踪采集器(ITC)和英特尔® 跟踪分析器。幸运的是,
英特尔公司可提供支持 ITC 的 StarCD 版本。由于 StarCD 的行为仅依赖于数据集和程序版本,因此我们可以在任何可用的硬件上运行此测试。虽然执行时间因硬件而异,但通信结构并不变。此调查有三个重大发现:

1. StarCD 执行相当多的通信调用——如 本图所示。即使在 0.1 秒时间帧上,该线程也一直在交换数据。

2. 所使用的主要 MPI 功能为alltoall调用。

3. 虽然在大约 13 个节点上的负载均衡的效果并不理想,但它能够顺利运行,这样,集群的工作效率至少应能达到 90%。

上述发现表明,我们可以很轻松地测试集群上的 MPI 行为,而无需依赖 StarCD 并借助其它依赖关系。所选择的工具为英特尔 MPI 性能指标评测工具,该工具可自动生成可靠的测量结果。HP 在其自己的集群上测量最佳执行时间,在消息大小为 35 kb 的情况下使用 alltoall 时,得到大约 3µs 的延迟时间。

在客户现场所进行的测量结果是错误的,该结果表明,性能仅实现约一半(如图中的基本结果所示)。

更改交换机配置并未获得真正的改进(如图真正的交换机结果所示)。

查看集群中使用的电缆后才获得了重大突破。所有 63 个节点均连接到包含 5 个插件的交换机。用户通常为一项工作保留 8 个或 16 个节点(每个节点使用 2 个 CPU),例如节点 1 到 16。正如您从布局中所看到的那样,此配置迫使负载仅进入一两个插件,因此造成了交换机的超载。

根据作者的建议,仅对电缆布局稍做更改,就解决了此问题,并极大提高了集群内的响应速度(如上图 带区换换机 所示,请点击 此处)。

通过更详细地分析消息结构,用户可以发现哪些大小的消息导致了集群中的大多数延迟。目前,英特尔® 跟踪分析器未实现此类图表,但其信息可以直接从跟踪文件中提取。在首先将数据转换为 ASCII 格式之后,使用 xstftool (该工具随英特尔® 跟踪采集器一同提供):  #p#page_title#e#

xstftool FILE.stf --dump

 

该操作将输出类似于如下的内容:
1998984 EXCHEXT CPU 0:1 DOWNTO "MPI:MPI_Bcast"
1998984 GLOBALOP MPI_Bcast ON 0:1 COM COMM_WORLD(2) ROOT 1 SENT 4 RECVD 0 DURATION 499
1999149 EXCHEXT CPU 0:3 UPTO "Application:User_Code"

 

第一个条目提供了时间戳,其余的条目都很容易理解。在此案例中,我们处理了从应用程序到 MPI_Broadcast 的调用,从组 0 出发,经线程 1 到 4 个接收器,长度为 4 字节,持续时间 499 刻度总数,最后返回到应用程序(第 3 行)。

由于所需数据可能因应用程序而异,因此必须编写程序或脚本来解析输出。

作者分析了以上使用的 StarCD 性能指标评测,以便了解 MPI_alltoall 调用耗费的总时间在消息大小上的分布。

此图表显示非常小的消息占用了约 40% 的运行时间,大小超过 100 kb 的消息占用了另外的 40% 运行时间。

此类信息可用于进一步优化网络和交换机,不过,从此案例中可以看到,同时优化非常大和非常小的消息可能极其困难。
总结
虽然英特尔® 集群工具是为软件开发人员开发的,但随着不断发展,其运用范围已远远超出了这个限制。即使不访问源代码,您也可以通过这些工具深入剖析 MPI 程序的基本消息结构,并在调试问题上获得帮助。

此用例演示了一个简单示例,使系统管理员和软件用户了解到,他们可以在日常工作中获得该工具的极大帮助。在用户看来,应用程序(特别是工作的负载平衡)的工作十分正常。集群管理员能了解到 StarCD 正在执行的通信量,从而了解网络层对性能的重要性。如果网络本身成为瓶颈,则速度更快的 CPU 或扩大的内存也爱莫能助。

借助于 MPI 性能指标评测,管理员能以比运行原始 StarCD 快得多的速度建立应用程序行为的模型。如果必须改变参数才能找到最佳解决方案,这将成为一个问题,例如以最低级别配置网络的情况。

所有这些数据点均不包含任何特定的知识产权(IP),因此可以与第三方交换。在已将一些职能(如 IT 管理)外包的环境中,此功能将变得更加重要。

现代 HPC 系统的使用和管理越来越普遍,而且每个系统都有独特之处,并会产生特有的问题。人们需要用于调试这些问题的工具,如何解决您的组织遇到的特定问题呢?使用英特尔® 集群工具不失为一条解决之道。
关闭此页
上一篇:高性能计算Linux占优 Windows紧追其后
下一篇:没有了

相关文章

  • 05/19LiDAR点云处理主要计算环节分析及最快硬件配置
  • 05/19卫星/无人机影像/空三/测绘/LiDAR点云处理计算分析及最全最新工作站/便携/集群硬件配置推荐25v2
  • 05/19卫星/无人机影像/空三/测绘/LiDAR点云处理--最快工作站/便携/集群硬件配置推荐25v2
  • 05/13体系化仿真计算设备系统组成分析及工作站/服务器/存储配置推荐
  • 05/12AMD 第 6 代 EPYC Venice:发现 CCD 配置和线程性能
  • 05/12UltraLAB定制图形工作站产品介绍2025v2
  • 05/09Xeon6代+4块GPU--图灵超算工作站GT450M介绍
  • 05/09汽车风阻测试模拟分析、算法,及服务器/工作站计算设备硬件配置推荐
  • 04/26高频交易(HFT)应用分析、算法,服务器/工作站硬件配置推荐
  • 04/25衍生品定价与风险对冲应用分析、算法,及服务器工作站硬件配置

工程技术(工科)专业工作站/服务器硬件配置选型

    左侧广告图2

新闻排行榜

  • 1最快光学设计与模拟计算工作站硬件配置2022v2
  • 22024年光学设计工作站完美硬件配置推荐
  • 364位Windows7平台下MPICH2并行计算环境的搭建及Fortran90并行程序的编译运行
  • 4如何选择工作站硬件配置来运行Zemax OpticStudio
  • 5Lumerical FDTD 工作站/集群/云架构硬件配置规格
  • 6Rocks集群管理软件安装过程
  • 7光学设计主要算法及计算特点完整介绍
  • 8基于Gaussian 03 的计算化学集群系统方案
  • 9基于LucidShape、LucidShape CAA V5 和 LucidDrive系统配置要求
  • 10LightTools 硬件/操作系统要求

最新信息

  • Ansys Lumerical FDTD算法计算特点分析及计算设备硬件配置推荐
  • ansys speos软件应用、算法,对工作站/服务器硬件配置要求
  • 2024年光学设计工作站完美硬件配置推荐
  • 光学设计主要算法及计算特点完整介绍
  • 运行TracePro 的最佳计算机/工作站/PC配置
  • 最快光学设计与模拟计算工作站硬件配置2022v2
  • 基于LucidShape、LucidShape CAA V5 和 LucidDrive系统配置要求
  • Lumerical FDTD 工作站/集群/云架构硬件配置规格

应用导航:

工作站产品中心 京东商城 中关村商城 淘宝商城 超高分可视化商城 便携工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 网站统计

公司简介-业务咨询-招聘英才-资料下载-UM-

本网站所有原创文字和图片内容归西安坤隆计算机科技有限公司版权所有,未经许可不得转载
陕ICP备16019335号 陕公网安备61010302001314号
Copyright © 2008-2023 , All Rights Reserved

首页
热线
商城
分类
联系
顶部