大学率先部署网格计算和高速网络佛罗里达大学的多学科小组将合作科研的计算速度和网络吞吐量提高了100倍。 执行概要佛罗里达大学,高性能计算中心和校园网格项目
遇到的业务问题
网络解决方案
业务成效
遇到的业务问题科研和教育(R&E)领域不仅需要高性能计算(HPC)和网络,而且不断推动着这些必备基础技术的发展。科研团队过去一直设计、部署和运行各自的基础设施,但是,这些资源孤井迫使科研人员和教师将更多精力和注意力从科学研究转移到计算方面,此外,随着系统和网络复杂度提高,在支持和成本方面的挑战也越来越严峻。鉴于这种情况,大学的信息技术(IT)团队已开始在当今的校园中扮演重要角色。 “多年前,佛罗里达大学就开始致力于协调HPC资源,其机构已从一个HPC委员会发展为HPC中心”,佛罗里达大学CIO Marc Hoit表示,“IT协调各科研小组和各系间的资源是十分重要的。我们能避免重复部署、发现共同需求,并提供一个功能远远超过任何独立集群或网络的基础设施。” 在建立HPC中心来突破校园中各机构界限时,物理系对共享计算网格和高速互联提出了更高需求。“模拟是科学研究中的一个重要组成部分”,佛罗里达大学物理系的科学家Paul Avery称,“在物理学领域,我们已在相当长的时间里采用共享计算,现在,我们看到其他许多学科——化学、生物和医药,以及地球科学等,都能借助计算网格和高速网络将模拟时间从数年缩短到几个星期。” 教职员工先行作出的努力得到了来自IT和管理层的支持,他们致力于解决向下一代校园网格计算模式迁移的问题。具体的要求包括实施计算和数据传输解决方案,以支持大规模模拟等。此外,校园网络和数据传输解决方案还必须连接到国家网络,以便全国乃至全球的R&E机构都能访问和参与合作科研项目。 “我们与思科的合作非常重要.… 我们的校园网络运行性能提高了100倍,而我们的合作成果将有助于未来推出商用解决方案。” ——Erik Deumens,佛罗里达大学HPC中心主任 网络解决方案佛罗里达大学校园网格计算计划是分阶段实施的:
赢得NSF批准对于第二阶段十分重要,但项目的整体成功还需要其他支持。佛罗里达大学已与其网络合作伙伴思科?开展了一个联合研究项目,投资于集群服务器阵列互联、高速集群间连接和到FLR及NLR的连接的设计、部署与研究。鉴于思科与该大学间有长期合作关系,而且在校园和FLR及NLR基础设施中都已部署了思科网络解决方案,此联合项目成功地运用了现有基础设施,提供了一个具有前所未有的可靠性、容量和性能的解决方案。 “我们与思科的合作十分重要”,佛罗里达大学HPC中心主任 Erik Deumens 表示,“通过我们的HPC和数据管理专家以及思科最优秀的网络架构师和工程师的合作,我们取得了非凡的成绩。我们的校园网络运行性能提高了100倍,而我们的合作成果将有助于未来推出商用解决方案。” “许多公司都表示它们愿与我们合作,但实际上它们都只是希望向我们销售产品”,Hoit说,“我们与思科之间是真正的合作关系。我们双方都投入了资金和资源,共同探索新型科研解决方案,以及最新技术在大型计算网格中的潜在用途。” 佛罗里达大学校园网格计算计划为科研人员参加开放式科学网格(OSG)提供了一个平台。OSG由部署和拥有共享基础设施的相关团体组成,在美国、南美和亚洲有大约40个站点。其高速网络目前连接着超过20,000个处理器,是支持多项科学研究的协作平台。OSG成员能够访问任何一个机构都无法单独承担的基础设施。佛罗里达大学及其合作伙伴思科,都能借助OSG来开展科学领域的生产和科研项目,测试新网格技术。 “我们全新的网格基础设施以及与其他高速R&E网络的连接大大提升了我们在整个领域中的电子科学地位。我们与思科一起学习到了如何设计和构建更为出色的解决方案。” —— Marc Hoit,佛罗里达大学首席信息官 业务成效第二阶段部署完成后,该大学即为多学科小组提供了更高计算能力,并允许它们在校园内外的集群资源间传输极为大型的数据集。这些全新的计算、存储和网络功能使广泛的多学科项目获得了巨大优势:
“校园网格计算和网络计划的非凡价值使科研人员和我们整个大学受益匪浅”,Hoit说,“我们在积极竞争,争取更多科研人员和资金。我们全新的网格基础设施以及与其他高速R&E网络的连接大大提升了我们在整个领域中的电子科学地位。该基础设施将为我们的科研项目提供更好的支持,使我们在HPC和存储方面实现领先。我们与思科一起学习到了如何设计和构建更为出色的解决方案。我们还了解到我们可在哪些方面进行节约,以及为保持领先,我们应该在哪些领域进行投资。” 高速网格改变了科研人员的工作方式。过去,数据传输是一个难以突破的瓶颈。科学家会简化问题,努力将解决问题所需的数据集限制在可管理范围之内。而现在,数据集可轻松扩展到数百TB,甚或达到PB级。校园网格的使用,以及通过高速互联访问更大型OSG及其他国家计算资源的能力,允许科学家使用完整数据集来解决问题,并在多个协作团队间共享大型数据集,以便通过多个视角、采用多种方式来处理问题。 “在我们的工作中,三分之二的工作涉及到合作——与其他科研人员连接非常重要”,Avery表示,“网络支持通信——视频会议和其他即时传输信息的方式。我们在高速校园网络方面取得的最新进展意味着,我们甚至能将最大型的数据集从一个地点传输到另一地点。如果能传输数据,就能获得更多技术经验,以了解数据、解决问题。这已经在医学领域得到了实际应用——医生能将一张0.5Gb的医学影像发送给国内另一位医生。通过为分子研究、环境研究或发现物种起源等提供这种方便的合作方式,我们就为在众多科学领域取得革命性的突破敞开了大门。” “对于物理等任何需要开展合作的领域来说,其发展速度都受限于它们的数字基础设施。我们与思科的合作使我们获得了支持极大型团队的网络功能…我们取得的进展将直接改变未来数年内的全球经济。” ——Paul Avery,佛罗里达大学人文和科学学院物理系物理学家 下一步在第三阶段,将为医疗科学中心和生命科学系部署网格计算和网络设施。这些团队在使用计算机方面不是非常专业,因此他们将使用一个类似Web的界面来在网格上部署项目。这些创新无需科研人员了解其内部架构和拓扑,使用简单,适用面更为广泛。使用此新界面,还能在不影响用户基本使用的情况下进行改动。该阶段正在进行开发,将于2007年底、2008年初在校园中部署。 技术实施图1. 校园网格的第一阶段和第二阶段 ![]() 在第二阶段,校园网格进行了扩展,安装了一个包含200个节点的新集群(参见图1)。每个节点包括2个双核AMD处理器,共800个处理器。InfiniBand服务器光纤阵列由14个Cisco SFS 7000系列InfiniBand服务器交换机构建(参见图2)。采用了2个Cisco SFS 7008 InfiniBand服务器交换机的核心交换层则将所有处理器与42TB存储相连。 图2. 高速互联 ![]() 该集群现在提供1.4 Gbps的处理器-存储吞吐量,未来有望提高至2.5 Gbps。这一出色性能是该大学和思科共同努力的结晶,能在一个规模前所未有的InfiniBand光纤阵列上部署并行文件系统,性能近似其硬件组件所能达到的最高吞吐量。 “此分布式数据模式简便、经济高效”,Avery称,“科学家能访问大量文件系统,且看起来它们就像在桌面一样,以相当于本地存储的速度运行。只需在一个地点保留一个数据集,就能传输到任意桌面,无需再拷贝数据或将数据分为多个子集。科研人员能够共享单一团队绝对无法支持的巨大存储网格。” “此分布式数据模式简便、经济高效”,Avery称,“科学家能访问大量文件系统,且看起来它们就像在桌面一样,以相当于本地存储的速度运行。只需在一个地点保留一个数据集,就能传输到任意桌面,无需再拷贝数据或将数据分为多个子集。科研人员能够共享单一团队绝对无法支持的巨大存储网格。” 数据传输需求推动了更高速网络、存储和CPU群的部署。在项目规模以惊人速度持续增长的情况下,佛罗里达大学校园网格应运而生。“对于物理等任何需要开展合作的领域来说,其发展速度都受限于它们的数字基础设施”,Avery表示,“我们与思科的合作使我们获得了支持极大型团队的网络功能。现在,数百甚至数千名科研人员都能同时参与一项试验和访问最终数据集。科研影响着许多行业,我们取得的进展将直接改变未来数年内的全球经济。” 产品清单高性能计算解决方案:
了解更多数据中心信息。 了解更多教育信息。 |


