大学率先部署网格计算和高速网络

大学率先部署网格计算和高速网络

佛罗里达大学的多学科小组将合作科研的计算速度和网络吞吐量提高了100倍。

执行概要

佛罗里达大学,高性能计算中心和校园网格项目

  • 行业:高等教育
  • 地点:佛罗里达州格恩斯维尔

遇到的业务问题

  • 为多学科研究提供更快的计算和更权威性的结论
  • 在设计和实施方面进行合作,以合理成本创建一个全面、领先的解决方案
  • 提供领先设施,增强大学在全球科研和教育领域的竞争优势

网络解决方案

  • 第一阶段:通过采用思科服务器阵列交换机的计算网格提供高速互联
  • 第二阶段:部署第二个更为大型的网格,为校外科研网络提供高速校园网络和连接
  • 佛罗里达大学技术负责人和思科工程人员继续合作,为HPC环境研究和开发新解决方案

业务成效

  • 缩短模拟时间:校园计算能力和网络吞吐量提高100倍
  • 扩大了能够受益于共享HPC网格和网络的科研人员范围
  • HPC中心集中管理整合计算资源
  • 业界领先的设施,为科研人员加入开放式科学网格(OSG)提供更有力的支持

遇到的业务问题

科研和教育(R&E)领域不仅需要高性能计算(HPC)和网络,而且不断推动着这些必备基础技术的发展。科研团队过去一直设计、部署和运行各自的基础设施,但是,这些资源孤井迫使科研人员和教师将更多精力和注意力从科学研究转移到计算方面,此外,随着系统和网络复杂度提高,在支持和成本方面的挑战也越来越严峻。鉴于这种情况,大学的信息技术(IT)团队已开始在当今的校园中扮演重要角色。

“多年前,佛罗里达大学就开始致力于协调HPC资源,其机构已从一个HPC委员会发展为HPC中心”,佛罗里达大学CIO Marc Hoit表示,“IT协调各科研小组和各系间的资源是十分重要的。我们能避免重复部署、发现共同需求,并提供一个功能远远超过任何独立集群或网络的基础设施。”

在建立HPC中心来突破校园中各机构界限时,物理系对共享计算网格和高速互联提出了更高需求。“模拟是科学研究中的一个重要组成部分”,佛罗里达大学物理系的科学家Paul Avery称,“在物理学领域,我们已在相当长的时间里采用共享计算,现在,我们看到其他许多学科——化学、生物和医药,以及地球科学等,都能借助计算网格和高速网络将模拟时间从数年缩短到几个星期。”

教职员工先行作出的努力得到了来自IT和管理层的支持,他们致力于解决向下一代校园网格计算模式迁移的问题。具体的要求包括实施计算和数据传输解决方案,以支持大规模模拟等。此外,校园网络和数据传输解决方案还必须连接到国家网络,以便全国乃至全球的R&E机构都能访问和参与合作科研项目。

“我们与思科的合作非常重要.… 我们的校园网络运行性能提高了100倍,而我们的合作成果将有助于未来推出商用解决方案。”

——Erik Deumens,佛罗里达大学HPC中心主任

网络解决方案

佛罗里达大学校园网格计算计划是分阶段实施的:

  • 第一阶段——物理系内的通用科研网格。共享计算模式的开始建设得到了跨学科支持 – 包括物理系、人文和科学学院,以及CIO。在第一阶段,部署了由上述部门支持的集群和国际虚拟数据网格实验室(iVDGL)项目。
  • 第二阶段——工程学院。第一个HPC集群部署的成功激发了工程学院、管理层和CIO的更多关注和投入,实施了第二个更为大型的集群,它配备InfiniBand和千兆以太网互联,作为所有工程系的共享资源。该阶段包括另一个由教职员工推动的计划,为网格计算解决方案添加高速网络,并向国家科学基金会(NSF)提出为必备的网络基础设施投资的申请。

赢得NSF批准对于第二阶段十分重要,但项目的整体成功还需要其他支持。佛罗里达大学已与其网络合作伙伴思科?开展了一个联合研究项目,投资于集群服务器阵列互联、高速集群间连接和到FLR及NLR的连接的设计、部署与研究。鉴于思科与该大学间有长期合作关系,而且在校园和FLR及NLR基础设施中都已部署了思科网络解决方案,此联合项目成功地运用了现有基础设施,提供了一个具有前所未有的可靠性、容量和性能的解决方案。

“我们与思科的合作十分重要”,佛罗里达大学HPC中心主任 Erik Deumens 表示,“通过我们的HPC和数据管理专家以及思科最优秀的网络架构师和工程师的合作,我们取得了非凡的成绩。我们的校园网络运行性能提高了100倍,而我们的合作成果将有助于未来推出商用解决方案。”

“许多公司都表示它们愿与我们合作,但实际上它们都只是希望向我们销售产品”,Hoit说,“我们与思科之间是真正的合作关系。我们双方都投入了资金和资源,共同探索新型科研解决方案,以及最新技术在大型计算网格中的潜在用途。”

佛罗里达大学校园网格计算计划为科研人员参加开放式科学网格(OSG)提供了一个平台。OSG由部署和拥有共享基础设施的相关团体组成,在美国、南美和亚洲有大约40个站点。其高速网络目前连接着超过20,000个处理器,是支持多项科学研究的协作平台。OSG成员能够访问任何一个机构都无法单独承担的基础设施。佛罗里达大学及其合作伙伴思科,都能借助OSG来开展科学领域的生产和科研项目,测试新网格技术。

“我们全新的网格基础设施以及与其他高速R&E网络的连接大大提升了我们在整个领域中的电子科学地位。我们与思科一起学习到了如何设计和构建更为出色的解决方案。”

—— Marc Hoit,佛罗里达大学首席信息官

业务成效

第二阶段部署完成后,该大学即为多学科小组提供了更高计算能力,并允许它们在校园内外的集群资源间传输极为大型的数据集。这些全新的计算、存储和网络功能使广泛的多学科项目获得了巨大优势:

  • 允许科研人员访问校园网格中的数百个处理器,能够解决大型问题。在部署此项目前,一组科研人员如果不过载使用集群,是无法运行其模拟任务的。而这会影响其他团队,所以他们也无法运行模拟。而借助新设施,这完全不成问题,只需数分钟即能得到运行结果。在一小时中,他们能够获得大量运算结果。
  • 缩短最复杂节点的处理时间,为项目团队节约数周乃至数月时间,加速获得可能影响许多生命的运算结果。例如,一个项目致力于研究和治疗因蛋白质折叠异常而造成的疯牛病、阿尔茨海默氏症等。为充分了解情况,获得突破性进展,项目团队必须进行蛋白质折叠模拟,现在,一次模拟在不到10周内即可完成,而使用过去的计算平台,这种模拟就需要一年多的时间。
  • 能为更多科研团队提供访问,而不再仅限于那些拥有最精密的HPC系统的团队。
  • 继续提高易用性,除非常精通计算机、率先使用集群和网格计算的专家外,允许越来越多的科学家使用该技术。

“校园网格计算和网络计划的非凡价值使科研人员和我们整个大学受益匪浅”,Hoit说,“我们在积极竞争,争取更多科研人员和资金。我们全新的网格基础设施以及与其他高速R&E网络的连接大大提升了我们在整个领域中的电子科学地位。该基础设施将为我们的科研项目提供更好的支持,使我们在HPC和存储方面实现领先。我们与思科一起学习到了如何设计和构建更为出色的解决方案。我们还了解到我们可在哪些方面进行节约,以及为保持领先,我们应该在哪些领域进行投资。”

高速网格改变了科研人员的工作方式。过去,数据传输是一个难以突破的瓶颈。科学家会简化问题,努力将解决问题所需的数据集限制在可管理范围之内。而现在,数据集可轻松扩展到数百TB,甚或达到PB级。校园网格的使用,以及通过高速互联访问更大型OSG及其他国家计算资源的能力,允许科学家使用完整数据集来解决问题,并在多个协作团队间共享大型数据集,以便通过多个视角、采用多种方式来处理问题。

“在我们的工作中,三分之二的工作涉及到合作——与其他科研人员连接非常重要”,Avery表示,“网络支持通信——视频会议和其他即时传输信息的方式。我们在高速校园网络方面取得的最新进展意味着,我们甚至能将最大型的数据集从一个地点传输到另一地点。如果能传输数据,就能获得更多技术经验,以了解数据、解决问题。这已经在医学领域得到了实际应用——医生能将一张0.5Gb的医学影像发送给国内另一位医生。通过为分子研究、环境研究或发现物种起源等提供这种方便的合作方式,我们就为在众多科学领域取得革命性的突破敞开了大门。”

“对于物理等任何需要开展合作的领域来说,其发展速度都受限于它们的数字基础设施。我们与思科的合作使我们获得了支持极大型团队的网络功能…我们取得的进展将直接改变未来数年内的全球经济。”

——Paul Avery,佛罗里达大学人文和科学学院物理系物理学家

下一步

在第三阶段,将为医疗科学中心和生命科学系部署网格计算和网络设施。这些团队在使用计算机方面不是非常专业,因此他们将使用一个类似Web的界面来在网格上部署项目。这些创新无需科研人员了解其内部架构和拓扑,使用简单,适用面更为广泛。使用此新界面,还能在不影响用户基本使用的情况下进行改动。该阶段正在进行开发,将于2007年底、2008年初在校园中部署。

技术实施

图1. 校园网格的第一阶段和第二阶段

在第二阶段,校园网格进行了扩展,安装了一个包含200个节点的新集群(参见图1)。每个节点包括2个双核AMD处理器,共800个处理器。InfiniBand服务器光纤阵列由14个Cisco SFS 7000系列InfiniBand服务器交换机构建(参见图2)。采用了2个Cisco SFS 7008 InfiniBand服务器交换机的核心交换层则将所有处理器与42TB存储相连。

图2. 高速互联

该集群现在提供1.4 Gbps的处理器-存储吞吐量,未来有望提高至2.5 Gbps。这一出色性能是该大学和思科共同努力的结晶,能在一个规模前所未有的InfiniBand光纤阵列上部署并行文件系统,性能近似其硬件组件所能达到的最高吞吐量。

“此分布式数据模式简便、经济高效”,Avery称,“科学家能访问大量文件系统,且看起来它们就像在桌面一样,以相当于本地存储的速度运行。只需在一个地点保留一个数据集,就能传输到任意桌面,无需再拷贝数据或将数据分为多个子集。科研人员能够共享单一团队绝对无法支持的巨大存储网格。”

“此分布式数据模式简便、经济高效”,Avery称,“科学家能访问大量文件系统,且看起来它们就像在桌面一样,以相当于本地存储的速度运行。只需在一个地点保留一个数据集,就能传输到任意桌面,无需再拷贝数据或将数据分为多个子集。科研人员能够共享单一团队绝对无法支持的巨大存储网格。”

数据传输需求推动了更高速网络、存储和CPU群的部署。在项目规模以惊人速度持续增长的情况下,佛罗里达大学校园网格应运而生。“对于物理等任何需要开展合作的领域来说,其发展速度都受限于它们的数字基础设施”,Avery表示,“我们与思科的合作使我们获得了支持极大型团队的网络功能。现在,数百甚至数千名科研人员都能同时参与一项试验和访问最终数据集。科研影响着许多行业,我们取得的进展将直接改变未来数年内的全球经济。”

产品清单

高性能计算解决方案:

  • Cisco SFS 7008 InfiniBand服务器交换机
  • Cisco SFS 3012 多光纤阵列服务器网关
  • Cisco Catalyst 6500系列交换机
  • Cisco MDS 9000存储阵列交换机
  • Cisco 7600系列路由器

了解更多数据中心信息。


了解更多教育信息。


联系我们