LINPACK算法及其测试方法改进优秀doc资料

更新时间:2023-07-19 05:32:05 阅读: 评论:0


CN43—1258/TP ISSN 1007—130X
计算机工程与科学
COMPUTER ENGINEERING&SCIENCE
2021年第30卷第A1期 V01.30。No.A1,2021
文章编号:1007—130X(2021A1—0032’04
摄影论文LINPACK LINPACK and the 算法及其测试方法
Improvement of Its
改进’
醋泡黑豆的功效。乃st Method
司照凯。濮晨
Sl Zhao-kai。PU Chen
(江南计算技术研究所,江苏无锡214083
神奇的探险之旅
(Jiangnan Institute of Computing Technology.Wuxi 214083,China
摘要:HPL(High Performance LINPACK是一种用来测试计算机浮点性能的基准测试程序,通过求解稠密线性方 程组来评估计算机的浮点性能。本文分析了HPL的核心算法,并对HPL的计时系统进行改进,提出了一种新的基于计 时系统的测试方法,以达到快速完成LINPACK测试的目的,实验证明这种新的测试方法很有效。
创建文明城市图片experiment shows that this new way is helpful.
关键词:高性能;LINPACK;BLAS;MPl;L,U factorization
Key words:high performance LINPACK;BLAS;M[Pl;LU factorization
中图分类号:TP309文献标识码:A
1引言
LINPACK是当前评测计算机浮点性能的基准测试程 序,TOP500a是根据计算机的LINPACK性能来进行排 名。LINPACK根据矩阵规模可以分为100×100,1000×1000和N×N三种[“,本
文分析的High Pedormanee LIN-PACK(HPL属于N×N这一类。
HPL由八Petitet,R C Whaley,J.Dongarra和A Cleary开发,它通过求解一个稠密线性方程组(Random Den Linear System of Equations来测试计算机的LIN-PACK性能。本文使用的是HPL 1.0a,2004年发布的一 个版本。
2HPL理论基础
HPL通过求解一个稠密线性方程组来测试计算机的 LINPACK性能‘2|,如(1式所示:
Ax=b (1 其中,A=(粕N×N且为非奇异矩阵,b=(bl,bz,…,bN7,x =(x1,毪,…xN7,A与b均为已知,而x是待求的N维列 向量。
统计求解(1式的时间,并且利用(2式来计算浮点速 率:
R:—2N—3—/3鬲-—I-—3N2一/2×101GFLOPS (2 』HPL
式(2中2N3/3+3N272是浮点运算规模,T嘲,是 HPL执行时间。得到浮点速率R后,和峰值RpDuc相除,就 是这台计算机的LINPACK执行效率呀。
HPL在求解(1式的时候,先对矩阵A进行LU分解 (LU Factorization,得到一个上三角矩阵U和一个下三角 矩阵L,并且A等于这两个矩阵的乘积,以方便方程的求 解,这个过程就是LU分解。常用的因式分解方法还有QR 分解和Cholesky分解,由于HPL采用的是I。U分解,所以 我们重点分析一下HPL中LU分解的实现方式。
LU分解的形式有三种:Right-looking LU Faetoriza— tion、Left-looking LU Faetorization和Crout-looking LU Factorization,它们之间的区别主要体现在panel内LU分 解以及尾矩阵更新的执行顺序不同・
气鸣乐器HPI。中的I。U分解采用分块的形式实现,将数据分块 映射到处理器网格中,以达到均衡负载的目的。分块的大 小为NBX NB,同一列上的块组成一个panel。HPL实现
・收稿日期:2021-04-13;修订日期:2021—07一10
Address:Jiangnan Institute of Computing Technology,Wu】(i,Jiangsu 214083,P.R China
32
的时候先对panel内的数据进行LU分解,然后对尾矩阵进 行更新,也就是update操作。得到L矩阵和U矩阵之后, 再求出方程的解x,并且计算误差。对panel内的数据进行 LU分解是通过Panel Factorization(PFACT‘和Recursive Panel Factorization(RPFACT协作完成[4],PFACT和RP— FACT均有Right—looking LU Factorization、Left-looking LU Factorization和Crout-looking LU Factorization三种实 现形式。在后面的实验中我们发现,这些参数对LIN— PACK性能的影响不大。
HPL的运行还需要Message Passing Interface(MPI 和Basic Linear Algebra Subroutines(131,AS或者Vector Signal Image Processing Library(VSIPL的配合。MPI主 要用来进行各个处理器之间的通信,BLAS和VSIPL为 UJ分解提供各种矩阵或者向量运算函数。
3LINPACK测试方法
HPL执行的时间比较长,特别是当矩阵规模比较大的 时候,而且I,INPACK性能受各种软硬件因素以及HPL执 行参数的影响很大,所以想取得一个较佳的结果,需要有一 套合理的测试方法,不能盲目进行。
LINPACK性能主要受三个因素的影响。分别是硬件 因素、软件因素和HPL执行参数。
冬天雪花I硬件因素
硬件因素主要包括cache大小和存储系统结构、访存 速度、处理器性能、计算机系统的结构以及互连网络的性能 等,这些因素都会影响机器的LINPACK性能。
Ⅱ软件因素
软件因素主要指的是MPI和BLAS对HPL性能的影 响。MPI常用的有LAMMPI、MPICH和OpenMPI,这三 种MPI的性能不一样,有些针对一些特殊的结构(如 SNIP会进行优化。
BLAS也有Automatically Tuned Linear Algebra Soft— ware(ATLAS、GotoBLAS、Engineering and Scientific Sub-routine Library(ESSL、Intel Math Kernel Library(MKL 和AMD Core
Math Library(ACML,其中ESSL、MKL和 ACML分别由IBM、Intel和AMD开发,并且对各自的处 理器支持比较好。选择哪种BLAS,不仅要参考计算机硬 件类型,还要通过实验分析[3]。
施工现场管理规章制度编译器的选择也有很大关系,文献分析了两个版本的 gee编译器对LINPACK性能的影响。

本文发布于:2023-07-19 05:32:05,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1104471.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:性能   矩阵   计算机   分解   浮点   进行
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图