BLAS(basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域.BLAS 1 级提供向量-向量运算,BLAS 2 级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2 级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2 级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2 级函数的访存带宽利用率.实验结果显示,BLAS 1 级函数的访存带宽利用率最高可达 95%,平均可达 90%以上,BLAS 2 级函数的访存带宽利用率最高可达 98%,平均可达 80%以上.与广泛使用的开源数学库GotoBLAS相比,BLAS 1、2 级函数分别取得了平均 18.78 倍和 25.96 倍的加速效果.LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果.