我的个人程序cpufp最近加入了对LoongArch64的支持,并且成功测试了32位和64位的浮点运算峰值:
3A6000的四个向量流水线并不全是浮点乘加,而是两个浮点乘加和两个浮点加法的组合。这个乘加的比例(1:2)不知道在什么应用上可以用到?一般做计算密集型应用如BLAS,基本都需要1:1的乘加比例。
另外龙芯没有公布SIMD指令集文档,不知道除了32位和64位浮点,有没有为AI设计指令?比如16位浮点的乘加指令或者8bit定点的dp4a类指令。
具体的benchmark页面如下:
loongarch64_benchmark