我使用龙芯向量指令改写ARM NEON的代码,但发现其用时远远超过ARM。比如可以相对应的__lasx_xvreplgr2vr_h指令和vdupq_n_s16指令,在我的测试里面,前者要用上上百ns,后者只需几十ns,其他命令也是类似状况,即便我使用的龙芯设备UNIX bench分数远高于我使用的ARM设备,是我的计时方式的问题吗?
@xen0n @xry111
本站文章除其作者特殊声明外,一律采用CC BY-NC-SA 4.0许可协议进行授权。进行转载或二次创作时务必以相同协议进行共享,严禁用于商业用途。