龙芯向量指令的效率问题

LEI-Xiongwei

我使用龙芯向量指令改写ARM NEON的代码，但发现其用时远远超过ARM。比如可以相对应的__lasx_xvreplgr2vr_h指令和vdupq_n_s16指令，在我的测试里面，前者要用上上百ns，后者只需几十ns，其他命令也是类似状况，即便我使用的龙芯设备UNIX bench分数远高于我使用的ARM设备，是我的计时方式的问题吗？

LEI-Xiongwei

@xen0n @xry111

本站文章除其作者特殊声明外，一律采用CC BY-NC-SA 4.0许可协议进行授权。
进行转载或二次创作时务必以相同协议进行共享，严禁用于商业用途。