Compiler Explorer

Source code

load_i32_stride3_vf32:                  # @load_i32_stride3_vf32
        vbroadcastsd    ymm12, qword ptr [rip + .LCPI0_0] # ymm12 = [21474836482,21474836482,21474836482,21474836482]
        vpermps ymm0, ymm12, ymm0
        vblendps        ymm5, ymm4, ymm7, 146           # ymm5 = ymm4[0],ymm7[1],ymm4[2,3],ymm7[4],ymm4[5,6],ymm7[7]
        vmovaps ymm13, ymmword ptr [rip + .LCPI0_1] # ymm13 = <0,3,6,1,4,7,u,u>
        vpermps ymm5, ymm13, ymm5
        vblendps        ymm0, ymm5, ymm0, 192           # ymm0 = ymm5[0,1,2,3,4,5],ymm0[6,7]
        vpermps ymm0, ymm12, ymm10
        vblendps        ymm5, ymm14, ymm6, 146          # ymm5 = ymm14[0],ymm6[1],ymm14[2,3],ymm6[4],ymm14[5,6],ymm6[7]
        vpermps ymm5, ymm13, ymm5
        vblendps        ymm0, ymm5, ymm0, 192           # ymm0 = ymm5[0,1,2,3,4,5],ymm0[6,7]
        vpermps ymm0, ymm12, ymm1
        vblendps        ymm9, ymm2, ymm3, 146           # ymm9 = ymm2[0],ymm3[1],ymm2[2,3],ymm3[4],ymm2[5,6],ymm3[7]
        vpermps ymm9, ymm13, ymm9
        vblendps        ymm0, ymm9, ymm0, 192           # ymm0 = ymm9[0,1,2,3,4,5],ymm0[6,7]
        vmovaps ymm11, ymm11
        vmovaps ymm4, ymm15
        vblendps        ymm15, ymm11, ymm15, 146        # ymm15 = ymm11[0],ymm15[1],ymm11[2,3],ymm15[4],ymm11[5,6],ymm15[7]
        vpermps ymm13, ymm13, ymm15
        vmovaps ymm8, ymm8
        vpermps ymm12, ymm12, ymm8
        vblendps        ymm0, ymm13, ymm12, 192         # ymm0 = ymm13[0,1,2,3,4,5],ymm12[6,7]
        vblendps        ymm12, ymm2, ymm3, 36           # ymm12 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
        vmovaps ymm3, ymmword ptr [rip + .LCPI0_3] # ymm3 = <1,4,7,2,5,u,u,u>
        vpermps ymm12, ymm3, ymm12
        vbroadcastf128  ymm0, xmmword ptr [rip + .LCPI0_2] # ymm0 = [0,0,3,6,0,0,3,6]
                                        # ymm0 = mem[0,1,0,1]
        vpermps ymm15, ymm0, ymm1
        vmovaps ymm13, ymm1
        vblendps        ymm12, ymm12, ymm15, 224        # ymm12 = ymm12[0,1,2,3,4],ymm15[5,6,7]
        vblendps        ymm15, ymm14, ymm6, 36          # ymm15 = ymm14[0,1],ymm6[2],ymm14[3,4],ymm6[5],ymm14[6,7]
        vpermps ymm15, ymm3, ymm15
        vpermps ymm5, ymm0, ymm10
        vblendps        ymm15, ymm15, ymm5, 224         # ymm15 = ymm15[0,1,2,3,4],ymm5[5,6,7]
        vblendps        ymm5, ymm1, ymm7, 36            # ymm5 = ymm1[0,1],ymm7[2],ymm1[3,4],ymm7[5],ymm1[6,7]
        vpermps ymm5, ymm3, ymm5
        vpermps ymm9, ymm0, ymm2
        vblendps        ymm5, ymm5, ymm9, 224           # ymm5 = ymm5[0,1,2,3,4],ymm9[5,6,7]
        vblendps        ymm9, ymm11, ymm4, 36           # ymm9 = ymm11[0,1],ymm4[2],ymm11[3,4],ymm4[5],ymm11[6,7]
        vpermps ymm3, ymm3, ymm9
        vpermps ymm0, ymm0, ymm8
        vblendps        ymm0, ymm3, ymm0, 224           # ymm0 = ymm3[0,1,2,3,4],ymm0[5,6,7]
        vblendps        ymm3, ymm6, ymm14, 36           # ymm3 = ymm6[0,1],ymm14[2],ymm6[3,4],ymm14[5],ymm6[6,7]
        vmovaps ymm9, ymmword r [rip + .LCPI0_4] # ymm9 = <2,5,0,3,6,u,u,u>
        vpermps ymm3, ymm9, ymm3
        vpermilps       ymm10, ymm10, 196       # ymm10 = ymm10[0,1,0,3,4,5,4,7]
        vpermpd ymm10, ymm10, 196               # ymm10 = ymm10[0,1,0,3]
        vblendps        ymm3, ymm3, ymm10, 224          # ymm3 = ymm3[0,1,2,3,4],ymm10[5,6,7]
        vblendps        ymm6, ymm7, ymm1, 36            # ymm6 = ymm7[0,1],ymm1[2],ymm7[3,4],ymm1[5],ymm7[6,7]
        vpermps ymm6, ymm9, ymm6
        vpermilps       ymm7, ymm2, 196         # ymm7 = ymm2[0,1,0,3,4,5,4,7]
        vpermpd ymm7, ymm7, 196                 # ymm7 = ymm7[0,1,0,3]
        vblendps        ymm6, ymm6, ymm7, 224           # ymm6 = ymm6[0,1,2,3,4],ymm7[5,6,7]
        vblendps        ymm2, ymm4, ymm11, 36           # ymm2 = ymm4[0,1],ymm11[2],ymm4[3,4],ymm11[5],ymm4[6,7]
        vpermps ymm2, ymm9, ymm2
        vpermilps       ymm1, ymm8, 196         # ymm1 = ymm8[0,1,0,3,4,5,4,7]
        vpermpd ymm1, ymm1, 196                 # ymm1 = ymm1[0,1,0,3]
        vblendps        ymm1, ymm2, ymm1, 224           # ymm1 = ymm2[0,1,2,3,4],ymm1[5,6,7]
        vblendps        ymm2, ymm2, ymm2, 36 # 32-byte Folded Reload
                                        # ymm2 = ymm2[0,1],mem[2],ymm2[3,4],mem[5],ymm2[6,7]
        vpermps ymm2, ymm9, ymm2
        vpermilps       ymm4, ymm13, 196        # ymm4 = ymm13[0,1,0,3,4,5,4,7]
        vpermpd ymm4, ymm4, 196                 # ymm4 = ymm4[0,1,0,3]
        vblendps        ymm2, ymm2, ymm4, 224           # ymm2 = ymm2[0,1,2,3,4],ymm4[5,6,7]