Compiler Explorer

Source code

.text
        .intel_syntax noprefix
        .file   "example.ll"
        .globl  load_i64_stride3_vf16           # -- Begin function load_i64_stride3_vf16
        .p2align        4, 0x90
        .type   load_i64_stride3_vf16,@function
load_i64_stride3_vf16:                  # @load_i64_stride3_vf16
# %bb.0:
        vmovdqa ymm3, ymmword ptr [rdi + 224]
        vmovdqa ymm6, ymmword ptr [rdi + 192]
        vmovdqa ymm5, ymmword ptr [rdi + 320]
        vmovdqa ymm7, ymmword ptr [rdi + 288]
        vmovdqa ymm8, ymmword ptr [rdi + 32]
        vmovdqa ymm9, ymmword ptr [rdi]
        vmovdqa ymm10, ymmword ptr [rdi + 128]
        vmovdqa ymm11, ymmword ptr [rdi + 96]
        vinserti128     ymm0, ymm0, xmmword ptr [rdi + 160], 1
        vpermq  ymm1, ymm11, 236                # ymm1 = ymm11[0,3,2,3]
        vpblendd        ymm1, ymm1, ymm10, 48           # ymm1 = ymm1[0,1,2,3],ymm10[4,5],ymm1[6,7]
        vpblendd        ymm13, ymm1, ymm0, 192          # ymm13 = ymm1[0,1,2,3,4,5],ymm0[6,7]
        vinserti128     ymm1, ymm0, xmmword ptr [rdi + 64], 1
        vpermq  ymm2, ymm9, 236                 # ymm2 = ymm9[0,3,2,3]
        vpblendd        ymm2, ymm2, ymm8, 48            # ymm2 = ymm2[0,1,2,3],ymm8[4,5],ymm2[6,7]
        vpblendd        ymm14, ymm2, ymm1, 192          # ymm14 = ymm2[0,1,2,3,4,5],ymm1[6,7]
        vinserti128     ymm2, ymm0, xmmword ptr [rdi + 352], 1
        vpermq  ymm4, ymm7, 236                 # ymm4 = ymm7[0,3,2,3]
        vpblendd        ymm4, ymm4, ymm5, 48            # ymm4 = ymm4[0,1,2,3],ymm5[4,5],ymm4[6,7]
        vpblendd        ymm15, ymm4, ymm2, 192          # ymm15 = ymm4[0,1,2,3,4,5],ymm2[6,7]
        vinserti128     ymm4, ymm0, xmmword ptr [rdi + 256], 1
        vpermq  ymm12, ymm6, 236                # ymm12 = ymm6[0,3,2,3]
        vpblendd        ymm12, ymm12, ymm3, 48          # ymm12 = ymm12[0,1,2,3],ymm3[4,5],ymm12[6,7]
        vpblendd        ymm4, ymm12, ymm4, 192          # ymm4 = ymm12[0,1,2,3,4,5],ymm4[6,7]
        vpblendd        ymm6, ymm6, ymm3, 240           # ymm6 = ymm6[0,1,2,3],ymm3[4,5,6,7]
        vpalignr        ymm3, ymm3, ymm6, 8             # ymm3 = ymm6[8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4,5,6,7],ymm6[24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20,21,22,23]
        vpbroadcastq    ymm6, qword ptr [rdi + 272]
        vpblendd        ymm3, ymm3, ymm6, 192           # ymm3 = ymm3[0,1,2,3,4,5],ymm6[6,7]
        vpblendd        ymm6, ymm11, ymm10, 240         # ymm6 = ymm11[0,1,2,3],ymm10[4,5,6,7]
        vpalignr        ymm6, ymm10, ymm6, 8            # ymm6 = ymm6[8,9,10,11,12,13,14,15],ymm10[0,1,2,3,4,5,6,7],ymm6[24,25,26,27,28,29,30,31],ymm10[16,17,18,19,20,21,22,23]
        vpbroadcastq    ymm10, qword ptr [rdi + 176]
        vpblendd        ymm6, ymm6, ymm10, 192          # ymm6 = ymm6[0,1,2,3,4,5],ymm10[6,7]
        vpblendd        ymm9, ymm9, ymm8, 240           # ymm9 = ymm9[0,1,2,3],ymm8[4,5,6,7]
        vpalignr        ymm8, ymm8, ymm9, 8             # ymm8 = ymm9[8,9,10,11,12,13,14,15],ymm8[0,1,2,3,4,5,6,7],ymm9[24,25,26,27,28,29,30,31],ymm8[16,17,18,19,20,21,22,23]
        vpbroadcastq    ymm9, qword ptr [rdi + 80]
        vpblendd        ymm8, ymm8, ymm9, 192           # ymm8 = ymm8[0,1,2,3,4,5],ymm9[6,7]
        vpblendd        ymm7, ymm7, ymm5, 240           # ymm7 = ymm7[0,1,2,3],ymm5[4,5,6,7]
        vpalignr        ymm5, ymm5, ymm7, 8             # ymm5 = ymm7[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm7[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]
        vpbroadcastq    ymm7, qword ptr [rdi + 368]
        vpblendd        ymm5, ymm5, ymm7, 192           # ymm5 = ymm5[0,1,2,3,4,5],ymm7[6,7]
        vmovaps xmm7, xmmword ptr [rdi + 112]
        vblendps        xmm7, xmm7, xmmword ptr [rdi + 128], 12 # xmm7 = xmm7[0,1],mem[2,3]
        vpermpd ymm9, ymmword ptr [rdi + 160], 196 # ymm9 = mem[0,1,0,3]
        vblendps        ymm7, ymm7, ymm9, 240           # ymm7 = ymm7[0,1,2,3],ymm9[4,5,6,7]
        vmovaps xmm0, xmmword ptr [rdi + 16]
        vblendps        xmm0, xmm0, xmmword ptr [rdi + 32], 12 # xmm0 = xmm0[0,1],mem[2,3]
        vpermpd ymm9, ymmword ptr [rdi + 64], 196 # ymm9 = mem[0,1,0,3]
        vblendps        ymm0, ymm0, ymm9, 240           # ymm0 = ymm0[0,1,2,3],ymm9[4,5,6,7]
        vmovaps xmm1, xmmword ptr [rdi + 304]
        vblendps        xmm1, xmm1, xmmword ptr [rdi + 320], 12 # xmm1 = xmm1[0,1],mem[2,3]
        vpermpd ymm9, ymmword ptr [rdi + 352], 196 # ymm9 = mem[0,1,0,3]
        vblendps        ymm1, ymm1, ymm9, 240           # ymm1 = ymm1[0,1,2,3],ymm9[4,5,6,7]
        vmovaps xmm2, xmmword ptr [rdi + 208]
        vblendps        xmm2, xmm2, xmmword ptr [rdi + 224], 12 # xmm2 = xmm2[0,1],mem[2,3]
        vpermpd ymm9, ymmword ptr [rdi + 256], 196 # ymm9 = mem[0,1,0,3]
        vblendps        ymm2, ymm2, ymm9, 240           # ymm2 = ymm2[0,1,2,3],ymm9[4,5,6,7]
        vmovdqa ymmword ptr [rsi + 64], ymm4
        vmovdqa ymmword ptr [rsi + 96], ymm15
        vmovdqa ymmword ptr [rsi], ymm14
        vmovdqa ymmword ptr [rsi + 32], ymm13
        vmovdqa ymmword ptr [rdx + 96], ymm5
        vmovdqa ymmword ptr [rdx], ymm8
        vmovdqa ymmword ptr [rdx + 32], ymm6
        vmovdqa ymmword ptr [rdx + 64], ymm3
        vmovaps ymmword ptr [rcx + 64], ymm2
        vmovaps ymmword ptr [rcx + 96], ymm1
        vmovaps ymmword ptr [rcx], ymm0
        vmovaps ymmword ptr [rcx + 32], ymm7
        vzeroupper
        ret
.Lfunc_end0:
        .size   load_i64_stride3_vf16, .Lfunc_end0-load_i64_stride3_vf16
                                        # -- End function
        .section        ".note.GNU-stack","",@progbits