test/CodeGen/X86/pmul.ll

   1 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown | FileCheck %s --check-prefix=ALL --check-prefix=SSE2
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=sse4.1 | FileCheck %s --check-prefix=ALL --check-prefix=SSE41
   3
   4 define <16 x i8> @mul8c(<16 x i8> %i) nounwind  {
   5 ; SSE2-LABEL: mul8c:
   6 ; SSE2:       # BB#0: # %entry
   7 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]
   8 ; SSE2-NEXT:    psraw $8, %xmm1
   9 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
  10 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
  11 ; SSE2-NEXT:    psraw $8, %xmm2
  12 ; SSE2-NEXT:    pmullw %xmm1, %xmm2
  13 ; SSE2-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
  14 ; SSE2-NEXT:    pand %xmm3, %xmm2
  15 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
  16 ; SSE2-NEXT:    psraw $8, %xmm0
  17 ; SSE2-NEXT:    pmullw %xmm1, %xmm0
  18 ; SSE2-NEXT:    pand %xmm3, %xmm0
  19 ; SSE2-NEXT:    packuswb %xmm2, %xmm0
  20 ; SSE2-NEXT:    retq
  21 ;
  22 ; SSE41-LABEL: mul8c:
  23 ; SSE41:       # BB#0: # %entry
  24 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm1
  25 ; SSE41-NEXT:    pmovsxbw {{.*}}(%rip), %xmm2
  26 ; SSE41-NEXT:    pmullw %xmm2, %xmm1
  27 ; SSE41-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
  28 ; SSE41-NEXT:    pand %xmm3, %xmm1
  29 ; SSE41-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
  30 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm0
  31 ; SSE41-NEXT:    pmullw %xmm2, %xmm0
  32 ; SSE41-NEXT:    pand %xmm3, %xmm0
  33 ; SSE41-NEXT:    packuswb %xmm0, %xmm1
  34 ; SSE41-NEXT:    movdqa %xmm1, %xmm0
  35 ; SSE41-NEXT:    retq
  36 entry:
  37   %A = mul <16 x i8> %i, < i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117 >
  38   ret <16 x i8> %A
  39 }
  40
  41 define <8 x i16> @mul16c(<8 x i16> %i) nounwind  {
  42 ; ALL-LABEL: mul16c:
  43 ; ALL:       # BB#0: # %entry
  44 ; ALL-NEXT:    pmullw {{.*}}(%rip), %xmm0
  45 ; ALL-NEXT:    retq
  46 entry:
  47   %A = mul <8 x i16> %i, < i16 117, i16 117, i16 117, i16 117, i16 117, i16 117, i16 117, i16 117 >
  48   ret <8 x i16> %A
  49 }
  50
  51 define <4 x i32> @a(<4 x i32> %i) nounwind  {
  52 ; SSE2-LABEL: a:
  53 ; SSE2:       # BB#0: # %entry
  54 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [117,117,117,117]
  55 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
  56 ; SSE2-NEXT:    pmuludq %xmm1, %xmm0
  57 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
  58 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
  59 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
  60 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
  61 ; SSE2-NEXT:    retq
  62 ;
  63 ; SSE41-LABEL: a:
  64 ; SSE41:       # BB#0: # %entry
  65 ; SSE41-NEXT:    pmulld {{.*}}(%rip), %xmm0
  66 ; SSE41-NEXT:    retq
  67 entry:
  68   %A = mul <4 x i32> %i, < i32 117, i32 117, i32 117, i32 117 >
  69   ret <4 x i32> %A
  70 }
  71
  72 define <2 x i64> @b(<2 x i64> %i) nounwind  {
  73 ; ALL-LABEL: b:
  74 ; ALL:       # BB#0: # %entry
  75 ; ALL-NEXT:    movdqa {{.*#+}} xmm1 = [117,117]
  76 ; ALL-NEXT:    movdqa %xmm0, %xmm2
  77 ; ALL-NEXT:    pmuludq %xmm1, %xmm2
  78 ; ALL-NEXT:    pxor %xmm3, %xmm3
  79 ; ALL-NEXT:    pmuludq %xmm0, %xmm3
  80 ; ALL-NEXT:    psllq $32, %xmm3
  81 ; ALL-NEXT:    paddq %xmm3, %xmm2
  82 ; ALL-NEXT:    psrlq $32, %xmm0
  83 ; ALL-NEXT:    pmuludq %xmm1, %xmm0
  84 ; ALL-NEXT:    psllq $32, %xmm0
  85 ; ALL-NEXT:    paddq %xmm2, %xmm0
  86 ; ALL-NEXT:    retq
  87 entry:
  88   %A = mul <2 x i64> %i, < i64 117, i64 117 >
  89   ret <2 x i64> %A
  90 }
  91
  92 define <16 x i8> @mul8(<16 x i8> %i, <16 x i8> %j) nounwind  {
  93 ; SSE2-LABEL: mul8:
  94 ; SSE2:       # BB#0: # %entry
  95 ; SSE2-NEXT:    movdqa %xmm1, %xmm3
  96 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
  97 ; SSE2-NEXT:    psraw $8, %xmm3
  98 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
  99 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
 100 ; SSE2-NEXT:    psraw $8, %xmm2
 101 ; SSE2-NEXT:    pmullw %xmm3, %xmm2
 102 ; SSE2-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
 103 ; SSE2-NEXT:    pand %xmm3, %xmm2
 104 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
 105 ; SSE2-NEXT:    psraw $8, %xmm1
 106 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
 107 ; SSE2-NEXT:    psraw $8, %xmm0
 108 ; SSE2-NEXT:    pmullw %xmm1, %xmm0
 109 ; SSE2-NEXT:    pand %xmm3, %xmm0
 110 ; SSE2-NEXT:    packuswb %xmm0, %xmm2
 111 ; SSE2-NEXT:    movdqa %xmm2, %xmm0
 112 ; SSE2-NEXT:    retq
 113 ;
 114 ; SSE41-LABEL: mul8:
 115 ; SSE41:       # BB#0: # %entry
 116 ; SSE41-NEXT:    pmovsxbw %xmm1, %xmm3
 117 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm2
 118 ; SSE41-NEXT:    pmullw %xmm3, %xmm2
 119 ; SSE41-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
 120 ; SSE41-NEXT:    pand %xmm3, %xmm2
 121 ; SSE41-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
 122 ; SSE41-NEXT:    pmovsxbw %xmm1, %xmm1
 123 ; SSE41-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
 124 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm0
 125 ; SSE41-NEXT:    pmullw %xmm1, %xmm0
 126 ; SSE41-NEXT:    pand %xmm3, %xmm0
 127 ; SSE41-NEXT:    packuswb %xmm0, %xmm2
 128 ; SSE41-NEXT:    movdqa %xmm2, %xmm0
 129 ; SSE41-NEXT:    retq
 130 entry:
 131   %A = mul <16 x i8> %i, %j
 132   ret <16 x i8> %A
 133 }
 134
 135 define <8 x i16> @mul16(<8 x i16> %i, <8 x i16> %j) nounwind  {
 136 ; ALL-LABEL: mul16:
 137 ; ALL:       # BB#0: # %entry
 138 ; ALL-NEXT:    pmullw %xmm1, %xmm0
 139 ; ALL-NEXT:    retq
 140 entry:
 141   %A = mul <8 x i16> %i, %j
 142   ret <8 x i16> %A
 143 }
 144
 145 define <4 x i32> @c(<4 x i32> %i, <4 x i32> %j) nounwind  {
 146 ; SSE2-LABEL: c:
 147 ; SSE2:       # BB#0: # %entry
 148 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
 149 ; SSE2-NEXT:    pmuludq %xmm1, %xmm0
 150 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 151 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
 152 ; SSE2-NEXT:    pmuludq %xmm2, %xmm1
 153 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
 154 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
 155 ; SSE2-NEXT:    retq
 156 ;
 157 ; SSE41-LABEL: c:
 158 ; SSE41:       # BB#0: # %entry
 159 ; SSE41-NEXT:    pmulld %xmm1, %xmm0
 160 ; SSE41-NEXT:    retq
 161 entry:
 162   %A = mul <4 x i32> %i, %j
 163   ret <4 x i32> %A
 164 }
 165
 166 define <2 x i64> @d(<2 x i64> %i, <2 x i64> %j) nounwind  {
 167 ; ALL-LABEL: d:
 168 ; ALL:       # BB#0: # %entry
 169 ; ALL-NEXT:    movdqa %xmm0, %xmm2
 170 ; ALL-NEXT:    pmuludq %xmm1, %xmm2
 171 ; ALL-NEXT:    movdqa %xmm1, %xmm3
 172 ; ALL-NEXT:    psrlq $32, %xmm3
 173 ; ALL-NEXT:    pmuludq %xmm0, %xmm3
 174 ; ALL-NEXT:    psllq $32, %xmm3
 175 ; ALL-NEXT:    paddq %xmm3, %xmm2
 176 ; ALL-NEXT:    psrlq $32, %xmm0
 177 ; ALL-NEXT:    pmuludq %xmm1, %xmm0
 178 ; ALL-NEXT:    psllq $32, %xmm0
 179 ; ALL-NEXT:    paddq %xmm2, %xmm0
 180 ; ALL-NEXT:    retq
 181 entry:
 182   %A = mul <2 x i64> %i, %j
 183   ret <2 x i64> %A
 184 }
 185
 186 declare void @foo()
 187
 188 define <4 x i32> @e(<4 x i32> %i, <4 x i32> %j) nounwind  {
 189 ; SSE2-LABEL: e:
 190 ; SSE2:       # BB#0: # %entry
 191 ; SSE2-NEXT:    subq $40, %rsp
 192 ; SSE2-NEXT:    movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
 193 ; SSE2-NEXT:    movaps %xmm0, (%rsp) # 16-byte Spill
 194 ; SSE2-NEXT:    callq foo
 195 ; SSE2-NEXT:    movdqa (%rsp), %xmm0 # 16-byte Reload
 196 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
 197 ; SSE2-NEXT:    movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload
 198 ; SSE2-NEXT:    pmuludq %xmm2, %xmm0
 199 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 200 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
 201 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
 202 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
 203 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
 204 ; SSE2-NEXT:    addq $40, %rsp
 205 ; SSE2-NEXT:    retq
 206 ;
 207 ; SSE41-LABEL: e:
 208 ; SSE41:       # BB#0: # %entry
 209 ; SSE41-NEXT:    subq $40, %rsp
 210 ; SSE41-NEXT:    movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
 211 ; SSE41-NEXT:    movaps %xmm0, (%rsp) # 16-byte Spill
 212 ; SSE41-NEXT:    callq foo
 213 ; SSE41-NEXT:    movdqa (%rsp), %xmm0 # 16-byte Reload
 214 ; SSE41-NEXT:    pmulld {{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload
 215 ; SSE41-NEXT:    addq $40, %rsp
 216 ; SSE41-NEXT:    retq
 217 entry:
 218   ; Use a call to force spills.
 219   call void @foo()
 220   %A = mul <4 x i32> %i, %j
 221   ret <4 x i32> %A
 222 }
 223
 224 define <2 x i64> @f(<2 x i64> %i, <2 x i64> %j) nounwind  {
 225 ; ALL-LABEL: f:
 226 ; ALL:       # BB#0: # %entry
 227 ; ALL-NEXT:    subq $40, %rsp
 228 ; ALL-NEXT:    movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
 229 ; ALL-NEXT:    movaps %xmm0, (%rsp) # 16-byte Spill
 230 ; ALL-NEXT:    callq foo
 231 ; ALL-NEXT:    movdqa (%rsp), %xmm0 # 16-byte Reload
 232 ; ALL-NEXT:    movdqa %xmm0, %xmm2
 233 ; ALL-NEXT:    movdqa {{[0-9]+}}(%rsp), %xmm3 # 16-byte Reload
 234 ; ALL-NEXT:    pmuludq %xmm3, %xmm2
 235 ; ALL-NEXT:    movdqa %xmm3, %xmm1
 236 ; ALL-NEXT:    psrlq $32, %xmm1
 237 ; ALL-NEXT:    pmuludq %xmm0, %xmm1
 238 ; ALL-NEXT:    psllq $32, %xmm1
 239 ; ALL-NEXT:    paddq %xmm1, %xmm2
 240 ; ALL-NEXT:    psrlq $32, %xmm0
 241 ; ALL-NEXT:    pmuludq %xmm3, %xmm0
 242 ; ALL-NEXT:    psllq $32, %xmm0
 243 ; ALL-NEXT:    paddq %xmm2, %xmm0
 244 ; ALL-NEXT:    addq $40, %rsp
 245 ; ALL-NEXT:    retq
 246 entry:
 247   ; Use a call to force spills.
 248   call void @foo()
 249   %A = mul <2 x i64> %i, %j
 250   ret <2 x i64> %A
 251 }