[x86] eliminate unnecessary shuffling/moves with unary scalar math ops (PR21507)
[oota-llvm.git] / test / CodeGen / X86 / vec_extract-sse4.ll
index dab5dd144f064a9c4f4035bd7b6760baa0d3de46..9f4210f7847ed7f88aac09ad0a17536074eee42e 100644 (file)
@@ -1,31 +1,60 @@
-; RUN: llc < %s -march=x86 -mattr=+sse41 -o %t
-; RUN: grep extractps   %t | count 1
-; RUN: grep pextrd      %t | count 1
-; RUN: not grep pshufd  %t
-; RUN: not grep movss   %t
+; RUN: llc < %s -mcpu=corei7 -march=x86 -mattr=+sse4.1 | FileCheck %s
 
 define void @t1(float* %R, <4 x float>* %P1) nounwind {
-       %X = load <4 x float>* %P1
+; CHECK-LABEL: t1:
+; CHECK:       # BB#0:
+; CHECK-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; CHECK-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; CHECK-NEXT:    movss 12(%ecx), %xmm0
+; CHECK-NEXT:    movss %xmm0, (%eax)
+; CHECK-NEXT:    retl
+
+       %X = load <4 x float>, <4 x float>* %P1
        %tmp = extractelement <4 x float> %X, i32 3
        store float %tmp, float* %R
        ret void
 }
 
 define float @t2(<4 x float>* %P1) nounwind {
-       %X = load <4 x float>* %P1
+; CHECK-LABEL: t2:
+; CHECK:       # BB#0:
+; CHECK-NEXT:    pushl %eax
+; CHECK-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; CHECK-NEXT:    movapd (%eax), %xmm0
+; CHECK-NEXT:    shufpd {{.*#+}} xmm0 = xmm0[1,0]
+; CHECK-NEXT:    movss %xmm0, (%esp)
+; CHECK-NEXT:    flds (%esp)
+; CHECK-NEXT:    popl %eax
+; CHECK-NEXT:    retl
+
+       %X = load <4 x float>, <4 x float>* %P1
        %tmp = extractelement <4 x float> %X, i32 2
        ret float %tmp
 }
 
 define void @t3(i32* %R, <4 x i32>* %P1) nounwind {
-       %X = load <4 x i32>* %P1
+; CHECK-LABEL: t3:
+; CHECK:       # BB#0:
+; CHECK-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; CHECK-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; CHECK-NEXT:    movl 12(%ecx), %ecx
+; CHECK-NEXT:    movl %ecx, (%eax)
+; CHECK-NEXT:    retl
+
+       %X = load <4 x i32>, <4 x i32>* %P1
        %tmp = extractelement <4 x i32> %X, i32 3
        store i32 %tmp, i32* %R
        ret void
 }
 
 define i32 @t4(<4 x i32>* %P1) nounwind {
-       %X = load <4 x i32>* %P1
+; CHECK-LABEL: t4:
+; CHECK:       # BB#0:
+; CHECK-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; CHECK-NEXT:    movl 12(%eax), %eax
+; CHECK-NEXT:    retl
+
+       %X = load <4 x i32>, <4 x i32>* %P1
        %tmp = extractelement <4 x i32> %X, i32 3
        ret i32 %tmp
 }