add test to show suboptimal load merging behavior
[oota-llvm.git] / test / CodeGen / X86 / extractps.ll
1 ; RUN: llc < %s -march=x86 -mcpu=penryn > %t
2 ; RUN: not grep movd %t
3 ; RUN: grep "movss      %xmm" %t | count 1
4 ; RUN: grep "extractps  \$1, %xmm0, " %t | count 1
5 ; PR2647
6
7 external global float, align 16         ; <float*>:0 [#uses=2]
8
9 define internal void @""() nounwind {
10         load float, float* @0, align 16                ; <float>:1 [#uses=1]
11         insertelement <4 x float> undef, float %1, i32 0                ; <<4 x float>>:2 [#uses=1]
12         call <4 x float> @llvm.x86.sse.rsqrt.ss( <4 x float> %2 )              ; <<4 x float>>:3 [#uses=1]
13         extractelement <4 x float> %3, i32 0            ; <float>:4 [#uses=1]
14         store float %4, float* @0, align 16
15         ret void
16 }
17 define internal void @""() nounwind {
18         load float, float* @0, align 16                ; <float>:1 [#uses=1]
19         insertelement <4 x float> undef, float %1, i32 1                ; <<4 x float>>:2 [#uses=1]
20         call <4 x float> @llvm.x86.sse.rsqrt.ss( <4 x float> %2 )              ; <<4 x float>>:3 [#uses=1]
21         extractelement <4 x float> %3, i32 1            ; <float>:4 [#uses=1]
22         store float %4, float* @0, align 16
23         ret void
24 }
25
26 declare <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float>) nounwind readnone
27