~40% faster vector shl <4 x i32> on SSE 4.1 Larger improvements for smaller types...
[oota-llvm.git] / test / CodeGen / X86 / vec_shift4.ll
1 ; RUN: llc < %s -march=x86 -mattr=+sse41 | FileCheck %s
2
3 define <2 x i64> @shl(<4 x i32> %r, <4 x i32> %a) nounwind readnone ssp {
4 entry:
5 ; CHECK-NOT: shll
6 ; CHECK: pslld
7 ; CHECK: paddd
8 ; CHECK: cvttps2dq
9 ; CHECK: pmulld
10
11   %shl = shl <4 x i32> %r, %a                     ; <<4 x i32>> [#uses=1]
12   %tmp2 = bitcast <4 x i32> %shl to <2 x i64>     ; <<2 x i64>> [#uses=1]
13   ret <2 x i64> %tmp2
14 }