[x86] Implement a faster vector population count based on the PSHUFB
[oota-llvm.git] / test / CodeGen / X86 / commute-intrinsic.ll
index 7d5ca47668921016ed8cb8633e45cc4882dd734f..ff9049cf96dae0c7c3b7a1839a89e8183a352314 100644 (file)
@@ -6,7 +6,7 @@
 
 define <2 x i64> @madd(<2 x i64> %b) nounwind  {
 entry:
-       %tmp2 = load <2 x i64>* @a, align 16            ; <<2 x i64>> [#uses=1]
+       %tmp2 = load <2 x i64>, <2 x i64>* @a, align 16         ; <<2 x i64>> [#uses=1]
        %tmp6 = bitcast <2 x i64> %b to <8 x i16>               ; <<8 x i16>> [#uses=1]
        %tmp9 = bitcast <2 x i64> %tmp2 to <8 x i16>            ; <<8 x i16>> [#uses=1]
        %tmp11 = tail call <4 x i32> @llvm.x86.sse2.pmadd.wd( <8 x i16> %tmp9, <8 x i16> %tmp6 ) nounwind readnone              ; <<4 x i32>> [#uses=1]