Optimize sext <4 x i8> and <4 x i16> to <4 x i64>.

author Nadav Rotem <nrotem@apple.com>

Tue, 19 Mar 2013 18:38:27 +0000 (18:38 +0000)

committer Nadav Rotem <nrotem@apple.com>

Tue, 19 Mar 2013 18:38:27 +0000 (18:38 +0000)
author Nadav Rotem <nrotem@apple.com>
Tue, 19 Mar 2013 18:38:27 +0000 (18:38 +0000)
committer Nadav Rotem <nrotem@apple.com>
Tue, 19 Mar 2013 18:38:27 +0000 (18:38 +0000)
diff --git a/lib/Target/X86/X86ISelLowering.cpp b/lib/Target/X86/X86ISelLowering.cpp

index 10cf13f2aa9f61b38ea83acf6614b7a32587ee82..5c2f6517eeb5f08313f8a3276917451cf881388a 100644 (file)
--- a/lib/Target/X86/X86ISelLowering.cpp
+++ b/lib/Target/X86/X86ISelLowering.cpp
@@ -11827,8 +11827,23 @@ SDValue X86TargetLowering::LowerSIGN_EXTEND_INREG(SDValue Op,
        // fall through
      case MVT::v4i32:
      case MVT::v8i16: {
-      SDValue Tmp1 = getTargetVShiftNode(X86ISD::VSHLI, dl, VT,
-                                         Op.getOperand(0), ShAmt, DAG);
+      // (sext (vzext x)) -> (vsext x)
+      SDValue Op0 = Op.getOperand(0);
+      SDValue Op00 = Op0.getOperand(0);
+      SDValue Tmp1;
+      // Hopefully, this VECTOR_SHUFFLE is just a VZEXT.
+      if (Op0.getOpcode() == ISD::BITCAST &&
+          Op00.getOpcode() == ISD::VECTOR_SHUFFLE)
+        Tmp1 = LowerVectorIntExtend(Op00, DAG);
+      if (Tmp1.getNode()) {
+        SDValue Tmp1Op0 = Tmp1.getOperand(0);
+        assert(Tmp1Op0.getOpcode() == X86ISD::VZEXT &&
+               "This optimization is invalid without a VZEXT.");
+        return DAG.getNode(X86ISD::VSEXT, dl, VT, Tmp1Op0.getOperand(0));
+      }
+
+      // If the above didn't work, then just use Shift-Left + Shift-Right.
+      Tmp1 = getTargetVShiftNode(X86ISD::VSHLI, dl, VT, Op0, ShAmt, DAG);
        return getTargetVShiftNode(X86ISD::VSRAI, dl, VT, Tmp1, ShAmt, DAG);
      }
    }
diff --git a/lib/Target/X86/X86TargetTransformInfo.cpp b/lib/Target/X86/X86TargetTransformInfo.cpp

index be2a997b8e0f28e33d72861428cfda693803810d..777ef508ec3390675e4e38879e30f2b1818cd814 100644 (file)
--- a/lib/Target/X86/X86TargetTransformInfo.cpp
+++ b/lib/Target/X86/X86TargetTransformInfo.cpp
@@ -257,8 +257,8 @@ unsigned X86TTI::getCastInstrCost(unsigned Opcode, Type *Dst, Type *Src) const {
      { ISD::ZERO_EXTEND, MVT::v8i32, MVT::v8i1,  6 },
      { ISD::SIGN_EXTEND, MVT::v8i32, MVT::v8i1,  9 },
      { ISD::SIGN_EXTEND, MVT::v4i64, MVT::v4i1,  8 },
-    { ISD::SIGN_EXTEND, MVT::v4i64, MVT::v4i8,  8 },
-    { ISD::SIGN_EXTEND, MVT::v4i64, MVT::v4i16, 8 },
+    { ISD::SIGN_EXTEND, MVT::v4i64, MVT::v4i8,  6 },
+    { ISD::SIGN_EXTEND, MVT::v4i64, MVT::v4i16, 6 },
      { ISD::TRUNCATE,    MVT::v8i32, MVT::v8i64, 3 },
    };
  
diff --git a/test/Analysis/CostModel/X86/cast.ll b/test/Analysis/CostModel/X86/cast.ll

index bacc77869170fa7086631ab3d7c204cad9b61d4e..c8d0f6fd8e5523b2a2828dd5cb509bf68d24a0c2 100644 (file)
--- a/test/Analysis/CostModel/X86/cast.ll
+++ b/test/Analysis/CostModel/X86/cast.ll
@@ -44,9 +44,9 @@ define i32 @zext_sext(<8 x i1> %in) {
    %B = zext <8 x i16> undef to <8 x i32>
    ;CHECK: cost of 1 {{.*}} sext
    %C = sext <4 x i32> undef to <4 x i64>
-  ;CHECK: cost of 8 {{.*}} sext
+  ;CHECK: cost of 6 {{.*}} sext
    %C1 = sext <4 x i8> undef to <4 x i64>
-  ;CHECK: cost of 8 {{.*}} sext
+  ;CHECK: cost of 6 {{.*}} sext
    %C2 = sext <4 x i16> undef to <4 x i64>
  
    ;CHECK: cost of 1 {{.*}} zext
diff --git a/test/CodeGen/X86/avx-sext.ll b/test/CodeGen/X86/avx-sext.ll

index 7ae0d36c0802ffa1873322d1f141bce6b424050e..b9c700051005c3014f315895d1bdc52611ea1911 100755 (executable)
--- a/test/CodeGen/X86/avx-sext.ll
+++ b/test/CodeGen/X86/avx-sext.ll
@@ -165,3 +165,24 @@ define <4 x i64> @sext_4i8_to_4i64(<4 x i8> %mask) {
    ret <4 x i64> %extmask
  }
  
+; AVX: sext_4i8_to_4i64
+; AVX: vpmovsxbd
+; AVX: vpmovsxdq
+; AVX: vpmovsxdq
+; AVX: ret
+define <4 x i64> @load_sext_4i8_to_4i64(<4 x i8> *%ptr) {
+ %X = load <4 x i8>* %ptr
+ %Y = sext <4 x i8> %X to <4 x i64>
+ ret <4 x i64>%Y
+}
+
+; AVX: sext_4i16_to_4i64
+; AVX: vpmovsxwd
+; AVX: vpmovsxdq
+; AVX: vpmovsxdq
+; AVX: ret
+define <4 x i64> @load_sext_4i16_to_4i64(<4 x i16> *%ptr) {
+ %X = load <4 x i16>* %ptr
+ %Y = sext <4 x i16> %X to <4 x i64>
+ ret <4 x i64>%Y
+}
author	Nadav Rotem <nrotem@apple.com>
	Tue, 19 Mar 2013 18:38:27 +0000 (18:38 +0000)
committer	Nadav Rotem <nrotem@apple.com>
	Tue, 19 Mar 2013 18:38:27 +0000 (18:38 +0000)
lib/Target/X86/X86ISelLowering.cpp		patch \| blob \| history
lib/Target/X86/X86TargetTransformInfo.cpp		patch \| blob \| history
test/Analysis/CostModel/X86/cast.ll		patch \| blob \| history
test/CodeGen/X86/avx-sext.ll		patch \| blob \| history