Instead of the TargetMachine cache the MachineFunction

[oota-llvm.git] / lib / Transforms / InstCombine / InstCombineCalls.cpp
diff --git a/lib/Transforms/InstCombine/InstCombineCalls.cpp b/lib/Transforms/InstCombine/InstCombineCalls.cpp

index cc43675360f627118bcd11684f67599b7c0ce4be..c2fecde39294396a0b9d2a5f3ce3c7cc88a15ce0 100644 (file)
--- a/lib/Transforms/InstCombine/InstCombineCalls.cpp
+++ b/lib/Transforms/InstCombine/InstCombineCalls.cpp
@@ -16,6 +16,7 @@
  #include "llvm/Analysis/MemoryBuiltins.h"
  #include "llvm/IR/CallSite.h"
  #include "llvm/IR/DataLayout.h"
+#include "llvm/IR/Dominators.h"
  #include "llvm/IR/PatternMatch.h"
  #include "llvm/Transforms/Utils/BuildLibCalls.h"
  #include "llvm/Transforms/Utils/Local.h"
@@ -58,8 +59,8 @@ static Type *reduceToSingleValueType(Type *T) {
  }
  
  Instruction *InstCombiner::SimplifyMemTransfer(MemIntrinsic *MI) {
-  unsigned DstAlign = getKnownAlignment(MI->getArgOperand(0), DL);
-  unsigned SrcAlign = getKnownAlignment(MI->getArgOperand(1), DL);
+  unsigned DstAlign = getKnownAlignment(MI->getArgOperand(0), DL, AT, MI, DT);
+  unsigned SrcAlign = getKnownAlignment(MI->getArgOperand(1), DL, AT, MI, DT);
    unsigned MinAlign = std::min(DstAlign, SrcAlign);
    unsigned CopyAlign = MI->getAlignment();
  
@@ -154,7 +155,7 @@ Instruction *InstCombiner::SimplifyMemTransfer(MemIntrinsic *MI) {
  }
  
  Instruction *InstCombiner::SimplifyMemSet(MemSetInst *MI) {
-  unsigned Alignment = getKnownAlignment(MI->getDest(), DL);
+  unsigned Alignment = getKnownAlignment(MI->getDest(), DL, AT, MI, DT);
    if (MI->getAlignment() < Alignment) {
      MI->setAlignment(ConstantInt::get(MI->getAlignmentType(),
                                               Alignment, false));
@@ -322,7 +323,7 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
      uint32_t BitWidth = IT->getBitWidth();
      APInt KnownZero(BitWidth, 0);
      APInt KnownOne(BitWidth, 0);
-    ComputeMaskedBits(II->getArgOperand(0), KnownZero, KnownOne);
+    computeKnownBits(II->getArgOperand(0), KnownZero, KnownOne, 0, II);
      unsigned TrailingZeros = KnownOne.countTrailingZeros();
      APInt Mask(APInt::getLowBitsSet(BitWidth, TrailingZeros));
      if ((Mask & KnownZero) == Mask)
@@ -340,7 +341,7 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
      uint32_t BitWidth = IT->getBitWidth();
      APInt KnownZero(BitWidth, 0);
      APInt KnownOne(BitWidth, 0);
-    ComputeMaskedBits(II->getArgOperand(0), KnownZero, KnownOne);
+    computeKnownBits(II->getArgOperand(0), KnownZero, KnownOne, 0, II);
      unsigned LeadingZeros = KnownOne.countLeadingZeros();
      APInt Mask(APInt::getHighBitsSet(BitWidth, LeadingZeros));
      if ((Mask & KnownZero) == Mask)
@@ -355,14 +356,14 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
      uint32_t BitWidth = IT->getBitWidth();
      APInt LHSKnownZero(BitWidth, 0);
      APInt LHSKnownOne(BitWidth, 0);
-    ComputeMaskedBits(LHS, LHSKnownZero, LHSKnownOne);
+    computeKnownBits(LHS, LHSKnownZero, LHSKnownOne, 0, II);
      bool LHSKnownNegative = LHSKnownOne[BitWidth - 1];
      bool LHSKnownPositive = LHSKnownZero[BitWidth - 1];
  
      if (LHSKnownNegative || LHSKnownPositive) {
        APInt RHSKnownZero(BitWidth, 0);
        APInt RHSKnownOne(BitWidth, 0);
-      ComputeMaskedBits(RHS, RHSKnownZero, RHSKnownOne);
+      computeKnownBits(RHS, RHSKnownZero, RHSKnownOne, 0, II);
        bool RHSKnownNegative = RHSKnownOne[BitWidth - 1];
        bool RHSKnownPositive = RHSKnownZero[BitWidth - 1];
        if (LHSKnownNegative && RHSKnownNegative) {
@@ -421,6 +422,21 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
          return InsertValueInst::Create(Struct, II->getArgOperand(0), 0);
        }
      }
+
+    // We can strength reduce reduce this signed add into a regular add if we
+    // can prove that it will never overflow.
+    if (II->getIntrinsicID() == Intrinsic::sadd_with_overflow) {
+      Value *LHS = II->getArgOperand(0), *RHS = II->getArgOperand(1);
+      if (WillNotOverflowSignedAdd(LHS, RHS, II)) {
+        Value *Add = Builder->CreateNSWAdd(LHS, RHS);
+        Add->takeName(&CI);
+        Constant *V[] = {UndefValue::get(Add->getType()), Builder->getFalse()};
+        StructType *ST = cast<StructType>(II->getType());
+        Constant *Struct = ConstantStruct::get(ST, V);
+        return InsertValueInst::Create(Struct, Add, 0);
+      }
+    }
+
      break;
    case Intrinsic::usub_with_overflow:
    case Intrinsic::ssub_with_overflow:
@@ -449,10 +465,10 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
  
      APInt LHSKnownZero(BitWidth, 0);
      APInt LHSKnownOne(BitWidth, 0);
-    ComputeMaskedBits(LHS, LHSKnownZero, LHSKnownOne);
+    computeKnownBits(LHS, LHSKnownZero, LHSKnownOne, 0, II);
      APInt RHSKnownZero(BitWidth, 0);
      APInt RHSKnownOne(BitWidth, 0);
-    ComputeMaskedBits(RHS, RHSKnownZero, RHSKnownOne);
+    computeKnownBits(RHS, RHSKnownZero, RHSKnownOne, 0, II);
  
      // Get the largest possible values for each operand.
      APInt LHSMax = ~LHSKnownZero;
@@ -506,7 +522,8 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
    case Intrinsic::ppc_altivec_lvx:
    case Intrinsic::ppc_altivec_lvxl:
      // Turn PPC lvx -> load if the pointer is known aligned.
-    if (getOrEnforceKnownAlignment(II->getArgOperand(0), 16, DL) >= 16) {
+    if (getOrEnforceKnownAlignment(II->getArgOperand(0), 16,
+                                   DL, AT, II, DT) >= 16) {
        Value *Ptr = Builder->CreateBitCast(II->getArgOperand(0),
                                           PointerType::getUnqual(II->getType()));
        return new LoadInst(Ptr);
@@ -515,7 +532,8 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
    case Intrinsic::ppc_altivec_stvx:
    case Intrinsic::ppc_altivec_stvxl:
      // Turn stvx -> store if the pointer is known aligned.
-    if (getOrEnforceKnownAlignment(II->getArgOperand(1), 16, DL) >= 16) {
+    if (getOrEnforceKnownAlignment(II->getArgOperand(1), 16,
+                                   DL, AT, II, DT) >= 16) {
        Type *OpPtrTy =
          PointerType::getUnqual(II->getArgOperand(0)->getType());
        Value *Ptr = Builder->CreateBitCast(II->getArgOperand(1), OpPtrTy);
@@ -526,7 +544,8 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
    case Intrinsic::x86_sse2_storeu_pd:
    case Intrinsic::x86_sse2_storeu_dq:
      // Turn X86 storeu -> store if the pointer is known aligned.
-    if (getOrEnforceKnownAlignment(II->getArgOperand(0), 16, DL) >= 16) {
+    if (getOrEnforceKnownAlignment(II->getArgOperand(0), 16,
+                                   DL, AT, II, DT) >= 16) {
        Type *OpPtrTy =
          PointerType::getUnqual(II->getArgOperand(1)->getType());
        Value *Ptr = Builder->CreateBitCast(II->getArgOperand(0), OpPtrTy);
@@ -665,7 +684,7 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
                CI,
                Builder->CreateShuffleVector(
                    Vec, Undef, ConstantDataVector::get(
-                                  II->getContext(), ArrayRef<uint32_t>(Mask))));
+                                  II->getContext(), makeArrayRef(Mask))));
  
          } else if (auto Source =
                         dyn_cast<IntrinsicInst>(II->getArgOperand(0))) {
@@ -718,17 +737,56 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
      break;
    }
  
+  case Intrinsic::x86_sse41_pblendvb:
+  case Intrinsic::x86_sse41_blendvps:
+  case Intrinsic::x86_sse41_blendvpd:
+  case Intrinsic::x86_avx_blendv_ps_256:
+  case Intrinsic::x86_avx_blendv_pd_256:
+  case Intrinsic::x86_avx2_pblendvb: {
+    // Convert blendv* to vector selects if the mask is constant.
+    // This optimization is convoluted because the intrinsic is defined as
+    // getting a vector of floats or doubles for the ps and pd versions.
+    // FIXME: That should be changed.
+    Value *Mask = II->getArgOperand(2);
+    if (auto C = dyn_cast<ConstantDataVector>(Mask)) {
+      auto Tyi1 = Builder->getInt1Ty();
+      auto SelectorType = cast<VectorType>(Mask->getType());
+      auto EltTy = SelectorType->getElementType();
+      unsigned Size = SelectorType->getNumElements();
+      unsigned BitWidth =
+          EltTy->isFloatTy()
+              ? 32
+              : (EltTy->isDoubleTy() ? 64 : EltTy->getIntegerBitWidth());
+      assert((BitWidth == 64 || BitWidth == 32 || BitWidth == 8) &&
+             "Wrong arguments for variable blend intrinsic");
+      SmallVector<Constant *, 32> Selectors;
+      for (unsigned I = 0; I < Size; ++I) {
+        // The intrinsics only read the top bit
+        uint64_t Selector;
+        if (BitWidth == 8)
+          Selector = C->getElementAsInteger(I);
+        else
+          Selector = C->getElementAsAPFloat(I).bitcastToAPInt().getZExtValue();
+        Selectors.push_back(ConstantInt::get(Tyi1, Selector >> (BitWidth - 1)));
+      }
+      auto NewSelector = ConstantVector::get(Selectors);
+      return SelectInst::Create(NewSelector, II->getArgOperand(1),
+                                II->getArgOperand(0), "blendv");
+    } else {
+      break;
+    }
+  }
+
    case Intrinsic::x86_avx_vpermilvar_ps:
    case Intrinsic::x86_avx_vpermilvar_ps_256:
    case Intrinsic::x86_avx_vpermilvar_pd:
    case Intrinsic::x86_avx_vpermilvar_pd_256: {
      // Convert vpermil* to shufflevector if the mask is constant.
      Value *V = II->getArgOperand(1);
+    unsigned Size = cast<VectorType>(V->getType())->getNumElements();
+    assert(Size == 8 || Size == 4 || Size == 2);
+    uint32_t Indexes[8];
      if (auto C = dyn_cast<ConstantDataVector>(V)) {
-      unsigned Size = C->getNumElements();
-      assert(Size == 8 || Size == 4 || Size == 2);
-      uint32_t Indexes[8];
-
        // The intrinsics only read one or two bits, clear the rest.
        for (unsigned I = 0; I < Size; ++I) {
          uint32_t Index = C->getElementAsInteger(I) & 0x3;
@@ -737,27 +795,35 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
            Index >>= 1;
          Indexes[I] = Index;
        }
-
-      // The _256 variants are a bit trickier since the mask bits always index
-      // into the corresponding 128 half. In order to convert to a generic
-      // shuffle, we have to make that explicit.
-      if (II->getIntrinsicID() == Intrinsic::x86_avx_vpermilvar_ps_256 ||
-          II->getIntrinsicID() == Intrinsic::x86_avx_vpermilvar_pd_256) {
-        for (unsigned I = Size / 2; I < Size; ++I)
-          Indexes[I] += Size / 2;
-      }
-      auto NewC =
-          ConstantDataVector::get(C->getContext(), makeArrayRef(Indexes, Size));
-      auto V1 = II->getArgOperand(0);
-      auto V2 = UndefValue::get(V1->getType());
-      auto Shuffle = Builder->CreateShuffleVector(V1, V2, NewC);
-      return ReplaceInstUsesWith(CI, Shuffle);
+    } else if (isa<ConstantAggregateZero>(V)) {
+      for (unsigned I = 0; I < Size; ++I)
+        Indexes[I] = 0;
+    } else {
+      break;
      }
-    break;
+    // The _256 variants are a bit trickier since the mask bits always index
+    // into the corresponding 128 half. In order to convert to a generic
+    // shuffle, we have to make that explicit.
+    if (II->getIntrinsicID() == Intrinsic::x86_avx_vpermilvar_ps_256 ||
+        II->getIntrinsicID() == Intrinsic::x86_avx_vpermilvar_pd_256) {
+      for (unsigned I = Size / 2; I < Size; ++I)
+        Indexes[I] += Size / 2;
+    }
+    auto NewC =
+        ConstantDataVector::get(V->getContext(), makeArrayRef(Indexes, Size));
+    auto V1 = II->getArgOperand(0);
+    auto V2 = UndefValue::get(V1->getType());
+    auto Shuffle = Builder->CreateShuffleVector(V1, V2, NewC);
+    return ReplaceInstUsesWith(CI, Shuffle);
    }
  
    case Intrinsic::ppc_altivec_vperm:
      // Turn vperm(V1,V2,mask) -> shuffle(V1,V2,mask) if mask is a constant.
+    // Note that ppc_altivec_vperm has a big-endian bias, so when creating
+    // a vectorshuffle for little endian, we must undo the transformation
+    // performed on vec_perm in altivec.h.  That is, we must complement
+    // the permutation mask with respect to 31 and reverse the order of
+    // V1 and V2.
      if (Constant *Mask = dyn_cast<Constant>(II->getArgOperand(2))) {
        assert(Mask->getType()->getVectorNumElements() == 16 &&
               "Bad type for intrinsic!");
@@ -790,10 +856,14 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
            unsigned Idx =
              cast<ConstantInt>(Mask->getAggregateElement(i))->getZExtValue();
            Idx &= 31;  // Match the hardware behavior.
+          if (DL && DL->isLittleEndian())
+            Idx = 31 - Idx;
  
            if (!ExtractedElts[Idx]) {
+            Value *Op0ToUse = (DL && DL->isLittleEndian()) ? Op1 : Op0;
+            Value *Op1ToUse = (DL && DL->isLittleEndian()) ? Op0 : Op1;
              ExtractedElts[Idx] =
-              Builder->CreateExtractElement(Idx < 16 ? Op0 : Op1,
+              Builder->CreateExtractElement(Idx < 16 ? Op0ToUse : Op1ToUse,
                                              Builder->getInt32(Idx&15));
            }
  
@@ -820,7 +890,7 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
    case Intrinsic::arm_neon_vst2lane:
    case Intrinsic::arm_neon_vst3lane:
    case Intrinsic::arm_neon_vst4lane: {
-    unsigned MemAlign = getKnownAlignment(II->getArgOperand(0), DL);
+    unsigned MemAlign = getKnownAlignment(II->getArgOperand(0), DL, AT, II, DT);
      unsigned AlignArg = II->getNumArgOperands() - 1;
      ConstantInt *IntrAlign = dyn_cast<ConstantInt>(II->getArgOperand(AlignArg));
      if (IntrAlign && IntrAlign->getZExtValue() < MemAlign) {
@@ -834,8 +904,8 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
  
    case Intrinsic::arm_neon_vmulls:
    case Intrinsic::arm_neon_vmullu:
-  case Intrinsic::arm64_neon_smull:
-  case Intrinsic::arm64_neon_umull: {
+  case Intrinsic::aarch64_neon_smull:
+  case Intrinsic::aarch64_neon_umull: {
      Value *Arg0 = II->getArgOperand(0);
      Value *Arg1 = II->getArgOperand(1);
  
@@ -846,7 +916,7 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
  
      // Check for constant LHS & RHS - in this case we just simplify.
      bool Zext = (II->getIntrinsicID() == Intrinsic::arm_neon_vmullu ||
-                 II->getIntrinsicID() == Intrinsic::arm64_neon_umull);
+                 II->getIntrinsicID() == Intrinsic::aarch64_neon_umull);
      VectorType *NewVT = cast<VectorType>(II->getType());
      if (Constant *CV0 = dyn_cast<Constant>(Arg0)) {
        if (Constant *CV1 = dyn_cast<Constant>(Arg1)) {
@@ -871,6 +941,20 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
      break;
    }
  
+  case Intrinsic::AMDGPU_rcp: {
+    if (const ConstantFP *C = dyn_cast<ConstantFP>(II->getArgOperand(0))) {
+      const APFloat &ArgVal = C->getValueAPF();
+      APFloat Val(ArgVal.getSemantics(), 1.0);
+      APFloat::opStatus Status = Val.divide(ArgVal,
+                                            APFloat::rmNearestTiesToEven);
+      // Only do this if it was exact and therefore not dependent on the
+      // rounding mode.
+      if (Status == APFloat::opOK)
+        return ReplaceInstUsesWith(CI, ConstantFP::get(II->getContext(), Val));
+    }
+
+    break;
+  }
    case Intrinsic::stackrestore: {
      // If the save is right next to the restore, remove the restore.  This can
      // happen when variable allocas are DCE'd.
@@ -914,6 +998,35 @@ Instruction *InstCombiner::visitCallInst(CallInst &CI) {
        return EraseInstFromFunction(CI);
      break;
    }
+  case Intrinsic::assume: {
+    // Canonicalize assume(a && b) -> assume(a); assume(b);
+    // Note: New assumption intrinsics created here are registered by
+    // the InstCombineIRInserter object.
+    Value *IIOperand = II->getArgOperand(0), *A, *B,
+          *AssumeIntrinsic = II->getCalledValue();
+    if (match(IIOperand, m_And(m_Value(A), m_Value(B)))) {
+      Builder->CreateCall(AssumeIntrinsic, A, II->getName());
+      Builder->CreateCall(AssumeIntrinsic, B, II->getName());
+      return EraseInstFromFunction(*II);
+    }
+    // assume(!(a || b)) -> assume(!a); assume(!b);
+    if (match(IIOperand, m_Not(m_Or(m_Value(A), m_Value(B))))) {
+      Builder->CreateCall(AssumeIntrinsic, Builder->CreateNot(A),
+                          II->getName());
+      Builder->CreateCall(AssumeIntrinsic, Builder->CreateNot(B),
+                          II->getName());
+      return EraseInstFromFunction(*II);
+    }
+
+    // If there is a dominating assume with the same condition as this one,
+    // then this one is redundant, and should be removed.
+    APInt KnownZero(1, 0), KnownOne(1, 0);
+    computeKnownBits(IIOperand, KnownZero, KnownOne, 0, II);
+    if (KnownOne.isAllOnesValue())
+      return EraseInstFromFunction(*II);
+
+    break;
+  }
    }
  
    return visitCallSite(II);