Re-sort all of the includes with ./utils/sort_includes.py so that

[oota-llvm.git] / lib / Target / X86 / X86InstrInfo.cpp
diff --git a/lib/Target/X86/X86InstrInfo.cpp b/lib/Target/X86/X86InstrInfo.cpp

index 6f8b0989a5f476bd1cd6ce9b03310ee30be05109..2e136ad80572b789646f9d70817ca304fc268e0d 100644 (file)
--- a/lib/Target/X86/X86InstrInfo.cpp
+++ b/lib/Target/X86/X86InstrInfo.cpp
@@ -24,6 +24,7 @@
  #include "llvm/CodeGen/MachineFrameInfo.h"
  #include "llvm/CodeGen/MachineInstrBuilder.h"
  #include "llvm/CodeGen/MachineRegisterInfo.h"
+#include "llvm/CodeGen/StackMaps.h"
  #include "llvm/IR/DerivedTypes.h"
  #include "llvm/IR/LLVMContext.h"
  #include "llvm/MC/MCAsmInfo.h"
@@ -35,7 +36,7 @@
  #include "llvm/Target/TargetOptions.h"
  #include <limits>
  
-#define GET_INSTRINFO_CTOR
+#define GET_INSTRINFO_CTOR_DTOR
  #include "X86GenInstrInfo.inc"
  
  using namespace llvm;
@@ -91,6 +92,9 @@ struct X86OpTblEntry {
    uint16_t Flags;
  };
  
+// Pin the vtable to this file.
+void X86InstrInfo::anchor() {}
+
  X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
    : X86GenInstrInfo((tm.getSubtarget<X86Subtarget>().is64Bit()
                       ? X86::ADJCALLSTACKDOWN64
@@ -299,8 +303,6 @@ X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
      { X86::DIV64r,      X86::DIV64m,        TB_FOLDED_LOAD },
      { X86::DIV8r,       X86::DIV8m,         TB_FOLDED_LOAD },
      { X86::EXTRACTPSrr, X86::EXTRACTPSmr,   TB_FOLDED_STORE },
-    { X86::FsMOVAPDrr,  X86::MOVSDmr,       TB_FOLDED_STORE | TB_NO_REVERSE },
-    { X86::FsMOVAPSrr,  X86::MOVSSmr,       TB_FOLDED_STORE | TB_NO_REVERSE },
      { X86::IDIV16r,     X86::IDIV16m,       TB_FOLDED_LOAD },
      { X86::IDIV32r,     X86::IDIV32m,       TB_FOLDED_LOAD },
      { X86::IDIV64r,     X86::IDIV64m,       TB_FOLDED_LOAD },
@@ -357,8 +359,6 @@ X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
      { X86::TEST8ri,     X86::TEST8mi,       TB_FOLDED_LOAD },
      // AVX 128-bit versions of foldable instructions
      { X86::VEXTRACTPSrr,X86::VEXTRACTPSmr,  TB_FOLDED_STORE  },
-    { X86::FsVMOVAPDrr, X86::VMOVSDmr,      TB_FOLDED_STORE | TB_NO_REVERSE },
-    { X86::FsVMOVAPSrr, X86::VMOVSSmr,      TB_FOLDED_STORE | TB_NO_REVERSE },
      { X86::VEXTRACTF128rr, X86::VEXTRACTF128mr, TB_FOLDED_STORE | TB_ALIGN_16 },
      { X86::VMOVAPDrr,   X86::VMOVAPDmr,     TB_FOLDED_STORE | TB_ALIGN_16 },
      { X86::VMOVAPSrr,   X86::VMOVAPSmr,     TB_FOLDED_STORE | TB_ALIGN_16 },
@@ -403,8 +403,6 @@ X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
      { X86::CVTTSD2SIrr,     X86::CVTTSD2SIrm,         0 },
      { X86::CVTTSS2SI64rr,   X86::CVTTSS2SI64rm,       0 },
      { X86::CVTTSS2SIrr,     X86::CVTTSS2SIrm,         0 },
-    { X86::FsMOVAPDrr,      X86::MOVSDrm,             TB_NO_REVERSE },
-    { X86::FsMOVAPSrr,      X86::MOVSSrm,             TB_NO_REVERSE },
      { X86::IMUL16rri,       X86::IMUL16rmi,           0 },
      { X86::IMUL16rri8,      X86::IMUL16rmi8,          0 },
      { X86::IMUL32rri,       X86::IMUL32rmi,           0 },
@@ -447,7 +445,6 @@ X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
      { X86::MOVSX64rr8,      X86::MOVSX64rm8,          0 },
      { X86::MOVUPDrr,        X86::MOVUPDrm,            TB_ALIGN_16 },
      { X86::MOVUPSrr,        X86::MOVUPSrm,            0 },
-    { X86::MOVZDI2PDIrr,    X86::MOVZDI2PDIrm,        0 },
      { X86::MOVZQI2PQIrr,    X86::MOVZQI2PQIrm,        0 },
      { X86::MOVZPQILo2PQIrr, X86::MOVZPQILo2PQIrm,     TB_ALIGN_16 },
      { X86::MOVZX16rr8,      X86::MOVZX16rm8,          0 },
@@ -496,8 +493,6 @@ X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
      { X86::VCVTSD2SIrr,     X86::VCVTSD2SIrm,         0 },
      { X86::VCVTSS2SI64rr,   X86::VCVTSS2SI64rm,       0 },
      { X86::VCVTSS2SIrr,     X86::VCVTSS2SIrm,         0 },
-    { X86::FsVMOVAPDrr,     X86::VMOVSDrm,            TB_NO_REVERSE },
-    { X86::FsVMOVAPSrr,     X86::VMOVSSrm,            TB_NO_REVERSE },
      { X86::VMOV64toPQIrr,   X86::VMOVQI2PQIrm,        0 },
      { X86::VMOV64toSDrr,    X86::VMOV64toSDrm,        0 },
      { X86::VMOVAPDrr,       X86::VMOVAPDrm,           TB_ALIGN_16 },
@@ -510,7 +505,6 @@ X86InstrInfo::X86InstrInfo(X86TargetMachine &tm)
      { X86::VMOVSHDUPrr,     X86::VMOVSHDUPrm,         TB_ALIGN_16 },
      { X86::VMOVUPDrr,       X86::VMOVUPDrm,           0 },
      { X86::VMOVUPSrr,       X86::VMOVUPSrm,           0 },
-    { X86::VMOVZDI2PDIrr,   X86::VMOVZDI2PDIrm,       0 },
      { X86::VMOVZQI2PQIrr,   X86::VMOVZQI2PQIrm,       0 },
      { X86::VMOVZPQILo2PQIrr,X86::VMOVZPQILo2PQIrm,    TB_ALIGN_16 },
      { X86::VPABSBrr128,     X86::VPABSBrm128,         0 },
@@ -3021,6 +3015,11 @@ static unsigned CopyToFromAsymmetricReg(unsigned DestReg, unsigned SrcReg,
    return 0;
  }
  
+inline static bool MaskRegClassContains(unsigned Reg) {
+  return X86::VK8RegClass.contains(Reg) ||
+         X86::VK16RegClass.contains(Reg) ||
+         X86::VK1RegClass.contains(Reg);
+}
  static
  unsigned copyPhysRegOpcode_AVX512(unsigned& DestReg, unsigned& SrcReg) {
    if (X86::VR128XRegClass.contains(DestReg, SrcReg) ||
@@ -3030,11 +3029,23 @@ unsigned copyPhysRegOpcode_AVX512(unsigned& DestReg, unsigned& SrcReg) {
       SrcReg = get512BitSuperRegister(SrcReg);
       return X86::VMOVAPSZrr;
    }
-  if ((X86::VK8RegClass.contains(DestReg) ||
-       X86::VK16RegClass.contains(DestReg)) &&
-      (X86::VK8RegClass.contains(SrcReg) ||
-       X86::VK16RegClass.contains(SrcReg)))
+  if (MaskRegClassContains(DestReg) &&
+      MaskRegClassContains(SrcReg))
      return X86::KMOVWkk;
+  if (MaskRegClassContains(DestReg) &&
+      (X86::GR32RegClass.contains(SrcReg) ||
+       X86::GR16RegClass.contains(SrcReg) ||
+       X86::GR8RegClass.contains(SrcReg))) {
+    SrcReg = getX86SubSuperRegister(SrcReg, MVT::i32);
+    return X86::KMOVWkr;
+  }
+  if ((X86::GR32RegClass.contains(DestReg) ||
+       X86::GR16RegClass.contains(DestReg) ||
+       X86::GR8RegClass.contains(DestReg)) &&
+       MaskRegClassContains(SrcReg)) {
+    DestReg = getX86SubSuperRegister(DestReg, MVT::i32);
+    return X86::KMOVWrk;
+  }
    return 0;
  }
  
@@ -3122,7 +3133,7 @@ static unsigned getLoadStoreRegOpcode(unsigned Reg,
                                        const TargetMachine &TM,
                                        bool load) {
    if (TM.getSubtarget<X86Subtarget>().hasAVX512()) {
-    if (X86::VK8RegClass.hasSubClassEq(RC)  || 
+    if (X86::VK8RegClass.hasSubClassEq(RC)  ||
        X86::VK16RegClass.hasSubClassEq(RC))
        return load ? X86::KMOVWkm : X86::KMOVWmk;
      if (RC->getSize() == 4 && X86::FR32XRegClass.hasSubClassEq(RC))
@@ -3174,7 +3185,8 @@ static unsigned getLoadStoreRegOpcode(unsigned Reg,
      assert(X86::RFP80RegClass.hasSubClassEq(RC) && "Unknown 10-byte regclass");
      return load ? X86::LD_Fp80m : X86::ST_FpP80m;
    case 16: {
-    assert(X86::VR128RegClass.hasSubClassEq(RC) && "Unknown 16-byte regclass");
+    assert((X86::VR128RegClass.hasSubClassEq(RC) ||
+            X86::VR128XRegClass.hasSubClassEq(RC))&& "Unknown 16-byte regclass");
      // If stack is realigned we can use aligned stores.
      if (isStackAligned)
        return load ?
@@ -3186,7 +3198,8 @@ static unsigned getLoadStoreRegOpcode(unsigned Reg,
          (HasAVX ? X86::VMOVUPSmr : X86::MOVUPSmr);
    }
    case 32:
-    assert(X86::VR256RegClass.hasSubClassEq(RC) && "Unknown 32-byte regclass");
+    assert((X86::VR256RegClass.hasSubClassEq(RC) ||
+            X86::VR256XRegClass.hasSubClassEq(RC)) && "Unknown 32-byte regclass");
      // If stack is realigned we can use aligned stores.
      if (isStackAligned)
        return load ? X86::VMOVAPSYrm : X86::VMOVAPSYmr;
@@ -3841,6 +3854,8 @@ bool X86InstrInfo::expandPostRAPseudo(MachineBasicBlock::iterator MI) const {
    bool HasAVX = TM.getSubtarget<X86Subtarget>().hasAVX();
    MachineInstrBuilder MIB(*MI->getParent()->getParent(), MI);
    switch (MI->getOpcode()) {
+  case X86::MOV32r0:
+    return Expand2AddrUndef(MIB, get(X86::XOR32rr));
    case X86::SETB_C8r:
      return Expand2AddrUndef(MIB, get(X86::SBB8rr));
    case X86::SETB_C16r:
@@ -4081,20 +4096,6 @@ static bool hasPartialRegUpdate(unsigned Opcode) {
    case X86::RSQRTSSr_Int:
    case X86::SQRTSSr:
    case X86::SQRTSSr_Int:
-  // AVX encoded versions
-  case X86::VCVTSD2SSrr:
-  case X86::Int_VCVTSD2SSrr:
-  case X86::VCVTSS2SDrr:
-  case X86::Int_VCVTSS2SDrr:
-  case X86::VCVTSD2SSZrr:
-  case X86::VCVTSS2SDZrr:
-  case X86::VRCPSSr:
-  case X86::VROUNDSDr:
-  case X86::VROUNDSDr_Int:
-  case X86::VROUNDSSr:
-  case X86::VROUNDSSr_Int:
-  case X86::VRSQRTSSr:
-  case X86::VSQRTSSr:
      return true;
    }
  
@@ -4126,10 +4127,77 @@ getPartialRegUpdateClearance(const MachineInstr *MI, unsigned OpNum,
    return 16;
  }
  
+// Return true for any instruction the copies the high bits of the first source
+// operand into the unused high bits of the destination operand.
+static bool hasUndefRegUpdate(unsigned Opcode) {
+  switch (Opcode) {
+  case X86::VCVTSI2SSrr:
+  case X86::Int_VCVTSI2SSrr:
+  case X86::VCVTSI2SS64rr:
+  case X86::Int_VCVTSI2SS64rr:
+  case X86::VCVTSI2SDrr:
+  case X86::Int_VCVTSI2SDrr:
+  case X86::VCVTSI2SD64rr:
+  case X86::Int_VCVTSI2SD64rr:
+  case X86::VCVTSD2SSrr:
+  case X86::Int_VCVTSD2SSrr:
+  case X86::VCVTSS2SDrr:
+  case X86::Int_VCVTSS2SDrr:
+  case X86::VRCPSSr:
+  case X86::VROUNDSDr:
+  case X86::VROUNDSDr_Int:
+  case X86::VROUNDSSr:
+  case X86::VROUNDSSr_Int:
+  case X86::VRSQRTSSr:
+  case X86::VSQRTSSr:
+
+  // AVX-512
+  case X86::VCVTSD2SSZrr:
+  case X86::VCVTSS2SDZrr:
+    return true;
+  }
+
+  return false;
+}
+
+/// Inform the ExeDepsFix pass how many idle instructions we would like before
+/// certain undef register reads.
+///
+/// This catches the VCVTSI2SD family of instructions:
+///
+/// vcvtsi2sdq %rax, %xmm0<undef>, %xmm14
+///
+/// We should to be careful *not* to catch VXOR idioms which are presumably
+/// handled specially in the pipeline:
+///
+/// vxorps %xmm1<undef>, %xmm1<undef>, %xmm1
+///
+/// Like getPartialRegUpdateClearance, this makes a strong assumption that the
+/// high bits that are passed-through are not live.
+unsigned X86InstrInfo::
+getUndefRegClearance(const MachineInstr *MI, unsigned &OpNum,
+                     const TargetRegisterInfo *TRI) const {
+  if (!hasUndefRegUpdate(MI->getOpcode()))
+    return 0;
+
+  // Set the OpNum parameter to the first source operand.
+  OpNum = 1;
+
+  const MachineOperand &MO = MI->getOperand(OpNum);
+  if (MO.isUndef() && TargetRegisterInfo::isPhysicalRegister(MO.getReg())) {
+    // Use the same magic number as getPartialRegUpdateClearance.
+    return 16;
+  }
+  return 0;
+}
+
  void X86InstrInfo::
  breakPartialRegDependency(MachineBasicBlock::iterator MI, unsigned OpNum,
                            const TargetRegisterInfo *TRI) const {
    unsigned Reg = MI->getOperand(OpNum).getReg();
+  // If MI kills this register, the false dependence is already broken.
+  if (MI->killsRegister(Reg, TRI))
+    return;
    if (X86::VR128RegClass.contains(Reg)) {
      // These instructions are all floating point domain, so xorps is the best
      // choice.
@@ -4149,10 +4217,10 @@ breakPartialRegDependency(MachineBasicBlock::iterator MI, unsigned OpNum,
    MI->addRegisterKilled(Reg, TRI, true);
  }
  
-MachineInstr* X86InstrInfo::foldMemoryOperandImpl(MachineFunction &MF,
-                                                  MachineInstr *MI,
-                                           const SmallVectorImpl<unsigned> &Ops,
-                                                  int FrameIndex) const {
+MachineInstr*
+X86InstrInfo::foldMemoryOperandImpl(MachineFunction &MF, MachineInstr *MI,
+                                    const SmallVectorImpl<unsigned> &Ops,
+                                    int FrameIndex) const {
    // Check switch flag
    if (NoFusing) return NULL;
  
@@ -4199,6 +4267,12 @@ MachineInstr* X86InstrInfo::foldMemoryOperandImpl(MachineFunction &MF,
                                                    MachineInstr *MI,
                                             const SmallVectorImpl<unsigned> &Ops,
                                                    MachineInstr *LoadMI) const {
+  // If loading from a FrameIndex, fold directly from the FrameIndex.
+  unsigned NumOps = LoadMI->getDesc().getNumOperands();
+  int FrameIndex;
+  if (isLoadFromStackSlot(LoadMI, FrameIndex))
+    return foldMemoryOperandImpl(MF, MI, Ops, FrameIndex);
+
    // Check switch flag
    if (NoFusing) return NULL;
  
@@ -4324,7 +4398,6 @@ MachineInstr* X86InstrInfo::foldMemoryOperandImpl(MachineFunction &MF,
        return NULL;
  
      // Folding a normal load. Just copy the load's address operands.
-    unsigned NumOps = LoadMI->getDesc().getNumOperands();
      for (unsigned i = NumOps - X86::AddrNumOperands; i != NumOps; ++i)
        MOs.push_back(LoadMI->getOperand(i));
      break;