Revert revision 171524. Original message:
authorNadav Rotem <nrotem@apple.com>
Sat, 5 Jan 2013 05:42:48 +0000 (05:42 +0000)
committerNadav Rotem <nrotem@apple.com>
Sat, 5 Jan 2013 05:42:48 +0000 (05:42 +0000)
URL: http://llvm.org/viewvc/llvm-project?rev=171524&view=rev
Log:
The current Intel Atom microarchitecture has a feature whereby when a function
returns early then it is slightly faster to execute a sequence of NOP
instructions to wait until the return address is ready,
as opposed to simply stalling on the ret instruction
until the return address is ready.

When compiling for X86 Atom only, this patch will run a pass, called
"X86PadShortFunction" which will add NOP instructions where less than four
cycles elapse between function entry and return.

It includes tests.

Patch by Andy Zhang.

git-svn-id: https://llvm.org/svn/llvm-project/llvm/trunk@171603 91177308-0d34-0410-b5e6-96231b3b80d8

lib/Target/X86/CMakeLists.txt
lib/Target/X86/X86.h
lib/Target/X86/X86.td
lib/Target/X86/X86PadShortFunction.cpp [deleted file]
lib/Target/X86/X86Subtarget.cpp
lib/Target/X86/X86Subtarget.h
lib/Target/X86/X86TargetMachine.cpp
test/CodeGen/X86/atom-pad-short-functions.ll [deleted file]
test/CodeGen/X86/fast-isel-x86-64.ll
test/CodeGen/X86/ret-mmx.ll
test/CodeGen/X86/select.ll

index 140c80dee4da881778dbcbf2663c1f9cb9e0601a..19912cc6bc8198466f7a4fd4c4060019f7b89e84 100644 (file)
@@ -25,7 +25,6 @@ set(sources
   X86JITInfo.cpp
   X86MCInstLower.cpp
   X86MachineFunctionInfo.cpp
-  X86PadShortFunction.cpp
   X86RegisterInfo.cpp
   X86SelectionDAGInfo.cpp
   X86Subtarget.cpp
index 88dbb6d67aaed0b1c09fc447d28049d546cc235e..1e7b98d94f46fbaaf4215254575f0b22d1a66ff4 100644 (file)
@@ -63,11 +63,6 @@ FunctionPass *createX86JITCodeEmitterPass(X86TargetMachine &TM,
 ///
 FunctionPass *createEmitX86CodeToMemory();
 
-/// createX86PadShortFunctions - Return a pass that pads short functions
-/// with NOOPs. This will prevent a stall when returning from the function
-/// on the Atom.
-FunctionPass *createX86PadShortFunctions();
-
 } // End llvm namespace
 
 #endif
index 3ab28993655ce9b0377dd858a1fe578433258130..b9d8cf76453b72f4873766e4253a8377aef08d5d 100644 (file)
@@ -123,11 +123,8 @@ def FeatureRTM     : SubtargetFeature<"rtm", "HasRTM", "true",
 def FeatureLeaForSP : SubtargetFeature<"lea-sp", "UseLeaForSP", "true",
                                      "Use LEA for adjusting the stack pointer">;
 def FeatureSlowDivide : SubtargetFeature<"idiv-to-divb",
-                                     "HasSlowDivide", "true",
-                                     "Use small divide for positive values less than 256">;
-def FeaturePadShortFunctions : SubtargetFeature<"pad-short-functions",
-                                     "PadShortFunctions", "true",
-                                     "Pad short functions">;
+                          "HasSlowDivide", "true",
+                          "Use small divide for positive values less than 256">;
 
 //===----------------------------------------------------------------------===//
 // X86 processors supported.
@@ -170,7 +167,7 @@ def : Proc<"penryn",          [FeatureSSE41, FeatureCMPXCHG16B,
                                FeatureSlowBTMem]>;
 def : AtomProc<"atom",        [ProcIntelAtom, FeatureSSSE3, FeatureCMPXCHG16B,
                                FeatureMOVBE, FeatureSlowBTMem, FeatureLeaForSP,
-                               FeatureSlowDivide, FeaturePadShortFunctions]>;
+                               FeatureSlowDivide]>;
 // "Arrandale" along with corei3 and corei5
 def : Proc<"corei7",          [FeatureSSE42, FeatureCMPXCHG16B,
                                FeatureSlowBTMem, FeatureFastUAMem,
diff --git a/lib/Target/X86/X86PadShortFunction.cpp b/lib/Target/X86/X86PadShortFunction.cpp
deleted file mode 100644 (file)
index 05f8a62..0000000
+++ /dev/null
@@ -1,184 +0,0 @@
-//===-------- X86PadShortFunction.cpp - pad short functions -----------===//
-//
-//                     The LLVM Compiler Infrastructure
-//
-// This file is distributed under the University of Illinois Open Source
-// License. See LICENSE.TXT for details.
-//
-//===----------------------------------------------------------------------===//
-//
-// This file defines the pass which will pad short functions to prevent
-// a stall if a function returns before the return address is ready. This
-// is needed for some Intel Atom processors.
-//
-//===----------------------------------------------------------------------===//
-
-#include <map>
-#include <algorithm>
-
-#define DEBUG_TYPE "x86-pad-short-functions"
-#include "X86.h"
-#include "X86InstrInfo.h"
-#include "llvm/ADT/Statistic.h"
-#include "llvm/CodeGen/MachineFunctionPass.h"
-#include "llvm/CodeGen/MachineInstrBuilder.h"
-#include "llvm/CodeGen/MachineRegisterInfo.h"
-#include "llvm/CodeGen/Passes.h"
-#include "llvm/Support/Debug.h"
-#include "llvm/Support/raw_ostream.h"
-#include "llvm/Target/TargetInstrInfo.h"
-using namespace llvm;
-
-STATISTIC(NumBBsPadded, "Number of basic blocks padded");
-
-namespace {
-  struct PadShortFunc : public MachineFunctionPass {
-    static char ID;
-    PadShortFunc() : MachineFunctionPass(ID)
-                   , Threshold(4)
-    {}
-
-    virtual bool runOnMachineFunction(MachineFunction &MF);
-
-    virtual const char *getPassName() const
-    {
-      return "X86 Atom pad short functions";
-    }
-
-  private:
-    bool addPadding(MachineFunction &MF,
-                    MachineBasicBlock &MBB,
-                    MachineBasicBlock::iterator &MBBI,
-                    unsigned int NOOPsToAdd);
-
-    void findReturn(MachineFunction &MF,
-                    MachineBasicBlock &MBB,
-                    unsigned int Cycles);
-
-    bool cyclesUntilReturn(MachineFunction &MF,
-                        MachineBasicBlock &MBB,
-                        unsigned int &Cycles,
-                        MachineBasicBlock::iterator *Location = 0);
-
-    const unsigned int Threshold;
-    std::map<int, unsigned int> ReturnBBs;
-  };
-
-  char PadShortFunc::ID = 0;
-}
-
-FunctionPass *llvm::createX86PadShortFunctions() {
-  return new PadShortFunc();
-}
-
-/// runOnMachineFunction - Loop over all of the basic blocks, inserting
-/// NOOP instructions before early exits.
-bool PadShortFunc::runOnMachineFunction(MachineFunction &MF) {
-  // Process all basic blocks.
-  ReturnBBs.clear();
-
-  // Search through basic blocks and mark the ones that have early returns
-  findReturn(MF, *MF.begin(), 0);
-
-  int BBNum;
-  MachineBasicBlock::iterator ReturnLoc;
-  MachineBasicBlock *MBB;
-
-  unsigned int Cycles = 0;
-  unsigned int BBCycles;
-
-  // Pad the identified basic blocks with NOOPs
-  for (std::map<int, unsigned int>::iterator I = ReturnBBs.begin();
-       I != ReturnBBs.end(); ++I) {
-    BBNum = I->first;
-    Cycles = I->second;
-
-    if (Cycles < Threshold) {
-      MBB = MF.getBlockNumbered(BBNum);
-      if (!cyclesUntilReturn(MF, *MBB, BBCycles, &ReturnLoc))
-        continue;
-
-      addPadding(MF, *MBB, ReturnLoc, Threshold - Cycles);
-      NumBBsPadded++;
-    }
-  }
-
-  return false;
-}
-
-/// findReturn - Starting at MBB, follow control flow and add all
-/// basic blocks that contain a return to ReturnBBs.
-void PadShortFunc::findReturn(MachineFunction &MF,
-                              MachineBasicBlock &MBB,
-                              unsigned int Cycles)
-{
-  // If this BB has a return, note how many cycles it takes to get there.
-  bool hasReturn = cyclesUntilReturn(MF, MBB, Cycles);
-  if (Cycles >= Threshold)
-    return;
-
-  if (hasReturn) {
-    int BBNum = MBB.getNumber();
-    ReturnBBs[BBNum] = std::max(ReturnBBs[BBNum], Cycles);
-
-    return;
-  }
-
-  // Follow branches in BB and look for returns
-  for (MachineBasicBlock::succ_iterator I = MBB.succ_begin();
-       I != MBB.succ_end(); ++I) {
-    findReturn(MF, **I, Cycles);
-  }
-}
-
-/// cyclesUntilReturn - if the MBB has a return instruction, set Location to
-/// to the instruction and return true. Return false otherwise.
-/// Cycles will be incremented by the number of cycles taken to reach the
-/// return or the end of the BB, whichever occurs first.
-bool PadShortFunc::cyclesUntilReturn(MachineFunction &MF,
-                                  MachineBasicBlock &MBB,
-                                  unsigned int &Cycles,
-                                  MachineBasicBlock::iterator *Location)
-{
-  const TargetInstrInfo &TII = *MF.getTarget().getInstrInfo();
-  const TargetMachine &Target = MF.getTarget();
-
-  for (MachineBasicBlock::iterator MBBI = MBB.begin(); MBBI != MBB.end();
-       ++MBBI) {
-    MachineInstr *MI = MBBI;
-    // Mark basic blocks with a return instruction. Calls to other functions
-    // do not count because the called function will be padded, if necessary
-    if (MI->isReturn() && !MI->isCall()) {
-      if (Location)
-        *Location = MBBI;
-      return true;
-    }
-
-    Cycles += TII.getInstrLatency(Target.getInstrItineraryData(), MI);
-  }
-
-  return false;
-}
-
-/// addPadding - Add the given number of NOOP instructions to the function
-/// right before the return at MBBI
-bool PadShortFunc::addPadding(MachineFunction &MF,
-                              MachineBasicBlock &MBB,
-                              MachineBasicBlock::iterator &MBBI,
-                              unsigned int NOOPsToAdd)
-{
-  const TargetInstrInfo &TII = *MF.getTarget().getInstrInfo();
-
-  DebugLoc DL = MBBI->getDebugLoc();
-
-  while (NOOPsToAdd-- > 0) {
-    // Since Atom has two instruction execution ports,
-    // the code emits two noops, which will be executed in parallell
-    // during one cycle.
-    BuildMI(MBB, MBBI, DL, TII.get(X86::NOOP));
-    BuildMI(MBB, MBBI, DL, TII.get(X86::NOOP));
-  }
-
-  return true;
-}
-
index 53c28f4fce2cd9df42b74dab839099c212bf3871..d493b787524ccf6bea750afb82065b75ccc94996 100644 (file)
@@ -350,7 +350,6 @@ X86Subtarget::X86Subtarget(const std::string &TT, const std::string &CPU,
   , UseLeaForSP(false)
   , HasSlowDivide(false)
   , PostRAScheduler(false)
-  , PadShortFunctions(false)
   , stackAlignment(4)
   // FIXME: this is a known good value for Yonah. How about others?
   , MaxInlineSizeThreshold(128)
index 080f4cfeca7592aff40b92ffa7a4d2415de864f5..44f38a1a916d70f049cafa3d5c717235686c8fd4 100644 (file)
@@ -146,10 +146,6 @@ protected:
   /// PostRAScheduler - True if using post-register-allocation scheduler.
   bool PostRAScheduler;
 
-  /// PadShortFunctions - True if the short functions should be padded to prevent
-  /// a stall when returning too early.
-  bool PadShortFunctions;
-
   /// stackAlignment - The minimum alignment known to hold of the stack frame on
   /// entry to the function and which must be maintained by every function.
   unsigned stackAlignment;
@@ -235,7 +231,6 @@ public:
   bool hasCmpxchg16b() const { return HasCmpxchg16b; }
   bool useLeaForSP() const { return UseLeaForSP; }
   bool hasSlowDivide() const { return HasSlowDivide; }
-  bool padShortFunctions() const { return PadShortFunctions; }
 
   bool isAtom() const { return X86ProcFamily == IntelAtom; }
 
index 8393f7e91eda215f065c00d45eb7550b34e7c953..ea99796f35125fb4fb34f3bb7b93a704312ec8d8 100644 (file)
@@ -190,10 +190,6 @@ bool X86PassConfig::addPreEmitPass() {
     addPass(createX86IssueVZeroUpperPass());
     ShouldPrint = true;
   }
-  if (getX86Subtarget().padShortFunctions()){
-    addPass(createX86PadShortFunctions());
-    ShouldPrint = true;
-  }
 
   return ShouldPrint;
 }
diff --git a/test/CodeGen/X86/atom-pad-short-functions.ll b/test/CodeGen/X86/atom-pad-short-functions.ll
deleted file mode 100644 (file)
index 3e59934..0000000
+++ /dev/null
@@ -1,71 +0,0 @@
-; RUN: llc < %s -mcpu=atom -mtriple=i686-linux  | FileCheck %s
-
-declare void @external_function(...)
-
-define i32 @test_return_val(i32 %a) nounwind {
-; CHECK: test_return_val
-; CHECK: movl
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: ret
-  ret i32 %a
-}
-
-define i32 @test_add(i32 %a, i32 %b) nounwind {
-; CHECK: test_add
-; CHECK: addl
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: ret
-  %result = add i32 %a, %b
-  ret i32 %result
-}
-
-define i32 @test_multiple_ret(i32 %a, i32 %b, i1 %c) nounwind {
-; CHECK: @test_multiple_ret
-; CHECK: je
-
-; CHECK: nop
-; CHECK: nop
-; CHECK: ret
-
-; CHECK: nop
-; CHECK: nop
-; CHECK: ret
-
-  br i1 %c, label %bb1, label %bb2
-
-bb1:
-  ret i32 %a
-
-bb2:
-  ret i32 %b
-}
-
-define void @test_call_others(i32 %x) nounwind
-{
-; CHECK: test_call_others
-; CHECK: je
-  %tobool = icmp eq i32 %x, 0
-  br i1 %tobool, label %if.end, label %true.case
-
-; CHECK: jmp external_function
-true.case:
-  tail call void bitcast (void (...)* @external_function to void ()*)() nounwind
-  br label %if.end
-
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: nop
-; CHECK: ret
-if.end:
-  ret void
-
-}
index ad1520ef81943bbca3941082cf6ecdb98b0e848b..cdfaf7f4c13487f2f4243f371c0855a77d09cbb5 100644 (file)
@@ -1,5 +1,5 @@
-; RUN: llc < %s -mattr=-avx -fast-isel -mcpu=core2 -O0 -regalloc=fast -asm-verbose=0 -fast-isel-abort | FileCheck %s
-; RUN: llc < %s -mattr=+avx -fast-isel -mcpu=core2 -O0 -regalloc=fast -asm-verbose=0 -fast-isel-abort | FileCheck %s --check-prefix=AVX
+; RUN: llc < %s -mattr=-avx -fast-isel -O0 -regalloc=fast -asm-verbose=0 -fast-isel-abort | FileCheck %s
+; RUN: llc < %s -mattr=+avx -fast-isel -O0 -regalloc=fast -asm-verbose=0 -fast-isel-abort | FileCheck %s --check-prefix=AVX
 
 target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"
 target triple = "x86_64-apple-darwin10.0.0"
index 778e4722cd953f4ab8fc15b183717aedb156877c..865e147a4a243f877c360f086e5c47051ebed5c3 100644 (file)
@@ -1,4 +1,4 @@
-; RUN: llc < %s -mtriple=x86_64-apple-darwin11 -mcpu=core2 -mattr=+mmx,+sse2 | FileCheck %s
+; RUN: llc < %s -mtriple=x86_64-apple-darwin11 -mattr=+mmx,+sse2 | FileCheck %s
 ; rdar://6602459
 
 @g_v1di = external global <1 x i64>
index 09ca07b31a10886989a78f673c0ff0973bd7e85b..3bec3acdbf76557c211a7581134223508230d017 100644 (file)
@@ -282,7 +282,7 @@ define i32 @test13(i32 %a, i32 %b) nounwind {
 ; ATOM: test13:
 ; ATOM: cmpl
 ; ATOM-NEXT: sbbl
-; ATOM: ret
+; ATOM-NEXT: ret
 }
 
 define i32 @test14(i32 %a, i32 %b) nounwind {
@@ -299,7 +299,7 @@ define i32 @test14(i32 %a, i32 %b) nounwind {
 ; ATOM: cmpl
 ; ATOM-NEXT: sbbl
 ; ATOM-NEXT: notl
-; ATOM: ret
+; ATOM-NEXT: ret
 }
 
 ; rdar://10961709