bfa4145d50e8599fa04741e35723414106f7706a
[oota-llvm.git] / lib / Target / X86 / X86ISelLowering.cpp
1 //===-- X86ISelLowering.cpp - X86 DAG Lowering Implementation -------------===//
2 //
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 //
10 // This file defines the interfaces that X86 uses to lower LLVM code into a
11 // selection DAG.
12 //
13 //===----------------------------------------------------------------------===//
14
15 #include "X86ISelLowering.h"
16 #include "Utils/X86ShuffleDecode.h"
17 #include "X86CallingConv.h"
18 #include "X86FrameLowering.h"
19 #include "X86InstrBuilder.h"
20 #include "X86MachineFunctionInfo.h"
21 #include "X86TargetMachine.h"
22 #include "X86TargetObjectFile.h"
23 #include "llvm/ADT/SmallBitVector.h"
24 #include "llvm/ADT/SmallSet.h"
25 #include "llvm/ADT/Statistic.h"
26 #include "llvm/ADT/StringExtras.h"
27 #include "llvm/ADT/StringSwitch.h"
28 #include "llvm/CodeGen/IntrinsicLowering.h"
29 #include "llvm/CodeGen/MachineFrameInfo.h"
30 #include "llvm/CodeGen/MachineFunction.h"
31 #include "llvm/CodeGen/MachineInstrBuilder.h"
32 #include "llvm/CodeGen/MachineJumpTableInfo.h"
33 #include "llvm/CodeGen/MachineModuleInfo.h"
34 #include "llvm/CodeGen/MachineRegisterInfo.h"
35 #include "llvm/CodeGen/WinEHFuncInfo.h"
36 #include "llvm/IR/CallSite.h"
37 #include "llvm/IR/CallingConv.h"
38 #include "llvm/IR/Constants.h"
39 #include "llvm/IR/DerivedTypes.h"
40 #include "llvm/IR/Function.h"
41 #include "llvm/IR/GlobalAlias.h"
42 #include "llvm/IR/GlobalVariable.h"
43 #include "llvm/IR/Instructions.h"
44 #include "llvm/IR/Intrinsics.h"
45 #include "llvm/MC/MCAsmInfo.h"
46 #include "llvm/MC/MCContext.h"
47 #include "llvm/MC/MCExpr.h"
48 #include "llvm/MC/MCSymbol.h"
49 #include "llvm/Support/CommandLine.h"
50 #include "llvm/Support/Debug.h"
51 #include "llvm/Support/ErrorHandling.h"
52 #include "llvm/Support/MathExtras.h"
53 #include "llvm/Target/TargetOptions.h"
54 #include "X86IntrinsicsInfo.h"
55 #include <bitset>
56 #include <numeric>
57 #include <cctype>
58 using namespace llvm;
59
60 #define DEBUG_TYPE "x86-isel"
61
62 STATISTIC(NumTailCalls, "Number of tail calls");
63
64 static cl::opt<bool> ExperimentalVectorWideningLegalization(
65     "x86-experimental-vector-widening-legalization", cl::init(false),
66     cl::desc("Enable an experimental vector type legalization through widening "
67              "rather than promotion."),
68     cl::Hidden);
69
70 X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
71                                      const X86Subtarget &STI)
72     : TargetLowering(TM), Subtarget(&STI) {
73   X86ScalarSSEf64 = Subtarget->hasSSE2();
74   X86ScalarSSEf32 = Subtarget->hasSSE1();
75   MVT PtrVT = MVT::getIntegerVT(8 * TM.getPointerSize());
76
77   // Set up the TargetLowering object.
78   static const MVT IntVTs[] = { MVT::i8, MVT::i16, MVT::i32, MVT::i64 };
79
80   // X86 is weird. It always uses i8 for shift amounts and setcc results.
81   setBooleanContents(ZeroOrOneBooleanContent);
82   // X86-SSE is even stranger. It uses -1 or 0 for vector masks.
83   setBooleanVectorContents(ZeroOrNegativeOneBooleanContent);
84
85   // For 64-bit, since we have so many registers, use the ILP scheduler.
86   // For 32-bit, use the register pressure specific scheduling.
87   // For Atom, always use ILP scheduling.
88   if (Subtarget->isAtom())
89     setSchedulingPreference(Sched::ILP);
90   else if (Subtarget->is64Bit())
91     setSchedulingPreference(Sched::ILP);
92   else
93     setSchedulingPreference(Sched::RegPressure);
94   const X86RegisterInfo *RegInfo = Subtarget->getRegisterInfo();
95   setStackPointerRegisterToSaveRestore(RegInfo->getStackRegister());
96
97   // Bypass expensive divides on Atom when compiling with O2.
98   if (TM.getOptLevel() >= CodeGenOpt::Default) {
99     if (Subtarget->hasSlowDivide32())
100       addBypassSlowDiv(32, 8);
101     if (Subtarget->hasSlowDivide64() && Subtarget->is64Bit())
102       addBypassSlowDiv(64, 16);
103   }
104
105   if (Subtarget->isTargetKnownWindowsMSVC()) {
106     // Setup Windows compiler runtime calls.
107     setLibcallName(RTLIB::SDIV_I64, "_alldiv");
108     setLibcallName(RTLIB::UDIV_I64, "_aulldiv");
109     setLibcallName(RTLIB::SREM_I64, "_allrem");
110     setLibcallName(RTLIB::UREM_I64, "_aullrem");
111     setLibcallName(RTLIB::MUL_I64, "_allmul");
112     setLibcallCallingConv(RTLIB::SDIV_I64, CallingConv::X86_StdCall);
113     setLibcallCallingConv(RTLIB::UDIV_I64, CallingConv::X86_StdCall);
114     setLibcallCallingConv(RTLIB::SREM_I64, CallingConv::X86_StdCall);
115     setLibcallCallingConv(RTLIB::UREM_I64, CallingConv::X86_StdCall);
116     setLibcallCallingConv(RTLIB::MUL_I64, CallingConv::X86_StdCall);
117   }
118
119   if (Subtarget->isTargetDarwin()) {
120     // Darwin should use _setjmp/_longjmp instead of setjmp/longjmp.
121     setUseUnderscoreSetJmp(false);
122     setUseUnderscoreLongJmp(false);
123   } else if (Subtarget->isTargetWindowsGNU()) {
124     // MS runtime is weird: it exports _setjmp, but longjmp!
125     setUseUnderscoreSetJmp(true);
126     setUseUnderscoreLongJmp(false);
127   } else {
128     setUseUnderscoreSetJmp(true);
129     setUseUnderscoreLongJmp(true);
130   }
131
132   // Set up the register classes.
133   addRegisterClass(MVT::i8, &X86::GR8RegClass);
134   addRegisterClass(MVT::i16, &X86::GR16RegClass);
135   addRegisterClass(MVT::i32, &X86::GR32RegClass);
136   if (Subtarget->is64Bit())
137     addRegisterClass(MVT::i64, &X86::GR64RegClass);
138
139   for (MVT VT : MVT::integer_valuetypes())
140     setLoadExtAction(ISD::SEXTLOAD, VT, MVT::i1, Promote);
141
142   // We don't accept any truncstore of integer registers.
143   setTruncStoreAction(MVT::i64, MVT::i32, Expand);
144   setTruncStoreAction(MVT::i64, MVT::i16, Expand);
145   setTruncStoreAction(MVT::i64, MVT::i8 , Expand);
146   setTruncStoreAction(MVT::i32, MVT::i16, Expand);
147   setTruncStoreAction(MVT::i32, MVT::i8 , Expand);
148   setTruncStoreAction(MVT::i16, MVT::i8,  Expand);
149
150   setTruncStoreAction(MVT::f64, MVT::f32, Expand);
151
152   // SETOEQ and SETUNE require checking two conditions.
153   setCondCodeAction(ISD::SETOEQ, MVT::f32, Expand);
154   setCondCodeAction(ISD::SETOEQ, MVT::f64, Expand);
155   setCondCodeAction(ISD::SETOEQ, MVT::f80, Expand);
156   setCondCodeAction(ISD::SETUNE, MVT::f32, Expand);
157   setCondCodeAction(ISD::SETUNE, MVT::f64, Expand);
158   setCondCodeAction(ISD::SETUNE, MVT::f80, Expand);
159
160   // Promote all UINT_TO_FP to larger SINT_TO_FP's, as X86 doesn't have this
161   // operation.
162   setOperationAction(ISD::UINT_TO_FP       , MVT::i1   , Promote);
163   setOperationAction(ISD::UINT_TO_FP       , MVT::i8   , Promote);
164   setOperationAction(ISD::UINT_TO_FP       , MVT::i16  , Promote);
165
166   if (Subtarget->is64Bit()) {
167     setOperationAction(ISD::UINT_TO_FP     , MVT::i32  , Promote);
168     setOperationAction(ISD::UINT_TO_FP     , MVT::i64  , Custom);
169   } else if (!Subtarget->useSoftFloat()) {
170     // We have an algorithm for SSE2->double, and we turn this into a
171     // 64-bit FILD followed by conditional FADD for other targets.
172     setOperationAction(ISD::UINT_TO_FP     , MVT::i64  , Custom);
173     // We have an algorithm for SSE2, and we turn this into a 64-bit
174     // FILD for other targets.
175     setOperationAction(ISD::UINT_TO_FP     , MVT::i32  , Custom);
176   }
177
178   // Promote i1/i8 SINT_TO_FP to larger SINT_TO_FP's, as X86 doesn't have
179   // this operation.
180   setOperationAction(ISD::SINT_TO_FP       , MVT::i1   , Promote);
181   setOperationAction(ISD::SINT_TO_FP       , MVT::i8   , Promote);
182
183   if (!Subtarget->useSoftFloat()) {
184     // SSE has no i16 to fp conversion, only i32
185     if (X86ScalarSSEf32) {
186       setOperationAction(ISD::SINT_TO_FP     , MVT::i16  , Promote);
187       // f32 and f64 cases are Legal, f80 case is not
188       setOperationAction(ISD::SINT_TO_FP     , MVT::i32  , Custom);
189     } else {
190       setOperationAction(ISD::SINT_TO_FP     , MVT::i16  , Custom);
191       setOperationAction(ISD::SINT_TO_FP     , MVT::i32  , Custom);
192     }
193   } else {
194     setOperationAction(ISD::SINT_TO_FP     , MVT::i16  , Promote);
195     setOperationAction(ISD::SINT_TO_FP     , MVT::i32  , Promote);
196   }
197
198   // In 32-bit mode these are custom lowered.  In 64-bit mode F32 and F64
199   // are Legal, f80 is custom lowered.
200   setOperationAction(ISD::FP_TO_SINT     , MVT::i64  , Custom);
201   setOperationAction(ISD::SINT_TO_FP     , MVT::i64  , Custom);
202
203   // Promote i1/i8 FP_TO_SINT to larger FP_TO_SINTS's, as X86 doesn't have
204   // this operation.
205   setOperationAction(ISD::FP_TO_SINT       , MVT::i1   , Promote);
206   setOperationAction(ISD::FP_TO_SINT       , MVT::i8   , Promote);
207
208   if (X86ScalarSSEf32) {
209     setOperationAction(ISD::FP_TO_SINT     , MVT::i16  , Promote);
210     // f32 and f64 cases are Legal, f80 case is not
211     setOperationAction(ISD::FP_TO_SINT     , MVT::i32  , Custom);
212   } else {
213     setOperationAction(ISD::FP_TO_SINT     , MVT::i16  , Custom);
214     setOperationAction(ISD::FP_TO_SINT     , MVT::i32  , Custom);
215   }
216
217   // Handle FP_TO_UINT by promoting the destination to a larger signed
218   // conversion.
219   setOperationAction(ISD::FP_TO_UINT       , MVT::i1   , Promote);
220   setOperationAction(ISD::FP_TO_UINT       , MVT::i8   , Promote);
221   setOperationAction(ISD::FP_TO_UINT       , MVT::i16  , Promote);
222
223   if (Subtarget->is64Bit()) {
224     if (!Subtarget->useSoftFloat() && Subtarget->hasAVX512()) {
225       // FP_TO_UINT-i32/i64 is legal for f32/f64, but custom for f80.
226       setOperationAction(ISD::FP_TO_UINT   , MVT::i32  , Custom);
227       setOperationAction(ISD::FP_TO_UINT   , MVT::i64  , Custom);
228     } else {
229       setOperationAction(ISD::FP_TO_UINT   , MVT::i32  , Promote);
230       setOperationAction(ISD::FP_TO_UINT   , MVT::i64  , Expand);
231     }
232   } else if (!Subtarget->useSoftFloat()) {
233     // Since AVX is a superset of SSE3, only check for SSE here.
234     if (Subtarget->hasSSE1() && !Subtarget->hasSSE3())
235       // Expand FP_TO_UINT into a select.
236       // FIXME: We would like to use a Custom expander here eventually to do
237       // the optimal thing for SSE vs. the default expansion in the legalizer.
238       setOperationAction(ISD::FP_TO_UINT   , MVT::i32  , Expand);
239     else
240       // With AVX512 we can use vcvts[ds]2usi for f32/f64->i32, f80 is custom.
241       // With SSE3 we can use fisttpll to convert to a signed i64; without
242       // SSE, we're stuck with a fistpll.
243       setOperationAction(ISD::FP_TO_UINT   , MVT::i32  , Custom);
244
245     setOperationAction(ISD::FP_TO_UINT     , MVT::i64  , Custom);
246   }
247
248   // TODO: when we have SSE, these could be more efficient, by using movd/movq.
249   if (!X86ScalarSSEf64) {
250     setOperationAction(ISD::BITCAST        , MVT::f32  , Expand);
251     setOperationAction(ISD::BITCAST        , MVT::i32  , Expand);
252     if (Subtarget->is64Bit()) {
253       setOperationAction(ISD::BITCAST      , MVT::f64  , Expand);
254       // Without SSE, i64->f64 goes through memory.
255       setOperationAction(ISD::BITCAST      , MVT::i64  , Expand);
256     }
257   }
258
259   // Scalar integer divide and remainder are lowered to use operations that
260   // produce two results, to match the available instructions. This exposes
261   // the two-result form to trivial CSE, which is able to combine x/y and x%y
262   // into a single instruction.
263   //
264   // Scalar integer multiply-high is also lowered to use two-result
265   // operations, to match the available instructions. However, plain multiply
266   // (low) operations are left as Legal, as there are single-result
267   // instructions for this in x86. Using the two-result multiply instructions
268   // when both high and low results are needed must be arranged by dagcombine.
269   for (unsigned i = 0; i != array_lengthof(IntVTs); ++i) {
270     MVT VT = IntVTs[i];
271     setOperationAction(ISD::MULHS, VT, Expand);
272     setOperationAction(ISD::MULHU, VT, Expand);
273     setOperationAction(ISD::SDIV, VT, Expand);
274     setOperationAction(ISD::UDIV, VT, Expand);
275     setOperationAction(ISD::SREM, VT, Expand);
276     setOperationAction(ISD::UREM, VT, Expand);
277
278     // Add/Sub overflow ops with MVT::Glues are lowered to EFLAGS dependences.
279     setOperationAction(ISD::ADDC, VT, Custom);
280     setOperationAction(ISD::ADDE, VT, Custom);
281     setOperationAction(ISD::SUBC, VT, Custom);
282     setOperationAction(ISD::SUBE, VT, Custom);
283   }
284
285   setOperationAction(ISD::BR_JT            , MVT::Other, Expand);
286   setOperationAction(ISD::BRCOND           , MVT::Other, Custom);
287   setOperationAction(ISD::BR_CC            , MVT::f32,   Expand);
288   setOperationAction(ISD::BR_CC            , MVT::f64,   Expand);
289   setOperationAction(ISD::BR_CC            , MVT::f80,   Expand);
290   setOperationAction(ISD::BR_CC            , MVT::i8,    Expand);
291   setOperationAction(ISD::BR_CC            , MVT::i16,   Expand);
292   setOperationAction(ISD::BR_CC            , MVT::i32,   Expand);
293   setOperationAction(ISD::BR_CC            , MVT::i64,   Expand);
294   setOperationAction(ISD::SELECT_CC        , MVT::f32,   Expand);
295   setOperationAction(ISD::SELECT_CC        , MVT::f64,   Expand);
296   setOperationAction(ISD::SELECT_CC        , MVT::f80,   Expand);
297   setOperationAction(ISD::SELECT_CC        , MVT::i8,    Expand);
298   setOperationAction(ISD::SELECT_CC        , MVT::i16,   Expand);
299   setOperationAction(ISD::SELECT_CC        , MVT::i32,   Expand);
300   setOperationAction(ISD::SELECT_CC        , MVT::i64,   Expand);
301   if (Subtarget->is64Bit())
302     setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i32, Legal);
303   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i16  , Legal);
304   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i8   , Legal);
305   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i1   , Expand);
306   setOperationAction(ISD::FP_ROUND_INREG   , MVT::f32  , Expand);
307   setOperationAction(ISD::FREM             , MVT::f32  , Expand);
308   setOperationAction(ISD::FREM             , MVT::f64  , Expand);
309   setOperationAction(ISD::FREM             , MVT::f80  , Expand);
310   setOperationAction(ISD::FLT_ROUNDS_      , MVT::i32  , Custom);
311
312   // Promote the i8 variants and force them on up to i32 which has a shorter
313   // encoding.
314   setOperationAction(ISD::CTTZ             , MVT::i8   , Promote);
315   AddPromotedToType (ISD::CTTZ             , MVT::i8   , MVT::i32);
316   setOperationAction(ISD::CTTZ_ZERO_UNDEF  , MVT::i8   , Promote);
317   AddPromotedToType (ISD::CTTZ_ZERO_UNDEF  , MVT::i8   , MVT::i32);
318   if (Subtarget->hasBMI()) {
319     setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i16  , Expand);
320     setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i32  , Expand);
321     if (Subtarget->is64Bit())
322       setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i64, Expand);
323   } else {
324     setOperationAction(ISD::CTTZ           , MVT::i16  , Custom);
325     setOperationAction(ISD::CTTZ           , MVT::i32  , Custom);
326     if (Subtarget->is64Bit())
327       setOperationAction(ISD::CTTZ         , MVT::i64  , Custom);
328   }
329
330   if (Subtarget->hasLZCNT()) {
331     // When promoting the i8 variants, force them to i32 for a shorter
332     // encoding.
333     setOperationAction(ISD::CTLZ           , MVT::i8   , Promote);
334     AddPromotedToType (ISD::CTLZ           , MVT::i8   , MVT::i32);
335     setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i8   , Promote);
336     AddPromotedToType (ISD::CTLZ_ZERO_UNDEF, MVT::i8   , MVT::i32);
337     setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i16  , Expand);
338     setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i32  , Expand);
339     if (Subtarget->is64Bit())
340       setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i64, Expand);
341   } else {
342     setOperationAction(ISD::CTLZ           , MVT::i8   , Custom);
343     setOperationAction(ISD::CTLZ           , MVT::i16  , Custom);
344     setOperationAction(ISD::CTLZ           , MVT::i32  , Custom);
345     setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i8   , Custom);
346     setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i16  , Custom);
347     setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i32  , Custom);
348     if (Subtarget->is64Bit()) {
349       setOperationAction(ISD::CTLZ         , MVT::i64  , Custom);
350       setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i64, Custom);
351     }
352   }
353
354   // Special handling for half-precision floating point conversions.
355   // If we don't have F16C support, then lower half float conversions
356   // into library calls.
357   if (Subtarget->useSoftFloat() || !Subtarget->hasF16C()) {
358     setOperationAction(ISD::FP16_TO_FP, MVT::f32, Expand);
359     setOperationAction(ISD::FP_TO_FP16, MVT::f32, Expand);
360   }
361
362   // There's never any support for operations beyond MVT::f32.
363   setOperationAction(ISD::FP16_TO_FP, MVT::f64, Expand);
364   setOperationAction(ISD::FP16_TO_FP, MVT::f80, Expand);
365   setOperationAction(ISD::FP_TO_FP16, MVT::f64, Expand);
366   setOperationAction(ISD::FP_TO_FP16, MVT::f80, Expand);
367
368   setLoadExtAction(ISD::EXTLOAD, MVT::f32, MVT::f16, Expand);
369   setLoadExtAction(ISD::EXTLOAD, MVT::f64, MVT::f16, Expand);
370   setLoadExtAction(ISD::EXTLOAD, MVT::f80, MVT::f16, Expand);
371   setTruncStoreAction(MVT::f32, MVT::f16, Expand);
372   setTruncStoreAction(MVT::f64, MVT::f16, Expand);
373   setTruncStoreAction(MVT::f80, MVT::f16, Expand);
374
375   if (Subtarget->hasPOPCNT()) {
376     setOperationAction(ISD::CTPOP          , MVT::i8   , Promote);
377   } else {
378     setOperationAction(ISD::CTPOP          , MVT::i8   , Expand);
379     setOperationAction(ISD::CTPOP          , MVT::i16  , Expand);
380     setOperationAction(ISD::CTPOP          , MVT::i32  , Expand);
381     if (Subtarget->is64Bit())
382       setOperationAction(ISD::CTPOP        , MVT::i64  , Expand);
383   }
384
385   setOperationAction(ISD::READCYCLECOUNTER , MVT::i64  , Custom);
386
387   if (!Subtarget->hasMOVBE())
388     setOperationAction(ISD::BSWAP          , MVT::i16  , Expand);
389
390   // These should be promoted to a larger select which is supported.
391   setOperationAction(ISD::SELECT          , MVT::i1   , Promote);
392   // X86 wants to expand cmov itself.
393   setOperationAction(ISD::SELECT          , MVT::i8   , Custom);
394   setOperationAction(ISD::SELECT          , MVT::i16  , Custom);
395   setOperationAction(ISD::SELECT          , MVT::i32  , Custom);
396   setOperationAction(ISD::SELECT          , MVT::f32  , Custom);
397   setOperationAction(ISD::SELECT          , MVT::f64  , Custom);
398   setOperationAction(ISD::SELECT          , MVT::f80  , Custom);
399   setOperationAction(ISD::SETCC           , MVT::i8   , Custom);
400   setOperationAction(ISD::SETCC           , MVT::i16  , Custom);
401   setOperationAction(ISD::SETCC           , MVT::i32  , Custom);
402   setOperationAction(ISD::SETCC           , MVT::f32  , Custom);
403   setOperationAction(ISD::SETCC           , MVT::f64  , Custom);
404   setOperationAction(ISD::SETCC           , MVT::f80  , Custom);
405   if (Subtarget->is64Bit()) {
406     setOperationAction(ISD::SELECT        , MVT::i64  , Custom);
407     setOperationAction(ISD::SETCC         , MVT::i64  , Custom);
408   }
409   setOperationAction(ISD::EH_RETURN       , MVT::Other, Custom);
410   setOperationAction(ISD::CATCHRET        , MVT::Other, Custom);
411   // NOTE: EH_SJLJ_SETJMP/_LONGJMP supported here is NOT intended to support
412   // SjLj exception handling but a light-weight setjmp/longjmp replacement to
413   // support continuation, user-level threading, and etc.. As a result, no
414   // other SjLj exception interfaces are implemented and please don't build
415   // your own exception handling based on them.
416   // LLVM/Clang supports zero-cost DWARF exception handling.
417   setOperationAction(ISD::EH_SJLJ_SETJMP, MVT::i32, Custom);
418   setOperationAction(ISD::EH_SJLJ_LONGJMP, MVT::Other, Custom);
419
420   // Darwin ABI issue.
421   setOperationAction(ISD::ConstantPool    , MVT::i32  , Custom);
422   setOperationAction(ISD::JumpTable       , MVT::i32  , Custom);
423   setOperationAction(ISD::GlobalAddress   , MVT::i32  , Custom);
424   setOperationAction(ISD::GlobalTLSAddress, MVT::i32  , Custom);
425   if (Subtarget->is64Bit())
426     setOperationAction(ISD::GlobalTLSAddress, MVT::i64, Custom);
427   setOperationAction(ISD::ExternalSymbol  , MVT::i32  , Custom);
428   setOperationAction(ISD::BlockAddress    , MVT::i32  , Custom);
429   if (Subtarget->is64Bit()) {
430     setOperationAction(ISD::ConstantPool  , MVT::i64  , Custom);
431     setOperationAction(ISD::JumpTable     , MVT::i64  , Custom);
432     setOperationAction(ISD::GlobalAddress , MVT::i64  , Custom);
433     setOperationAction(ISD::ExternalSymbol, MVT::i64  , Custom);
434     setOperationAction(ISD::BlockAddress  , MVT::i64  , Custom);
435   }
436   // 64-bit addm sub, shl, sra, srl (iff 32-bit x86)
437   setOperationAction(ISD::SHL_PARTS       , MVT::i32  , Custom);
438   setOperationAction(ISD::SRA_PARTS       , MVT::i32  , Custom);
439   setOperationAction(ISD::SRL_PARTS       , MVT::i32  , Custom);
440   if (Subtarget->is64Bit()) {
441     setOperationAction(ISD::SHL_PARTS     , MVT::i64  , Custom);
442     setOperationAction(ISD::SRA_PARTS     , MVT::i64  , Custom);
443     setOperationAction(ISD::SRL_PARTS     , MVT::i64  , Custom);
444   }
445
446   if (Subtarget->hasSSE1())
447     setOperationAction(ISD::PREFETCH      , MVT::Other, Legal);
448
449   setOperationAction(ISD::ATOMIC_FENCE  , MVT::Other, Custom);
450
451   // Expand certain atomics
452   for (unsigned i = 0; i != array_lengthof(IntVTs); ++i) {
453     MVT VT = IntVTs[i];
454     setOperationAction(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS, VT, Custom);
455     setOperationAction(ISD::ATOMIC_LOAD_SUB, VT, Custom);
456     setOperationAction(ISD::ATOMIC_STORE, VT, Custom);
457   }
458
459   if (Subtarget->hasCmpxchg16b()) {
460     setOperationAction(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS, MVT::i128, Custom);
461   }
462
463   // FIXME - use subtarget debug flags
464   if (!Subtarget->isTargetDarwin() && !Subtarget->isTargetELF() &&
465       !Subtarget->isTargetCygMing() && !Subtarget->isTargetWin64()) {
466     setOperationAction(ISD::EH_LABEL, MVT::Other, Expand);
467   }
468
469   if (Subtarget->isTarget64BitLP64()) {
470     setExceptionPointerRegister(X86::RAX);
471     setExceptionSelectorRegister(X86::RDX);
472   } else {
473     setExceptionPointerRegister(X86::EAX);
474     setExceptionSelectorRegister(X86::EDX);
475   }
476   setOperationAction(ISD::FRAME_TO_ARGS_OFFSET, MVT::i32, Custom);
477   setOperationAction(ISD::FRAME_TO_ARGS_OFFSET, MVT::i64, Custom);
478
479   setOperationAction(ISD::INIT_TRAMPOLINE, MVT::Other, Custom);
480   setOperationAction(ISD::ADJUST_TRAMPOLINE, MVT::Other, Custom);
481
482   setOperationAction(ISD::TRAP, MVT::Other, Legal);
483   setOperationAction(ISD::DEBUGTRAP, MVT::Other, Legal);
484
485   // VASTART needs to be custom lowered to use the VarArgsFrameIndex
486   setOperationAction(ISD::VASTART           , MVT::Other, Custom);
487   setOperationAction(ISD::VAEND             , MVT::Other, Expand);
488   if (Subtarget->is64Bit()) {
489     setOperationAction(ISD::VAARG           , MVT::Other, Custom);
490     setOperationAction(ISD::VACOPY          , MVT::Other, Custom);
491   } else {
492     // TargetInfo::CharPtrBuiltinVaList
493     setOperationAction(ISD::VAARG           , MVT::Other, Expand);
494     setOperationAction(ISD::VACOPY          , MVT::Other, Expand);
495   }
496
497   setOperationAction(ISD::STACKSAVE,          MVT::Other, Expand);
498   setOperationAction(ISD::STACKRESTORE,       MVT::Other, Expand);
499
500   setOperationAction(ISD::DYNAMIC_STACKALLOC, PtrVT, Custom);
501
502   // GC_TRANSITION_START and GC_TRANSITION_END need custom lowering.
503   setOperationAction(ISD::GC_TRANSITION_START, MVT::Other, Custom);
504   setOperationAction(ISD::GC_TRANSITION_END, MVT::Other, Custom);
505
506   if (!Subtarget->useSoftFloat() && X86ScalarSSEf64) {
507     // f32 and f64 use SSE.
508     // Set up the FP register classes.
509     addRegisterClass(MVT::f32, &X86::FR32RegClass);
510     addRegisterClass(MVT::f64, &X86::FR64RegClass);
511
512     // Use ANDPD to simulate FABS.
513     setOperationAction(ISD::FABS , MVT::f64, Custom);
514     setOperationAction(ISD::FABS , MVT::f32, Custom);
515
516     // Use XORP to simulate FNEG.
517     setOperationAction(ISD::FNEG , MVT::f64, Custom);
518     setOperationAction(ISD::FNEG , MVT::f32, Custom);
519
520     // Use ANDPD and ORPD to simulate FCOPYSIGN.
521     setOperationAction(ISD::FCOPYSIGN, MVT::f64, Custom);
522     setOperationAction(ISD::FCOPYSIGN, MVT::f32, Custom);
523
524     // Lower this to FGETSIGNx86 plus an AND.
525     setOperationAction(ISD::FGETSIGN, MVT::i64, Custom);
526     setOperationAction(ISD::FGETSIGN, MVT::i32, Custom);
527
528     // We don't support sin/cos/fmod
529     setOperationAction(ISD::FSIN   , MVT::f64, Expand);
530     setOperationAction(ISD::FCOS   , MVT::f64, Expand);
531     setOperationAction(ISD::FSINCOS, MVT::f64, Expand);
532     setOperationAction(ISD::FSIN   , MVT::f32, Expand);
533     setOperationAction(ISD::FCOS   , MVT::f32, Expand);
534     setOperationAction(ISD::FSINCOS, MVT::f32, Expand);
535
536     // Expand FP immediates into loads from the stack, except for the special
537     // cases we handle.
538     addLegalFPImmediate(APFloat(+0.0)); // xorpd
539     addLegalFPImmediate(APFloat(+0.0f)); // xorps
540   } else if (!Subtarget->useSoftFloat() && X86ScalarSSEf32) {
541     // Use SSE for f32, x87 for f64.
542     // Set up the FP register classes.
543     addRegisterClass(MVT::f32, &X86::FR32RegClass);
544     addRegisterClass(MVT::f64, &X86::RFP64RegClass);
545
546     // Use ANDPS to simulate FABS.
547     setOperationAction(ISD::FABS , MVT::f32, Custom);
548
549     // Use XORP to simulate FNEG.
550     setOperationAction(ISD::FNEG , MVT::f32, Custom);
551
552     setOperationAction(ISD::UNDEF,     MVT::f64, Expand);
553
554     // Use ANDPS and ORPS to simulate FCOPYSIGN.
555     setOperationAction(ISD::FCOPYSIGN, MVT::f64, Expand);
556     setOperationAction(ISD::FCOPYSIGN, MVT::f32, Custom);
557
558     // We don't support sin/cos/fmod
559     setOperationAction(ISD::FSIN   , MVT::f32, Expand);
560     setOperationAction(ISD::FCOS   , MVT::f32, Expand);
561     setOperationAction(ISD::FSINCOS, MVT::f32, Expand);
562
563     // Special cases we handle for FP constants.
564     addLegalFPImmediate(APFloat(+0.0f)); // xorps
565     addLegalFPImmediate(APFloat(+0.0)); // FLD0
566     addLegalFPImmediate(APFloat(+1.0)); // FLD1
567     addLegalFPImmediate(APFloat(-0.0)); // FLD0/FCHS
568     addLegalFPImmediate(APFloat(-1.0)); // FLD1/FCHS
569
570     if (!TM.Options.UnsafeFPMath) {
571       setOperationAction(ISD::FSIN   , MVT::f64, Expand);
572       setOperationAction(ISD::FCOS   , MVT::f64, Expand);
573       setOperationAction(ISD::FSINCOS, MVT::f64, Expand);
574     }
575   } else if (!Subtarget->useSoftFloat()) {
576     // f32 and f64 in x87.
577     // Set up the FP register classes.
578     addRegisterClass(MVT::f64, &X86::RFP64RegClass);
579     addRegisterClass(MVT::f32, &X86::RFP32RegClass);
580
581     setOperationAction(ISD::UNDEF,     MVT::f64, Expand);
582     setOperationAction(ISD::UNDEF,     MVT::f32, Expand);
583     setOperationAction(ISD::FCOPYSIGN, MVT::f64, Expand);
584     setOperationAction(ISD::FCOPYSIGN, MVT::f32, Expand);
585
586     if (!TM.Options.UnsafeFPMath) {
587       setOperationAction(ISD::FSIN   , MVT::f64, Expand);
588       setOperationAction(ISD::FSIN   , MVT::f32, Expand);
589       setOperationAction(ISD::FCOS   , MVT::f64, Expand);
590       setOperationAction(ISD::FCOS   , MVT::f32, Expand);
591       setOperationAction(ISD::FSINCOS, MVT::f64, Expand);
592       setOperationAction(ISD::FSINCOS, MVT::f32, Expand);
593     }
594     addLegalFPImmediate(APFloat(+0.0)); // FLD0
595     addLegalFPImmediate(APFloat(+1.0)); // FLD1
596     addLegalFPImmediate(APFloat(-0.0)); // FLD0/FCHS
597     addLegalFPImmediate(APFloat(-1.0)); // FLD1/FCHS
598     addLegalFPImmediate(APFloat(+0.0f)); // FLD0
599     addLegalFPImmediate(APFloat(+1.0f)); // FLD1
600     addLegalFPImmediate(APFloat(-0.0f)); // FLD0/FCHS
601     addLegalFPImmediate(APFloat(-1.0f)); // FLD1/FCHS
602   }
603
604   // We don't support FMA.
605   setOperationAction(ISD::FMA, MVT::f64, Expand);
606   setOperationAction(ISD::FMA, MVT::f32, Expand);
607
608   // Long double always uses X87.
609   if (!Subtarget->useSoftFloat()) {
610     addRegisterClass(MVT::f80, &X86::RFP80RegClass);
611     setOperationAction(ISD::UNDEF,     MVT::f80, Expand);
612     setOperationAction(ISD::FCOPYSIGN, MVT::f80, Expand);
613     {
614       APFloat TmpFlt = APFloat::getZero(APFloat::x87DoubleExtended);
615       addLegalFPImmediate(TmpFlt);  // FLD0
616       TmpFlt.changeSign();
617       addLegalFPImmediate(TmpFlt);  // FLD0/FCHS
618
619       bool ignored;
620       APFloat TmpFlt2(+1.0);
621       TmpFlt2.convert(APFloat::x87DoubleExtended, APFloat::rmNearestTiesToEven,
622                       &ignored);
623       addLegalFPImmediate(TmpFlt2);  // FLD1
624       TmpFlt2.changeSign();
625       addLegalFPImmediate(TmpFlt2);  // FLD1/FCHS
626     }
627
628     if (!TM.Options.UnsafeFPMath) {
629       setOperationAction(ISD::FSIN   , MVT::f80, Expand);
630       setOperationAction(ISD::FCOS   , MVT::f80, Expand);
631       setOperationAction(ISD::FSINCOS, MVT::f80, Expand);
632     }
633
634     setOperationAction(ISD::FFLOOR, MVT::f80, Expand);
635     setOperationAction(ISD::FCEIL,  MVT::f80, Expand);
636     setOperationAction(ISD::FTRUNC, MVT::f80, Expand);
637     setOperationAction(ISD::FRINT,  MVT::f80, Expand);
638     setOperationAction(ISD::FNEARBYINT, MVT::f80, Expand);
639     setOperationAction(ISD::FMA, MVT::f80, Expand);
640   }
641
642   // Always use a library call for pow.
643   setOperationAction(ISD::FPOW             , MVT::f32  , Expand);
644   setOperationAction(ISD::FPOW             , MVT::f64  , Expand);
645   setOperationAction(ISD::FPOW             , MVT::f80  , Expand);
646
647   setOperationAction(ISD::FLOG, MVT::f80, Expand);
648   setOperationAction(ISD::FLOG2, MVT::f80, Expand);
649   setOperationAction(ISD::FLOG10, MVT::f80, Expand);
650   setOperationAction(ISD::FEXP, MVT::f80, Expand);
651   setOperationAction(ISD::FEXP2, MVT::f80, Expand);
652   setOperationAction(ISD::FMINNUM, MVT::f80, Expand);
653   setOperationAction(ISD::FMAXNUM, MVT::f80, Expand);
654
655   // First set operation action for all vector types to either promote
656   // (for widening) or expand (for scalarization). Then we will selectively
657   // turn on ones that can be effectively codegen'd.
658   for (MVT VT : MVT::vector_valuetypes()) {
659     setOperationAction(ISD::ADD , VT, Expand);
660     setOperationAction(ISD::SUB , VT, Expand);
661     setOperationAction(ISD::FADD, VT, Expand);
662     setOperationAction(ISD::FNEG, VT, Expand);
663     setOperationAction(ISD::FSUB, VT, Expand);
664     setOperationAction(ISD::MUL , VT, Expand);
665     setOperationAction(ISD::FMUL, VT, Expand);
666     setOperationAction(ISD::SDIV, VT, Expand);
667     setOperationAction(ISD::UDIV, VT, Expand);
668     setOperationAction(ISD::FDIV, VT, Expand);
669     setOperationAction(ISD::SREM, VT, Expand);
670     setOperationAction(ISD::UREM, VT, Expand);
671     setOperationAction(ISD::LOAD, VT, Expand);
672     setOperationAction(ISD::VECTOR_SHUFFLE, VT, Expand);
673     setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT,Expand);
674     setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Expand);
675     setOperationAction(ISD::EXTRACT_SUBVECTOR, VT,Expand);
676     setOperationAction(ISD::INSERT_SUBVECTOR, VT,Expand);
677     setOperationAction(ISD::FABS, VT, Expand);
678     setOperationAction(ISD::FSIN, VT, Expand);
679     setOperationAction(ISD::FSINCOS, VT, Expand);
680     setOperationAction(ISD::FCOS, VT, Expand);
681     setOperationAction(ISD::FSINCOS, VT, Expand);
682     setOperationAction(ISD::FREM, VT, Expand);
683     setOperationAction(ISD::FMA,  VT, Expand);
684     setOperationAction(ISD::FPOWI, VT, Expand);
685     setOperationAction(ISD::FSQRT, VT, Expand);
686     setOperationAction(ISD::FCOPYSIGN, VT, Expand);
687     setOperationAction(ISD::FFLOOR, VT, Expand);
688     setOperationAction(ISD::FCEIL, VT, Expand);
689     setOperationAction(ISD::FTRUNC, VT, Expand);
690     setOperationAction(ISD::FRINT, VT, Expand);
691     setOperationAction(ISD::FNEARBYINT, VT, Expand);
692     setOperationAction(ISD::SMUL_LOHI, VT, Expand);
693     setOperationAction(ISD::MULHS, VT, Expand);
694     setOperationAction(ISD::UMUL_LOHI, VT, Expand);
695     setOperationAction(ISD::MULHU, VT, Expand);
696     setOperationAction(ISD::SDIVREM, VT, Expand);
697     setOperationAction(ISD::UDIVREM, VT, Expand);
698     setOperationAction(ISD::FPOW, VT, Expand);
699     setOperationAction(ISD::CTPOP, VT, Expand);
700     setOperationAction(ISD::CTTZ, VT, Expand);
701     setOperationAction(ISD::CTTZ_ZERO_UNDEF, VT, Expand);
702     setOperationAction(ISD::CTLZ, VT, Expand);
703     setOperationAction(ISD::CTLZ_ZERO_UNDEF, VT, Expand);
704     setOperationAction(ISD::SHL, VT, Expand);
705     setOperationAction(ISD::SRA, VT, Expand);
706     setOperationAction(ISD::SRL, VT, Expand);
707     setOperationAction(ISD::ROTL, VT, Expand);
708     setOperationAction(ISD::ROTR, VT, Expand);
709     setOperationAction(ISD::BSWAP, VT, Expand);
710     setOperationAction(ISD::SETCC, VT, Expand);
711     setOperationAction(ISD::FLOG, VT, Expand);
712     setOperationAction(ISD::FLOG2, VT, Expand);
713     setOperationAction(ISD::FLOG10, VT, Expand);
714     setOperationAction(ISD::FEXP, VT, Expand);
715     setOperationAction(ISD::FEXP2, VT, Expand);
716     setOperationAction(ISD::FP_TO_UINT, VT, Expand);
717     setOperationAction(ISD::FP_TO_SINT, VT, Expand);
718     setOperationAction(ISD::UINT_TO_FP, VT, Expand);
719     setOperationAction(ISD::SINT_TO_FP, VT, Expand);
720     setOperationAction(ISD::SIGN_EXTEND_INREG, VT,Expand);
721     setOperationAction(ISD::TRUNCATE, VT, Expand);
722     setOperationAction(ISD::SIGN_EXTEND, VT, Expand);
723     setOperationAction(ISD::ZERO_EXTEND, VT, Expand);
724     setOperationAction(ISD::ANY_EXTEND, VT, Expand);
725     setOperationAction(ISD::VSELECT, VT, Expand);
726     setOperationAction(ISD::SELECT_CC, VT, Expand);
727     for (MVT InnerVT : MVT::vector_valuetypes()) {
728       setTruncStoreAction(InnerVT, VT, Expand);
729
730       setLoadExtAction(ISD::SEXTLOAD, InnerVT, VT, Expand);
731       setLoadExtAction(ISD::ZEXTLOAD, InnerVT, VT, Expand);
732
733       // N.b. ISD::EXTLOAD legality is basically ignored except for i1-like
734       // types, we have to deal with them whether we ask for Expansion or not.
735       // Setting Expand causes its own optimisation problems though, so leave
736       // them legal.
737       if (VT.getVectorElementType() == MVT::i1)
738         setLoadExtAction(ISD::EXTLOAD, InnerVT, VT, Expand);
739
740       // EXTLOAD for MVT::f16 vectors is not legal because f16 vectors are
741       // split/scalarized right now.
742       if (VT.getVectorElementType() == MVT::f16)
743         setLoadExtAction(ISD::EXTLOAD, InnerVT, VT, Expand);
744     }
745   }
746
747   // FIXME: In order to prevent SSE instructions being expanded to MMX ones
748   // with -msoft-float, disable use of MMX as well.
749   if (!Subtarget->useSoftFloat() && Subtarget->hasMMX()) {
750     addRegisterClass(MVT::x86mmx, &X86::VR64RegClass);
751     // No operations on x86mmx supported, everything uses intrinsics.
752   }
753
754   // MMX-sized vectors (other than x86mmx) are expected to be expanded
755   // into smaller operations.
756   for (MVT MMXTy : {MVT::v8i8, MVT::v4i16, MVT::v2i32, MVT::v1i64}) {
757     setOperationAction(ISD::MULHS,              MMXTy,      Expand);
758     setOperationAction(ISD::AND,                MMXTy,      Expand);
759     setOperationAction(ISD::OR,                 MMXTy,      Expand);
760     setOperationAction(ISD::XOR,                MMXTy,      Expand);
761     setOperationAction(ISD::SCALAR_TO_VECTOR,   MMXTy,      Expand);
762     setOperationAction(ISD::SELECT,             MMXTy,      Expand);
763     setOperationAction(ISD::BITCAST,            MMXTy,      Expand);
764   }
765   setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v1i64, Expand);
766
767   if (!Subtarget->useSoftFloat() && Subtarget->hasSSE1()) {
768     addRegisterClass(MVT::v4f32, &X86::VR128RegClass);
769
770     setOperationAction(ISD::FADD,               MVT::v4f32, Legal);
771     setOperationAction(ISD::FSUB,               MVT::v4f32, Legal);
772     setOperationAction(ISD::FMUL,               MVT::v4f32, Legal);
773     setOperationAction(ISD::FDIV,               MVT::v4f32, Legal);
774     setOperationAction(ISD::FSQRT,              MVT::v4f32, Legal);
775     setOperationAction(ISD::FNEG,               MVT::v4f32, Custom);
776     setOperationAction(ISD::FABS,               MVT::v4f32, Custom);
777     setOperationAction(ISD::LOAD,               MVT::v4f32, Legal);
778     setOperationAction(ISD::BUILD_VECTOR,       MVT::v4f32, Custom);
779     setOperationAction(ISD::VECTOR_SHUFFLE,     MVT::v4f32, Custom);
780     setOperationAction(ISD::VSELECT,            MVT::v4f32, Custom);
781     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4f32, Custom);
782     setOperationAction(ISD::SELECT,             MVT::v4f32, Custom);
783     setOperationAction(ISD::UINT_TO_FP,         MVT::v4i32, Custom);
784   }
785
786   if (!Subtarget->useSoftFloat() && Subtarget->hasSSE2()) {
787     addRegisterClass(MVT::v2f64, &X86::VR128RegClass);
788
789     // FIXME: Unfortunately, -soft-float and -no-implicit-float mean XMM
790     // registers cannot be used even for integer operations.
791     addRegisterClass(MVT::v16i8, &X86::VR128RegClass);
792     addRegisterClass(MVT::v8i16, &X86::VR128RegClass);
793     addRegisterClass(MVT::v4i32, &X86::VR128RegClass);
794     addRegisterClass(MVT::v2i64, &X86::VR128RegClass);
795
796     setOperationAction(ISD::ADD,                MVT::v16i8, Legal);
797     setOperationAction(ISD::ADD,                MVT::v8i16, Legal);
798     setOperationAction(ISD::ADD,                MVT::v4i32, Legal);
799     setOperationAction(ISD::ADD,                MVT::v2i64, Legal);
800     setOperationAction(ISD::MUL,                MVT::v16i8, Custom);
801     setOperationAction(ISD::MUL,                MVT::v4i32, Custom);
802     setOperationAction(ISD::MUL,                MVT::v2i64, Custom);
803     setOperationAction(ISD::UMUL_LOHI,          MVT::v4i32, Custom);
804     setOperationAction(ISD::SMUL_LOHI,          MVT::v4i32, Custom);
805     setOperationAction(ISD::MULHU,              MVT::v8i16, Legal);
806     setOperationAction(ISD::MULHS,              MVT::v8i16, Legal);
807     setOperationAction(ISD::SUB,                MVT::v16i8, Legal);
808     setOperationAction(ISD::SUB,                MVT::v8i16, Legal);
809     setOperationAction(ISD::SUB,                MVT::v4i32, Legal);
810     setOperationAction(ISD::SUB,                MVT::v2i64, Legal);
811     setOperationAction(ISD::MUL,                MVT::v8i16, Legal);
812     setOperationAction(ISD::FADD,               MVT::v2f64, Legal);
813     setOperationAction(ISD::FSUB,               MVT::v2f64, Legal);
814     setOperationAction(ISD::FMUL,               MVT::v2f64, Legal);
815     setOperationAction(ISD::FDIV,               MVT::v2f64, Legal);
816     setOperationAction(ISD::FSQRT,              MVT::v2f64, Legal);
817     setOperationAction(ISD::FNEG,               MVT::v2f64, Custom);
818     setOperationAction(ISD::FABS,               MVT::v2f64, Custom);
819
820     setOperationAction(ISD::SMAX,               MVT::v8i16, Legal);
821     setOperationAction(ISD::UMAX,               MVT::v16i8, Legal);
822     setOperationAction(ISD::SMIN,               MVT::v8i16, Legal);
823     setOperationAction(ISD::UMIN,               MVT::v16i8, Legal);
824
825     setOperationAction(ISD::SETCC,              MVT::v2i64, Custom);
826     setOperationAction(ISD::SETCC,              MVT::v16i8, Custom);
827     setOperationAction(ISD::SETCC,              MVT::v8i16, Custom);
828     setOperationAction(ISD::SETCC,              MVT::v4i32, Custom);
829
830     setOperationAction(ISD::SCALAR_TO_VECTOR,   MVT::v16i8, Custom);
831     setOperationAction(ISD::SCALAR_TO_VECTOR,   MVT::v8i16, Custom);
832     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v8i16, Custom);
833     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v4i32, Custom);
834     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v4f32, Custom);
835
836     setOperationAction(ISD::CTPOP,              MVT::v16i8, Custom);
837     setOperationAction(ISD::CTPOP,              MVT::v8i16, Custom);
838     setOperationAction(ISD::CTPOP,              MVT::v4i32, Custom);
839     setOperationAction(ISD::CTPOP,              MVT::v2i64, Custom);
840
841     // Custom lower build_vector, vector_shuffle, and extract_vector_elt.
842     for (int i = MVT::v16i8; i != MVT::v2i64; ++i) {
843       MVT VT = (MVT::SimpleValueType)i;
844       // Do not attempt to custom lower non-power-of-2 vectors
845       if (!isPowerOf2_32(VT.getVectorNumElements()))
846         continue;
847       // Do not attempt to custom lower non-128-bit vectors
848       if (!VT.is128BitVector())
849         continue;
850       setOperationAction(ISD::BUILD_VECTOR,       VT, Custom);
851       setOperationAction(ISD::VECTOR_SHUFFLE,     VT, Custom);
852       setOperationAction(ISD::VSELECT,            VT, Custom);
853       setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
854     }
855
856     // We support custom legalizing of sext and anyext loads for specific
857     // memory vector types which we can load as a scalar (or sequence of
858     // scalars) and extend in-register to a legal 128-bit vector type. For sext
859     // loads these must work with a single scalar load.
860     for (MVT VT : MVT::integer_vector_valuetypes()) {
861       setLoadExtAction(ISD::SEXTLOAD, VT, MVT::v4i8, Custom);
862       setLoadExtAction(ISD::SEXTLOAD, VT, MVT::v4i16, Custom);
863       setLoadExtAction(ISD::SEXTLOAD, VT, MVT::v8i8, Custom);
864       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v2i8, Custom);
865       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v2i16, Custom);
866       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v2i32, Custom);
867       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v4i8, Custom);
868       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v4i16, Custom);
869       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v8i8, Custom);
870     }
871
872     setOperationAction(ISD::BUILD_VECTOR,       MVT::v2f64, Custom);
873     setOperationAction(ISD::BUILD_VECTOR,       MVT::v2i64, Custom);
874     setOperationAction(ISD::VECTOR_SHUFFLE,     MVT::v2f64, Custom);
875     setOperationAction(ISD::VECTOR_SHUFFLE,     MVT::v2i64, Custom);
876     setOperationAction(ISD::VSELECT,            MVT::v2f64, Custom);
877     setOperationAction(ISD::VSELECT,            MVT::v2i64, Custom);
878     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v2f64, Custom);
879     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v2f64, Custom);
880
881     if (Subtarget->is64Bit()) {
882       setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v2i64, Custom);
883       setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v2i64, Custom);
884     }
885
886     // Promote v16i8, v8i16, v4i32 load, select, and, or, xor to v2i64.
887     for (int i = MVT::v16i8; i != MVT::v2i64; ++i) {
888       MVT VT = (MVT::SimpleValueType)i;
889
890       // Do not attempt to promote non-128-bit vectors
891       if (!VT.is128BitVector())
892         continue;
893
894       setOperationAction(ISD::AND,    VT, Promote);
895       AddPromotedToType (ISD::AND,    VT, MVT::v2i64);
896       setOperationAction(ISD::OR,     VT, Promote);
897       AddPromotedToType (ISD::OR,     VT, MVT::v2i64);
898       setOperationAction(ISD::XOR,    VT, Promote);
899       AddPromotedToType (ISD::XOR,    VT, MVT::v2i64);
900       setOperationAction(ISD::LOAD,   VT, Promote);
901       AddPromotedToType (ISD::LOAD,   VT, MVT::v2i64);
902       setOperationAction(ISD::SELECT, VT, Promote);
903       AddPromotedToType (ISD::SELECT, VT, MVT::v2i64);
904     }
905
906     // Custom lower v2i64 and v2f64 selects.
907     setOperationAction(ISD::LOAD,               MVT::v2f64, Legal);
908     setOperationAction(ISD::LOAD,               MVT::v2i64, Legal);
909     setOperationAction(ISD::SELECT,             MVT::v2f64, Custom);
910     setOperationAction(ISD::SELECT,             MVT::v2i64, Custom);
911
912     setOperationAction(ISD::FP_TO_SINT,         MVT::v4i32, Legal);
913     setOperationAction(ISD::SINT_TO_FP,         MVT::v4i32, Legal);
914
915     setOperationAction(ISD::SINT_TO_FP,         MVT::v2i32, Custom);
916
917     setOperationAction(ISD::UINT_TO_FP,         MVT::v4i8,  Custom);
918     setOperationAction(ISD::UINT_TO_FP,         MVT::v4i16, Custom);
919     // As there is no 64-bit GPR available, we need build a special custom
920     // sequence to convert from v2i32 to v2f32.
921     if (!Subtarget->is64Bit())
922       setOperationAction(ISD::UINT_TO_FP,       MVT::v2f32, Custom);
923
924     setOperationAction(ISD::FP_EXTEND,          MVT::v2f32, Custom);
925     setOperationAction(ISD::FP_ROUND,           MVT::v2f32, Custom);
926
927     for (MVT VT : MVT::fp_vector_valuetypes())
928       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v2f32, Legal);
929
930     setOperationAction(ISD::BITCAST,            MVT::v2i32, Custom);
931     setOperationAction(ISD::BITCAST,            MVT::v4i16, Custom);
932     setOperationAction(ISD::BITCAST,            MVT::v8i8,  Custom);
933   }
934
935   if (!Subtarget->useSoftFloat() && Subtarget->hasSSE41()) {
936     for (MVT RoundedTy : {MVT::f32, MVT::f64, MVT::v4f32, MVT::v2f64}) {
937       setOperationAction(ISD::FFLOOR,           RoundedTy,  Legal);
938       setOperationAction(ISD::FCEIL,            RoundedTy,  Legal);
939       setOperationAction(ISD::FTRUNC,           RoundedTy,  Legal);
940       setOperationAction(ISD::FRINT,            RoundedTy,  Legal);
941       setOperationAction(ISD::FNEARBYINT,       RoundedTy,  Legal);
942     }
943
944     setOperationAction(ISD::SMAX,               MVT::v16i8, Legal);
945     setOperationAction(ISD::SMAX,               MVT::v4i32, Legal);
946     setOperationAction(ISD::UMAX,               MVT::v8i16, Legal);
947     setOperationAction(ISD::UMAX,               MVT::v4i32, Legal);
948     setOperationAction(ISD::SMIN,               MVT::v16i8, Legal);
949     setOperationAction(ISD::SMIN,               MVT::v4i32, Legal);
950     setOperationAction(ISD::UMIN,               MVT::v8i16, Legal);
951     setOperationAction(ISD::UMIN,               MVT::v4i32, Legal);
952
953     // FIXME: Do we need to handle scalar-to-vector here?
954     setOperationAction(ISD::MUL,                MVT::v4i32, Legal);
955
956     // We directly match byte blends in the backend as they match the VSELECT
957     // condition form.
958     setOperationAction(ISD::VSELECT,            MVT::v16i8, Legal);
959
960     // SSE41 brings specific instructions for doing vector sign extend even in
961     // cases where we don't have SRA.
962     for (MVT VT : MVT::integer_vector_valuetypes()) {
963       setLoadExtAction(ISD::SEXTLOAD, VT, MVT::v2i8, Custom);
964       setLoadExtAction(ISD::SEXTLOAD, VT, MVT::v2i16, Custom);
965       setLoadExtAction(ISD::SEXTLOAD, VT, MVT::v2i32, Custom);
966     }
967
968     // SSE41 also has vector sign/zero extending loads, PMOV[SZ]X
969     setLoadExtAction(ISD::SEXTLOAD, MVT::v8i16, MVT::v8i8,  Legal);
970     setLoadExtAction(ISD::SEXTLOAD, MVT::v4i32, MVT::v4i8,  Legal);
971     setLoadExtAction(ISD::SEXTLOAD, MVT::v2i64, MVT::v2i8,  Legal);
972     setLoadExtAction(ISD::SEXTLOAD, MVT::v4i32, MVT::v4i16, Legal);
973     setLoadExtAction(ISD::SEXTLOAD, MVT::v2i64, MVT::v2i16, Legal);
974     setLoadExtAction(ISD::SEXTLOAD, MVT::v2i64, MVT::v2i32, Legal);
975
976     setLoadExtAction(ISD::ZEXTLOAD, MVT::v8i16, MVT::v8i8,  Legal);
977     setLoadExtAction(ISD::ZEXTLOAD, MVT::v4i32, MVT::v4i8,  Legal);
978     setLoadExtAction(ISD::ZEXTLOAD, MVT::v2i64, MVT::v2i8,  Legal);
979     setLoadExtAction(ISD::ZEXTLOAD, MVT::v4i32, MVT::v4i16, Legal);
980     setLoadExtAction(ISD::ZEXTLOAD, MVT::v2i64, MVT::v2i16, Legal);
981     setLoadExtAction(ISD::ZEXTLOAD, MVT::v2i64, MVT::v2i32, Legal);
982
983     // i8 and i16 vectors are custom because the source register and source
984     // source memory operand types are not the same width.  f32 vectors are
985     // custom since the immediate controlling the insert encodes additional
986     // information.
987     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v16i8, Custom);
988     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v8i16, Custom);
989     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v4i32, Custom);
990     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v4f32, Custom);
991
992     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v16i8, Custom);
993     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v8i16, Custom);
994     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4i32, Custom);
995     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4f32, Custom);
996
997     // FIXME: these should be Legal, but that's only for the case where
998     // the index is constant.  For now custom expand to deal with that.
999     if (Subtarget->is64Bit()) {
1000       setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v2i64, Custom);
1001       setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v2i64, Custom);
1002     }
1003   }
1004
1005   if (Subtarget->hasSSE2()) {
1006     setOperationAction(ISD::SIGN_EXTEND_VECTOR_INREG, MVT::v2i64, Custom);
1007     setOperationAction(ISD::SIGN_EXTEND_VECTOR_INREG, MVT::v4i32, Custom);
1008     setOperationAction(ISD::SIGN_EXTEND_VECTOR_INREG, MVT::v8i16, Custom);
1009
1010     setOperationAction(ISD::SRL,               MVT::v8i16, Custom);
1011     setOperationAction(ISD::SRL,               MVT::v16i8, Custom);
1012
1013     setOperationAction(ISD::SHL,               MVT::v8i16, Custom);
1014     setOperationAction(ISD::SHL,               MVT::v16i8, Custom);
1015
1016     setOperationAction(ISD::SRA,               MVT::v8i16, Custom);
1017     setOperationAction(ISD::SRA,               MVT::v16i8, Custom);
1018
1019     // In the customized shift lowering, the legal cases in AVX2 will be
1020     // recognized.
1021     setOperationAction(ISD::SRL,               MVT::v2i64, Custom);
1022     setOperationAction(ISD::SRL,               MVT::v4i32, Custom);
1023
1024     setOperationAction(ISD::SHL,               MVT::v2i64, Custom);
1025     setOperationAction(ISD::SHL,               MVT::v4i32, Custom);
1026
1027     setOperationAction(ISD::SRA,               MVT::v2i64, Custom);
1028     setOperationAction(ISD::SRA,               MVT::v4i32, Custom);
1029   }
1030
1031   if (!Subtarget->useSoftFloat() && Subtarget->hasFp256()) {
1032     addRegisterClass(MVT::v32i8,  &X86::VR256RegClass);
1033     addRegisterClass(MVT::v16i16, &X86::VR256RegClass);
1034     addRegisterClass(MVT::v8i32,  &X86::VR256RegClass);
1035     addRegisterClass(MVT::v8f32,  &X86::VR256RegClass);
1036     addRegisterClass(MVT::v4i64,  &X86::VR256RegClass);
1037     addRegisterClass(MVT::v4f64,  &X86::VR256RegClass);
1038
1039     setOperationAction(ISD::LOAD,               MVT::v8f32, Legal);
1040     setOperationAction(ISD::LOAD,               MVT::v4f64, Legal);
1041     setOperationAction(ISD::LOAD,               MVT::v4i64, Legal);
1042
1043     setOperationAction(ISD::FADD,               MVT::v8f32, Legal);
1044     setOperationAction(ISD::FSUB,               MVT::v8f32, Legal);
1045     setOperationAction(ISD::FMUL,               MVT::v8f32, Legal);
1046     setOperationAction(ISD::FDIV,               MVT::v8f32, Legal);
1047     setOperationAction(ISD::FSQRT,              MVT::v8f32, Legal);
1048     setOperationAction(ISD::FFLOOR,             MVT::v8f32, Legal);
1049     setOperationAction(ISD::FCEIL,              MVT::v8f32, Legal);
1050     setOperationAction(ISD::FTRUNC,             MVT::v8f32, Legal);
1051     setOperationAction(ISD::FRINT,              MVT::v8f32, Legal);
1052     setOperationAction(ISD::FNEARBYINT,         MVT::v8f32, Legal);
1053     setOperationAction(ISD::FNEG,               MVT::v8f32, Custom);
1054     setOperationAction(ISD::FABS,               MVT::v8f32, Custom);
1055
1056     setOperationAction(ISD::FADD,               MVT::v4f64, Legal);
1057     setOperationAction(ISD::FSUB,               MVT::v4f64, Legal);
1058     setOperationAction(ISD::FMUL,               MVT::v4f64, Legal);
1059     setOperationAction(ISD::FDIV,               MVT::v4f64, Legal);
1060     setOperationAction(ISD::FSQRT,              MVT::v4f64, Legal);
1061     setOperationAction(ISD::FFLOOR,             MVT::v4f64, Legal);
1062     setOperationAction(ISD::FCEIL,              MVT::v4f64, Legal);
1063     setOperationAction(ISD::FTRUNC,             MVT::v4f64, Legal);
1064     setOperationAction(ISD::FRINT,              MVT::v4f64, Legal);
1065     setOperationAction(ISD::FNEARBYINT,         MVT::v4f64, Legal);
1066     setOperationAction(ISD::FNEG,               MVT::v4f64, Custom);
1067     setOperationAction(ISD::FABS,               MVT::v4f64, Custom);
1068
1069     // (fp_to_int:v8i16 (v8f32 ..)) requires the result type to be promoted
1070     // even though v8i16 is a legal type.
1071     setOperationAction(ISD::FP_TO_SINT,         MVT::v8i16, Promote);
1072     setOperationAction(ISD::FP_TO_UINT,         MVT::v8i16, Promote);
1073     setOperationAction(ISD::FP_TO_SINT,         MVT::v8i32, Legal);
1074
1075     setOperationAction(ISD::SINT_TO_FP,         MVT::v8i16, Promote);
1076     setOperationAction(ISD::SINT_TO_FP,         MVT::v8i32, Legal);
1077     setOperationAction(ISD::FP_ROUND,           MVT::v4f32, Legal);
1078
1079     setOperationAction(ISD::UINT_TO_FP,         MVT::v8i8,  Custom);
1080     setOperationAction(ISD::UINT_TO_FP,         MVT::v8i16, Custom);
1081
1082     for (MVT VT : MVT::fp_vector_valuetypes())
1083       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v4f32, Legal);
1084
1085     setOperationAction(ISD::SRL,               MVT::v16i16, Custom);
1086     setOperationAction(ISD::SRL,               MVT::v32i8, Custom);
1087
1088     setOperationAction(ISD::SHL,               MVT::v16i16, Custom);
1089     setOperationAction(ISD::SHL,               MVT::v32i8, Custom);
1090
1091     setOperationAction(ISD::SRA,               MVT::v16i16, Custom);
1092     setOperationAction(ISD::SRA,               MVT::v32i8, Custom);
1093
1094     setOperationAction(ISD::SETCC,             MVT::v32i8, Custom);
1095     setOperationAction(ISD::SETCC,             MVT::v16i16, Custom);
1096     setOperationAction(ISD::SETCC,             MVT::v8i32, Custom);
1097     setOperationAction(ISD::SETCC,             MVT::v4i64, Custom);
1098
1099     setOperationAction(ISD::SELECT,            MVT::v4f64, Custom);
1100     setOperationAction(ISD::SELECT,            MVT::v4i64, Custom);
1101     setOperationAction(ISD::SELECT,            MVT::v8f32, Custom);
1102
1103     setOperationAction(ISD::SIGN_EXTEND,       MVT::v4i64, Custom);
1104     setOperationAction(ISD::SIGN_EXTEND,       MVT::v8i32, Custom);
1105     setOperationAction(ISD::SIGN_EXTEND,       MVT::v16i16, Custom);
1106     setOperationAction(ISD::ZERO_EXTEND,       MVT::v4i64, Custom);
1107     setOperationAction(ISD::ZERO_EXTEND,       MVT::v8i32, Custom);
1108     setOperationAction(ISD::ZERO_EXTEND,       MVT::v16i16, Custom);
1109     setOperationAction(ISD::ANY_EXTEND,        MVT::v4i64, Custom);
1110     setOperationAction(ISD::ANY_EXTEND,        MVT::v8i32, Custom);
1111     setOperationAction(ISD::ANY_EXTEND,        MVT::v16i16, Custom);
1112     setOperationAction(ISD::TRUNCATE,          MVT::v16i8, Custom);
1113     setOperationAction(ISD::TRUNCATE,          MVT::v8i16, Custom);
1114     setOperationAction(ISD::TRUNCATE,          MVT::v4i32, Custom);
1115
1116     setOperationAction(ISD::CTPOP,             MVT::v32i8, Custom);
1117     setOperationAction(ISD::CTPOP,             MVT::v16i16, Custom);
1118     setOperationAction(ISD::CTPOP,             MVT::v8i32, Custom);
1119     setOperationAction(ISD::CTPOP,             MVT::v4i64, Custom);
1120
1121     if (Subtarget->hasFMA() || Subtarget->hasFMA4() || Subtarget->hasAVX512()) {
1122       setOperationAction(ISD::FMA,             MVT::v8f32, Legal);
1123       setOperationAction(ISD::FMA,             MVT::v4f64, Legal);
1124       setOperationAction(ISD::FMA,             MVT::v4f32, Legal);
1125       setOperationAction(ISD::FMA,             MVT::v2f64, Legal);
1126       setOperationAction(ISD::FMA,             MVT::f32, Legal);
1127       setOperationAction(ISD::FMA,             MVT::f64, Legal);
1128     }
1129
1130     if (Subtarget->hasInt256()) {
1131       setOperationAction(ISD::ADD,             MVT::v4i64, Legal);
1132       setOperationAction(ISD::ADD,             MVT::v8i32, Legal);
1133       setOperationAction(ISD::ADD,             MVT::v16i16, Legal);
1134       setOperationAction(ISD::ADD,             MVT::v32i8, Legal);
1135
1136       setOperationAction(ISD::SUB,             MVT::v4i64, Legal);
1137       setOperationAction(ISD::SUB,             MVT::v8i32, Legal);
1138       setOperationAction(ISD::SUB,             MVT::v16i16, Legal);
1139       setOperationAction(ISD::SUB,             MVT::v32i8, Legal);
1140
1141       setOperationAction(ISD::MUL,             MVT::v4i64, Custom);
1142       setOperationAction(ISD::MUL,             MVT::v8i32, Legal);
1143       setOperationAction(ISD::MUL,             MVT::v16i16, Legal);
1144       setOperationAction(ISD::MUL,             MVT::v32i8, Custom);
1145
1146       setOperationAction(ISD::UMUL_LOHI,       MVT::v8i32, Custom);
1147       setOperationAction(ISD::SMUL_LOHI,       MVT::v8i32, Custom);
1148       setOperationAction(ISD::MULHU,           MVT::v16i16, Legal);
1149       setOperationAction(ISD::MULHS,           MVT::v16i16, Legal);
1150
1151       setOperationAction(ISD::SMAX,            MVT::v32i8,  Legal);
1152       setOperationAction(ISD::SMAX,            MVT::v16i16, Legal);
1153       setOperationAction(ISD::SMAX,            MVT::v8i32,  Legal);
1154       setOperationAction(ISD::UMAX,            MVT::v32i8,  Legal);
1155       setOperationAction(ISD::UMAX,            MVT::v16i16, Legal);
1156       setOperationAction(ISD::UMAX,            MVT::v8i32,  Legal);
1157       setOperationAction(ISD::SMIN,            MVT::v32i8,  Legal);
1158       setOperationAction(ISD::SMIN,            MVT::v16i16, Legal);
1159       setOperationAction(ISD::SMIN,            MVT::v8i32,  Legal);
1160       setOperationAction(ISD::UMIN,            MVT::v32i8,  Legal);
1161       setOperationAction(ISD::UMIN,            MVT::v16i16, Legal);
1162       setOperationAction(ISD::UMIN,            MVT::v8i32,  Legal);
1163
1164       // The custom lowering for UINT_TO_FP for v8i32 becomes interesting
1165       // when we have a 256bit-wide blend with immediate.
1166       setOperationAction(ISD::UINT_TO_FP, MVT::v8i32, Custom);
1167
1168       // AVX2 also has wider vector sign/zero extending loads, VPMOV[SZ]X
1169       setLoadExtAction(ISD::SEXTLOAD, MVT::v16i16, MVT::v16i8, Legal);
1170       setLoadExtAction(ISD::SEXTLOAD, MVT::v8i32,  MVT::v8i8,  Legal);
1171       setLoadExtAction(ISD::SEXTLOAD, MVT::v4i64,  MVT::v4i8,  Legal);
1172       setLoadExtAction(ISD::SEXTLOAD, MVT::v8i32,  MVT::v8i16, Legal);
1173       setLoadExtAction(ISD::SEXTLOAD, MVT::v4i64,  MVT::v4i16, Legal);
1174       setLoadExtAction(ISD::SEXTLOAD, MVT::v4i64,  MVT::v4i32, Legal);
1175
1176       setLoadExtAction(ISD::ZEXTLOAD, MVT::v16i16, MVT::v16i8, Legal);
1177       setLoadExtAction(ISD::ZEXTLOAD, MVT::v8i32,  MVT::v8i8,  Legal);
1178       setLoadExtAction(ISD::ZEXTLOAD, MVT::v4i64,  MVT::v4i8,  Legal);
1179       setLoadExtAction(ISD::ZEXTLOAD, MVT::v8i32,  MVT::v8i16, Legal);
1180       setLoadExtAction(ISD::ZEXTLOAD, MVT::v4i64,  MVT::v4i16, Legal);
1181       setLoadExtAction(ISD::ZEXTLOAD, MVT::v4i64,  MVT::v4i32, Legal);
1182     } else {
1183       setOperationAction(ISD::ADD,             MVT::v4i64, Custom);
1184       setOperationAction(ISD::ADD,             MVT::v8i32, Custom);
1185       setOperationAction(ISD::ADD,             MVT::v16i16, Custom);
1186       setOperationAction(ISD::ADD,             MVT::v32i8, Custom);
1187
1188       setOperationAction(ISD::SUB,             MVT::v4i64, Custom);
1189       setOperationAction(ISD::SUB,             MVT::v8i32, Custom);
1190       setOperationAction(ISD::SUB,             MVT::v16i16, Custom);
1191       setOperationAction(ISD::SUB,             MVT::v32i8, Custom);
1192
1193       setOperationAction(ISD::MUL,             MVT::v4i64, Custom);
1194       setOperationAction(ISD::MUL,             MVT::v8i32, Custom);
1195       setOperationAction(ISD::MUL,             MVT::v16i16, Custom);
1196       setOperationAction(ISD::MUL,             MVT::v32i8, Custom);
1197
1198       setOperationAction(ISD::SMAX,            MVT::v32i8,  Custom);
1199       setOperationAction(ISD::SMAX,            MVT::v16i16, Custom);
1200       setOperationAction(ISD::SMAX,            MVT::v8i32,  Custom);
1201       setOperationAction(ISD::UMAX,            MVT::v32i8,  Custom);
1202       setOperationAction(ISD::UMAX,            MVT::v16i16, Custom);
1203       setOperationAction(ISD::UMAX,            MVT::v8i32,  Custom);
1204       setOperationAction(ISD::SMIN,            MVT::v32i8,  Custom);
1205       setOperationAction(ISD::SMIN,            MVT::v16i16, Custom);
1206       setOperationAction(ISD::SMIN,            MVT::v8i32,  Custom);
1207       setOperationAction(ISD::UMIN,            MVT::v32i8,  Custom);
1208       setOperationAction(ISD::UMIN,            MVT::v16i16, Custom);
1209       setOperationAction(ISD::UMIN,            MVT::v8i32,  Custom);
1210     }
1211
1212     // In the customized shift lowering, the legal cases in AVX2 will be
1213     // recognized.
1214     setOperationAction(ISD::SRL,               MVT::v4i64, Custom);
1215     setOperationAction(ISD::SRL,               MVT::v8i32, Custom);
1216
1217     setOperationAction(ISD::SHL,               MVT::v4i64, Custom);
1218     setOperationAction(ISD::SHL,               MVT::v8i32, Custom);
1219
1220     setOperationAction(ISD::SRA,               MVT::v4i64, Custom);
1221     setOperationAction(ISD::SRA,               MVT::v8i32, Custom);
1222
1223     // Custom lower several nodes for 256-bit types.
1224     for (MVT VT : MVT::vector_valuetypes()) {
1225       if (VT.getScalarSizeInBits() >= 32) {
1226         setOperationAction(ISD::MLOAD,  VT, Legal);
1227         setOperationAction(ISD::MSTORE, VT, Legal);
1228       }
1229       // Extract subvector is special because the value type
1230       // (result) is 128-bit but the source is 256-bit wide.
1231       if (VT.is128BitVector()) {
1232         setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Custom);
1233       }
1234       // Do not attempt to custom lower other non-256-bit vectors
1235       if (!VT.is256BitVector())
1236         continue;
1237
1238       setOperationAction(ISD::BUILD_VECTOR,       VT, Custom);
1239       setOperationAction(ISD::VECTOR_SHUFFLE,     VT, Custom);
1240       setOperationAction(ISD::VSELECT,            VT, Custom);
1241       setOperationAction(ISD::INSERT_VECTOR_ELT,  VT, Custom);
1242       setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
1243       setOperationAction(ISD::SCALAR_TO_VECTOR,   VT, Custom);
1244       setOperationAction(ISD::INSERT_SUBVECTOR,   VT, Custom);
1245       setOperationAction(ISD::CONCAT_VECTORS,     VT, Custom);
1246     }
1247
1248     if (Subtarget->hasInt256())
1249       setOperationAction(ISD::VSELECT,         MVT::v32i8, Legal);
1250
1251
1252     // Promote v32i8, v16i16, v8i32 select, and, or, xor to v4i64.
1253     for (int i = MVT::v32i8; i != MVT::v4i64; ++i) {
1254       MVT VT = (MVT::SimpleValueType)i;
1255
1256       // Do not attempt to promote non-256-bit vectors
1257       if (!VT.is256BitVector())
1258         continue;
1259
1260       setOperationAction(ISD::AND,    VT, Promote);
1261       AddPromotedToType (ISD::AND,    VT, MVT::v4i64);
1262       setOperationAction(ISD::OR,     VT, Promote);
1263       AddPromotedToType (ISD::OR,     VT, MVT::v4i64);
1264       setOperationAction(ISD::XOR,    VT, Promote);
1265       AddPromotedToType (ISD::XOR,    VT, MVT::v4i64);
1266       setOperationAction(ISD::LOAD,   VT, Promote);
1267       AddPromotedToType (ISD::LOAD,   VT, MVT::v4i64);
1268       setOperationAction(ISD::SELECT, VT, Promote);
1269       AddPromotedToType (ISD::SELECT, VT, MVT::v4i64);
1270     }
1271   }
1272
1273   if (!Subtarget->useSoftFloat() && Subtarget->hasAVX512()) {
1274     addRegisterClass(MVT::v16i32, &X86::VR512RegClass);
1275     addRegisterClass(MVT::v16f32, &X86::VR512RegClass);
1276     addRegisterClass(MVT::v8i64,  &X86::VR512RegClass);
1277     addRegisterClass(MVT::v8f64,  &X86::VR512RegClass);
1278
1279     addRegisterClass(MVT::i1,     &X86::VK1RegClass);
1280     addRegisterClass(MVT::v8i1,   &X86::VK8RegClass);
1281     addRegisterClass(MVT::v16i1,  &X86::VK16RegClass);
1282
1283     for (MVT VT : MVT::fp_vector_valuetypes())
1284       setLoadExtAction(ISD::EXTLOAD, VT, MVT::v8f32, Legal);
1285
1286     setLoadExtAction(ISD::ZEXTLOAD, MVT::v16i32, MVT::v16i8, Legal);
1287     setLoadExtAction(ISD::SEXTLOAD, MVT::v16i32, MVT::v16i8, Legal);
1288     setLoadExtAction(ISD::ZEXTLOAD, MVT::v16i32, MVT::v16i16, Legal);
1289     setLoadExtAction(ISD::SEXTLOAD, MVT::v16i32, MVT::v16i16, Legal);
1290     setLoadExtAction(ISD::ZEXTLOAD, MVT::v32i16, MVT::v32i8, Legal);
1291     setLoadExtAction(ISD::SEXTLOAD, MVT::v32i16, MVT::v32i8, Legal);
1292     setLoadExtAction(ISD::ZEXTLOAD, MVT::v8i64,  MVT::v8i8,  Legal);
1293     setLoadExtAction(ISD::SEXTLOAD, MVT::v8i64,  MVT::v8i8,  Legal);
1294     setLoadExtAction(ISD::ZEXTLOAD, MVT::v8i64,  MVT::v8i16,  Legal);
1295     setLoadExtAction(ISD::SEXTLOAD, MVT::v8i64,  MVT::v8i16,  Legal);
1296     setLoadExtAction(ISD::ZEXTLOAD, MVT::v8i64,  MVT::v8i32,  Legal);
1297     setLoadExtAction(ISD::SEXTLOAD, MVT::v8i64,  MVT::v8i32,  Legal);
1298
1299     setOperationAction(ISD::BR_CC,              MVT::i1,    Expand);
1300     setOperationAction(ISD::SETCC,              MVT::i1,    Custom);
1301     setOperationAction(ISD::XOR,                MVT::i1,    Legal);
1302     setOperationAction(ISD::OR,                 MVT::i1,    Legal);
1303     setOperationAction(ISD::AND,                MVT::i1,    Legal);
1304     setOperationAction(ISD::SUB,                MVT::i1,    Custom);
1305     setOperationAction(ISD::ADD,                MVT::i1,    Custom);
1306     setOperationAction(ISD::MUL,                MVT::i1,    Custom);
1307     setOperationAction(ISD::LOAD,               MVT::v16f32, Legal);
1308     setOperationAction(ISD::LOAD,               MVT::v8f64, Legal);
1309     setOperationAction(ISD::LOAD,               MVT::v8i64, Legal);
1310     setOperationAction(ISD::LOAD,               MVT::v16i32, Legal);
1311     setOperationAction(ISD::LOAD,               MVT::v16i1, Legal);
1312
1313     setOperationAction(ISD::FADD,               MVT::v16f32, Legal);
1314     setOperationAction(ISD::FSUB,               MVT::v16f32, Legal);
1315     setOperationAction(ISD::FMUL,               MVT::v16f32, Legal);
1316     setOperationAction(ISD::FDIV,               MVT::v16f32, Legal);
1317     setOperationAction(ISD::FSQRT,              MVT::v16f32, Legal);
1318     setOperationAction(ISD::FNEG,               MVT::v16f32, Custom);
1319
1320     setOperationAction(ISD::FADD,               MVT::v8f64, Legal);
1321     setOperationAction(ISD::FSUB,               MVT::v8f64, Legal);
1322     setOperationAction(ISD::FMUL,               MVT::v8f64, Legal);
1323     setOperationAction(ISD::FDIV,               MVT::v8f64, Legal);
1324     setOperationAction(ISD::FSQRT,              MVT::v8f64, Legal);
1325     setOperationAction(ISD::FNEG,               MVT::v8f64, Custom);
1326     setOperationAction(ISD::FMA,                MVT::v8f64, Legal);
1327     setOperationAction(ISD::FMA,                MVT::v16f32, Legal);
1328
1329     // FIXME:  [US]INT_TO_FP are not legal for f80.
1330     setOperationAction(ISD::SINT_TO_FP,         MVT::i32, Legal);
1331     setOperationAction(ISD::UINT_TO_FP,         MVT::i32, Legal);
1332     if (Subtarget->is64Bit()) {
1333       setOperationAction(ISD::SINT_TO_FP,       MVT::i64, Legal);
1334       setOperationAction(ISD::UINT_TO_FP,       MVT::i64, Legal);
1335     }
1336     setOperationAction(ISD::FP_TO_SINT,         MVT::v16i32, Legal);
1337     setOperationAction(ISD::FP_TO_UINT,         MVT::v16i32, Legal);
1338     setOperationAction(ISD::FP_TO_UINT,         MVT::v8i32, Legal);
1339     setOperationAction(ISD::FP_TO_UINT,         MVT::v4i32, Legal);
1340     setOperationAction(ISD::SINT_TO_FP,         MVT::v16i32, Legal);
1341     setOperationAction(ISD::SINT_TO_FP,         MVT::v8i1,   Custom);
1342     setOperationAction(ISD::SINT_TO_FP,         MVT::v16i1,  Custom);
1343     setOperationAction(ISD::SINT_TO_FP,         MVT::v16i8,  Promote);
1344     setOperationAction(ISD::SINT_TO_FP,         MVT::v16i16, Promote);
1345     setOperationAction(ISD::UINT_TO_FP,         MVT::v16i32, Legal);
1346     setOperationAction(ISD::UINT_TO_FP,         MVT::v8i32, Legal);
1347     setOperationAction(ISD::UINT_TO_FP,         MVT::v4i32, Legal);
1348     setOperationAction(ISD::UINT_TO_FP,         MVT::v16i8, Custom);
1349     setOperationAction(ISD::UINT_TO_FP,         MVT::v16i16, Custom);
1350     setOperationAction(ISD::FP_ROUND,           MVT::v8f32, Legal);
1351     setOperationAction(ISD::FP_EXTEND,          MVT::v8f32, Legal);
1352
1353     setTruncStoreAction(MVT::v8i64,   MVT::v8i8,   Legal);
1354     setTruncStoreAction(MVT::v8i64,   MVT::v8i16,  Legal);
1355     setTruncStoreAction(MVT::v8i64,   MVT::v8i32,  Legal);
1356     setTruncStoreAction(MVT::v16i32,  MVT::v16i8,  Legal);
1357     setTruncStoreAction(MVT::v16i32,  MVT::v16i16, Legal);
1358     if (Subtarget->hasVLX()){
1359       setTruncStoreAction(MVT::v4i64, MVT::v4i8,  Legal);
1360       setTruncStoreAction(MVT::v4i64, MVT::v4i16, Legal);
1361       setTruncStoreAction(MVT::v4i64, MVT::v4i32, Legal);
1362       setTruncStoreAction(MVT::v8i32, MVT::v8i8,  Legal);
1363       setTruncStoreAction(MVT::v8i32, MVT::v8i16, Legal);
1364
1365       setTruncStoreAction(MVT::v2i64, MVT::v2i8,  Legal);
1366       setTruncStoreAction(MVT::v2i64, MVT::v2i16, Legal);
1367       setTruncStoreAction(MVT::v2i64, MVT::v2i32, Legal);
1368       setTruncStoreAction(MVT::v4i32, MVT::v4i8,  Legal);
1369       setTruncStoreAction(MVT::v4i32, MVT::v4i16, Legal);
1370     }
1371     setOperationAction(ISD::TRUNCATE,           MVT::i1, Custom);
1372     setOperationAction(ISD::TRUNCATE,           MVT::v16i8, Custom);
1373     setOperationAction(ISD::TRUNCATE,           MVT::v8i32, Custom);
1374     if (Subtarget->hasDQI()) {
1375       setOperationAction(ISD::TRUNCATE,         MVT::v2i1, Custom);
1376       setOperationAction(ISD::TRUNCATE,         MVT::v4i1, Custom);
1377
1378       setOperationAction(ISD::SINT_TO_FP,       MVT::v8i64, Legal);
1379       setOperationAction(ISD::UINT_TO_FP,       MVT::v8i64, Legal);
1380       setOperationAction(ISD::FP_TO_SINT,       MVT::v8i64, Legal);
1381       setOperationAction(ISD::FP_TO_UINT,       MVT::v8i64, Legal);
1382       if (Subtarget->hasVLX()) {
1383         setOperationAction(ISD::SINT_TO_FP,    MVT::v4i64, Legal);
1384         setOperationAction(ISD::SINT_TO_FP,    MVT::v2i64, Legal);
1385         setOperationAction(ISD::UINT_TO_FP,    MVT::v4i64, Legal);
1386         setOperationAction(ISD::UINT_TO_FP,    MVT::v2i64, Legal);
1387         setOperationAction(ISD::FP_TO_SINT,    MVT::v4i64, Legal);
1388         setOperationAction(ISD::FP_TO_SINT,    MVT::v2i64, Legal);
1389         setOperationAction(ISD::FP_TO_UINT,    MVT::v4i64, Legal);
1390         setOperationAction(ISD::FP_TO_UINT,    MVT::v2i64, Legal);
1391       }
1392     }
1393     if (Subtarget->hasVLX()) {
1394       setOperationAction(ISD::SINT_TO_FP,       MVT::v8i32, Legal);
1395       setOperationAction(ISD::UINT_TO_FP,       MVT::v8i32, Legal);
1396       setOperationAction(ISD::FP_TO_SINT,       MVT::v8i32, Legal);
1397       setOperationAction(ISD::FP_TO_UINT,       MVT::v8i32, Legal);
1398       setOperationAction(ISD::SINT_TO_FP,       MVT::v4i32, Legal);
1399       setOperationAction(ISD::UINT_TO_FP,       MVT::v4i32, Legal);
1400       setOperationAction(ISD::FP_TO_SINT,       MVT::v4i32, Legal);
1401       setOperationAction(ISD::FP_TO_UINT,       MVT::v4i32, Legal);
1402     }
1403     setOperationAction(ISD::TRUNCATE,           MVT::v8i1, Custom);
1404     setOperationAction(ISD::TRUNCATE,           MVT::v16i1, Custom);
1405     setOperationAction(ISD::TRUNCATE,           MVT::v16i16, Custom);
1406     setOperationAction(ISD::ZERO_EXTEND,        MVT::v16i32, Custom);
1407     setOperationAction(ISD::ZERO_EXTEND,        MVT::v8i64, Custom);
1408     setOperationAction(ISD::ANY_EXTEND,         MVT::v16i32, Custom);
1409     setOperationAction(ISD::ANY_EXTEND,         MVT::v8i64, Custom);
1410     setOperationAction(ISD::SIGN_EXTEND,        MVT::v16i32, Custom);
1411     setOperationAction(ISD::SIGN_EXTEND,        MVT::v8i64, Custom);
1412     setOperationAction(ISD::SIGN_EXTEND,        MVT::v16i8, Custom);
1413     setOperationAction(ISD::SIGN_EXTEND,        MVT::v8i16, Custom);
1414     setOperationAction(ISD::SIGN_EXTEND,        MVT::v16i16, Custom);
1415     if (Subtarget->hasDQI()) {
1416       setOperationAction(ISD::SIGN_EXTEND,        MVT::v4i32, Custom);
1417       setOperationAction(ISD::SIGN_EXTEND,        MVT::v2i64, Custom);
1418     }
1419     setOperationAction(ISD::FFLOOR,             MVT::v16f32, Legal);
1420     setOperationAction(ISD::FFLOOR,             MVT::v8f64, Legal);
1421     setOperationAction(ISD::FCEIL,              MVT::v16f32, Legal);
1422     setOperationAction(ISD::FCEIL,              MVT::v8f64, Legal);
1423     setOperationAction(ISD::FTRUNC,             MVT::v16f32, Legal);
1424     setOperationAction(ISD::FTRUNC,             MVT::v8f64, Legal);
1425     setOperationAction(ISD::FRINT,              MVT::v16f32, Legal);
1426     setOperationAction(ISD::FRINT,              MVT::v8f64, Legal);
1427     setOperationAction(ISD::FNEARBYINT,         MVT::v16f32, Legal);
1428     setOperationAction(ISD::FNEARBYINT,         MVT::v8f64, Legal);
1429
1430     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v8f64,  Custom);
1431     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v8i64,  Custom);
1432     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v16f32,  Custom);
1433     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v16i32,  Custom);
1434     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v16i1, Legal);
1435
1436     setOperationAction(ISD::SETCC,              MVT::v16i1, Custom);
1437     setOperationAction(ISD::SETCC,              MVT::v8i1, Custom);
1438
1439     setOperationAction(ISD::MUL,              MVT::v8i64, Custom);
1440
1441     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v8i1,  Custom);
1442     setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v16i1, Custom);
1443     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v16i1, Custom);
1444     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v8i1, Custom);
1445     setOperationAction(ISD::BUILD_VECTOR,       MVT::v8i1, Custom);
1446     setOperationAction(ISD::BUILD_VECTOR,       MVT::v16i1, Custom);
1447     setOperationAction(ISD::SELECT,             MVT::v8f64, Custom);
1448     setOperationAction(ISD::SELECT,             MVT::v8i64, Custom);
1449     setOperationAction(ISD::SELECT,             MVT::v16f32, Custom);
1450     setOperationAction(ISD::SELECT,             MVT::v16i1, Custom);
1451     setOperationAction(ISD::SELECT,             MVT::v8i1,  Custom);
1452
1453     setOperationAction(ISD::SMAX,               MVT::v16i32, Legal);
1454     setOperationAction(ISD::SMAX,               MVT::v8i64, Legal);
1455     setOperationAction(ISD::UMAX,               MVT::v16i32, Legal);
1456     setOperationAction(ISD::UMAX,               MVT::v8i64, Legal);
1457     setOperationAction(ISD::SMIN,               MVT::v16i32, Legal);
1458     setOperationAction(ISD::SMIN,               MVT::v8i64, Legal);
1459     setOperationAction(ISD::UMIN,               MVT::v16i32, Legal);
1460     setOperationAction(ISD::UMIN,               MVT::v8i64, Legal);
1461
1462     setOperationAction(ISD::ADD,                MVT::v8i64, Legal);
1463     setOperationAction(ISD::ADD,                MVT::v16i32, Legal);
1464
1465     setOperationAction(ISD::SUB,                MVT::v8i64, Legal);
1466     setOperationAction(ISD::SUB,                MVT::v16i32, Legal);
1467
1468     setOperationAction(ISD::MUL,                MVT::v16i32, Legal);
1469
1470     setOperationAction(ISD::SRL,                MVT::v8i64, Custom);
1471     setOperationAction(ISD::SRL,                MVT::v16i32, Custom);
1472
1473     setOperationAction(ISD::SHL,                MVT::v8i64, Custom);
1474     setOperationAction(ISD::SHL,                MVT::v16i32, Custom);
1475
1476     setOperationAction(ISD::SRA,                MVT::v8i64, Custom);
1477     setOperationAction(ISD::SRA,                MVT::v16i32, Custom);
1478
1479     setOperationAction(ISD::AND,                MVT::v8i64, Legal);
1480     setOperationAction(ISD::OR,                 MVT::v8i64, Legal);
1481     setOperationAction(ISD::XOR,                MVT::v8i64, Legal);
1482     setOperationAction(ISD::AND,                MVT::v16i32, Legal);
1483     setOperationAction(ISD::OR,                 MVT::v16i32, Legal);
1484     setOperationAction(ISD::XOR,                MVT::v16i32, Legal);
1485
1486     if (Subtarget->hasCDI()) {
1487       setOperationAction(ISD::CTLZ,             MVT::v8i64, Legal);
1488       setOperationAction(ISD::CTLZ,             MVT::v16i32, Legal);
1489     }
1490     if (Subtarget->hasDQI()) {
1491       setOperationAction(ISD::MUL,             MVT::v2i64, Legal);
1492       setOperationAction(ISD::MUL,             MVT::v4i64, Legal);
1493       setOperationAction(ISD::MUL,             MVT::v8i64, Legal);
1494     }
1495     // Custom lower several nodes.
1496     for (MVT VT : MVT::vector_valuetypes()) {
1497       unsigned EltSize = VT.getVectorElementType().getSizeInBits();
1498       if (EltSize == 1) {
1499         setOperationAction(ISD::AND, VT, Legal);
1500         setOperationAction(ISD::OR,  VT, Legal);
1501         setOperationAction(ISD::XOR,  VT, Legal);
1502       }
1503       if (EltSize >= 32 && VT.getSizeInBits() <= 512) {
1504         setOperationAction(ISD::MGATHER,  VT, Custom);
1505         setOperationAction(ISD::MSCATTER, VT, Custom);
1506       }
1507       // Extract subvector is special because the value type
1508       // (result) is 256/128-bit but the source is 512-bit wide.
1509       if (VT.is128BitVector() || VT.is256BitVector()) {
1510         setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Custom);
1511       }
1512       if (VT.getVectorElementType() == MVT::i1)
1513         setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);
1514
1515       // Do not attempt to custom lower other non-512-bit vectors
1516       if (!VT.is512BitVector())
1517         continue;
1518
1519       if (EltSize >= 32) {
1520         setOperationAction(ISD::VECTOR_SHUFFLE,      VT, Custom);
1521         setOperationAction(ISD::INSERT_VECTOR_ELT,   VT, Custom);
1522         setOperationAction(ISD::BUILD_VECTOR,        VT, Custom);
1523         setOperationAction(ISD::VSELECT,             VT, Legal);
1524         setOperationAction(ISD::EXTRACT_VECTOR_ELT,  VT, Custom);
1525         setOperationAction(ISD::SCALAR_TO_VECTOR,    VT, Custom);
1526         setOperationAction(ISD::INSERT_SUBVECTOR,    VT, Custom);
1527         setOperationAction(ISD::MLOAD,               VT, Legal);
1528         setOperationAction(ISD::MSTORE,              VT, Legal);
1529       }
1530     }
1531     for (int i = MVT::v32i8; i != MVT::v8i64; ++i) {
1532       MVT VT = (MVT::SimpleValueType)i;
1533
1534       // Do not attempt to promote non-512-bit vectors.
1535       if (!VT.is512BitVector())
1536         continue;
1537
1538       setOperationAction(ISD::SELECT, VT, Promote);
1539       AddPromotedToType (ISD::SELECT, VT, MVT::v8i64);
1540     }
1541   }// has  AVX-512
1542
1543   if (!Subtarget->useSoftFloat() && Subtarget->hasBWI()) {
1544     addRegisterClass(MVT::v32i16, &X86::VR512RegClass);
1545     addRegisterClass(MVT::v64i8,  &X86::VR512RegClass);
1546
1547     addRegisterClass(MVT::v32i1,  &X86::VK32RegClass);
1548     addRegisterClass(MVT::v64i1,  &X86::VK64RegClass);
1549
1550     setOperationAction(ISD::LOAD,               MVT::v32i16, Legal);
1551     setOperationAction(ISD::LOAD,               MVT::v64i8, Legal);
1552     setOperationAction(ISD::SETCC,              MVT::v32i1, Custom);
1553     setOperationAction(ISD::SETCC,              MVT::v64i1, Custom);
1554     setOperationAction(ISD::ADD,                MVT::v32i16, Legal);
1555     setOperationAction(ISD::ADD,                MVT::v64i8, Legal);
1556     setOperationAction(ISD::SUB,                MVT::v32i16, Legal);
1557     setOperationAction(ISD::SUB,                MVT::v64i8, Legal);
1558     setOperationAction(ISD::MUL,                MVT::v32i16, Legal);
1559     setOperationAction(ISD::MULHS,              MVT::v32i16, Legal);
1560     setOperationAction(ISD::MULHU,              MVT::v32i16, Legal);
1561     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v32i1, Custom);
1562     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v64i1, Custom);
1563     setOperationAction(ISD::INSERT_SUBVECTOR,   MVT::v32i1, Custom);
1564     setOperationAction(ISD::INSERT_SUBVECTOR,   MVT::v64i1, Custom);
1565     setOperationAction(ISD::SELECT,             MVT::v32i1, Custom);
1566     setOperationAction(ISD::SELECT,             MVT::v64i1, Custom);
1567     setOperationAction(ISD::SIGN_EXTEND,        MVT::v32i8, Custom);
1568     setOperationAction(ISD::ZERO_EXTEND,        MVT::v32i8, Custom);
1569     setOperationAction(ISD::SIGN_EXTEND,        MVT::v32i16, Custom);
1570     setOperationAction(ISD::ZERO_EXTEND,        MVT::v32i16, Custom);
1571     setOperationAction(ISD::SIGN_EXTEND,        MVT::v64i8, Custom);
1572     setOperationAction(ISD::ZERO_EXTEND,        MVT::v64i8, Custom);
1573     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v32i1, Custom);
1574     setOperationAction(ISD::INSERT_VECTOR_ELT,  MVT::v64i1, Custom);
1575     setOperationAction(ISD::VSELECT,            MVT::v32i16, Legal);
1576     setOperationAction(ISD::VSELECT,            MVT::v64i8, Legal);
1577     setOperationAction(ISD::TRUNCATE,           MVT::v32i1, Custom);
1578     setOperationAction(ISD::TRUNCATE,           MVT::v64i1, Custom);
1579     setOperationAction(ISD::TRUNCATE,           MVT::v32i8, Custom);
1580
1581     setOperationAction(ISD::SMAX,               MVT::v64i8, Legal);
1582     setOperationAction(ISD::SMAX,               MVT::v32i16, Legal);
1583     setOperationAction(ISD::UMAX,               MVT::v64i8, Legal);
1584     setOperationAction(ISD::UMAX,               MVT::v32i16, Legal);
1585     setOperationAction(ISD::SMIN,               MVT::v64i8, Legal);
1586     setOperationAction(ISD::SMIN,               MVT::v32i16, Legal);
1587     setOperationAction(ISD::UMIN,               MVT::v64i8, Legal);
1588     setOperationAction(ISD::UMIN,               MVT::v32i16, Legal);
1589
1590     setTruncStoreAction(MVT::v32i16,  MVT::v32i8, Legal);
1591     setTruncStoreAction(MVT::v16i16,  MVT::v16i8, Legal);
1592     if (Subtarget->hasVLX())
1593       setTruncStoreAction(MVT::v8i16,   MVT::v8i8,  Legal);
1594
1595     for (int i = MVT::v32i8; i != MVT::v8i64; ++i) {
1596       const MVT VT = (MVT::SimpleValueType)i;
1597
1598       const unsigned EltSize = VT.getVectorElementType().getSizeInBits();
1599
1600       // Do not attempt to promote non-512-bit vectors.
1601       if (!VT.is512BitVector())
1602         continue;
1603
1604       if (EltSize < 32) {
1605         setOperationAction(ISD::BUILD_VECTOR,        VT, Custom);
1606         setOperationAction(ISD::VSELECT,             VT, Legal);
1607       }
1608     }
1609   }
1610
1611   if (!Subtarget->useSoftFloat() && Subtarget->hasVLX()) {
1612     addRegisterClass(MVT::v4i1,   &X86::VK4RegClass);
1613     addRegisterClass(MVT::v2i1,   &X86::VK2RegClass);
1614
1615     setOperationAction(ISD::SETCC,              MVT::v4i1, Custom);
1616     setOperationAction(ISD::SETCC,              MVT::v2i1, Custom);
1617     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v4i1, Custom);
1618     setOperationAction(ISD::CONCAT_VECTORS,     MVT::v8i1, Custom);
1619     setOperationAction(ISD::INSERT_SUBVECTOR,   MVT::v8i1, Custom);
1620     setOperationAction(ISD::INSERT_SUBVECTOR,   MVT::v4i1, Custom);
1621     setOperationAction(ISD::SELECT,             MVT::v4i1, Custom);
1622     setOperationAction(ISD::SELECT,             MVT::v2i1, Custom);
1623     setOperationAction(ISD::BUILD_VECTOR,       MVT::v4i1, Custom);
1624     setOperationAction(ISD::BUILD_VECTOR,       MVT::v2i1, Custom);
1625
1626     setOperationAction(ISD::AND,                MVT::v8i32, Legal);
1627     setOperationAction(ISD::OR,                 MVT::v8i32, Legal);
1628     setOperationAction(ISD::XOR,                MVT::v8i32, Legal);
1629     setOperationAction(ISD::AND,                MVT::v4i32, Legal);
1630     setOperationAction(ISD::OR,                 MVT::v4i32, Legal);
1631     setOperationAction(ISD::XOR,                MVT::v4i32, Legal);
1632     setOperationAction(ISD::SRA,                MVT::v2i64, Custom);
1633     setOperationAction(ISD::SRA,                MVT::v4i64, Custom);
1634
1635     setOperationAction(ISD::SMAX,               MVT::v2i64, Legal);
1636     setOperationAction(ISD::SMAX,               MVT::v4i64, Legal);
1637     setOperationAction(ISD::UMAX,               MVT::v2i64, Legal);
1638     setOperationAction(ISD::UMAX,               MVT::v4i64, Legal);
1639     setOperationAction(ISD::SMIN,               MVT::v2i64, Legal);
1640     setOperationAction(ISD::SMIN,               MVT::v4i64, Legal);
1641     setOperationAction(ISD::UMIN,               MVT::v2i64, Legal);
1642     setOperationAction(ISD::UMIN,               MVT::v4i64, Legal);
1643   }
1644
1645   // We want to custom lower some of our intrinsics.
1646   setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);
1647   setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::Other, Custom);
1648   setOperationAction(ISD::INTRINSIC_VOID, MVT::Other, Custom);
1649   if (!Subtarget->is64Bit())
1650     setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::i64, Custom);
1651
1652   // Only custom-lower 64-bit SADDO and friends on 64-bit because we don't
1653   // handle type legalization for these operations here.
1654   //
1655   // FIXME: We really should do custom legalization for addition and
1656   // subtraction on x86-32 once PR3203 is fixed.  We really can't do much better
1657   // than generic legalization for 64-bit multiplication-with-overflow, though.
1658   for (unsigned i = 0, e = 3+Subtarget->is64Bit(); i != e; ++i) {
1659     // Add/Sub/Mul with overflow operations are custom lowered.
1660     MVT VT = IntVTs[i];
1661     setOperationAction(ISD::SADDO, VT, Custom);
1662     setOperationAction(ISD::UADDO, VT, Custom);
1663     setOperationAction(ISD::SSUBO, VT, Custom);
1664     setOperationAction(ISD::USUBO, VT, Custom);
1665     setOperationAction(ISD::SMULO, VT, Custom);
1666     setOperationAction(ISD::UMULO, VT, Custom);
1667   }
1668
1669
1670   if (!Subtarget->is64Bit()) {
1671     // These libcalls are not available in 32-bit.
1672     setLibcallName(RTLIB::SHL_I128, nullptr);
1673     setLibcallName(RTLIB::SRL_I128, nullptr);
1674     setLibcallName(RTLIB::SRA_I128, nullptr);
1675   }
1676
1677   // Combine sin / cos into one node or libcall if possible.
1678   if (Subtarget->hasSinCos()) {
1679     setLibcallName(RTLIB::SINCOS_F32, "sincosf");
1680     setLibcallName(RTLIB::SINCOS_F64, "sincos");
1681     if (Subtarget->isTargetDarwin()) {
1682       // For MacOSX, we don't want the normal expansion of a libcall to sincos.
1683       // We want to issue a libcall to __sincos_stret to avoid memory traffic.
1684       setOperationAction(ISD::FSINCOS, MVT::f64, Custom);
1685       setOperationAction(ISD::FSINCOS, MVT::f32, Custom);
1686     }
1687   }
1688
1689   if (Subtarget->isTargetWin64()) {
1690     setOperationAction(ISD::SDIV, MVT::i128, Custom);
1691     setOperationAction(ISD::UDIV, MVT::i128, Custom);
1692     setOperationAction(ISD::SREM, MVT::i128, Custom);
1693     setOperationAction(ISD::UREM, MVT::i128, Custom);
1694     setOperationAction(ISD::SDIVREM, MVT::i128, Custom);
1695     setOperationAction(ISD::UDIVREM, MVT::i128, Custom);
1696   }
1697
1698   // We have target-specific dag combine patterns for the following nodes:
1699   setTargetDAGCombine(ISD::VECTOR_SHUFFLE);
1700   setTargetDAGCombine(ISD::EXTRACT_VECTOR_ELT);
1701   setTargetDAGCombine(ISD::BITCAST);
1702   setTargetDAGCombine(ISD::VSELECT);
1703   setTargetDAGCombine(ISD::SELECT);
1704   setTargetDAGCombine(ISD::SHL);
1705   setTargetDAGCombine(ISD::SRA);
1706   setTargetDAGCombine(ISD::SRL);
1707   setTargetDAGCombine(ISD::OR);
1708   setTargetDAGCombine(ISD::AND);
1709   setTargetDAGCombine(ISD::ADD);
1710   setTargetDAGCombine(ISD::FADD);
1711   setTargetDAGCombine(ISD::FSUB);
1712   setTargetDAGCombine(ISD::FMA);
1713   setTargetDAGCombine(ISD::SUB);
1714   setTargetDAGCombine(ISD::LOAD);
1715   setTargetDAGCombine(ISD::MLOAD);
1716   setTargetDAGCombine(ISD::STORE);
1717   setTargetDAGCombine(ISD::MSTORE);
1718   setTargetDAGCombine(ISD::ZERO_EXTEND);
1719   setTargetDAGCombine(ISD::ANY_EXTEND);
1720   setTargetDAGCombine(ISD::SIGN_EXTEND);
1721   setTargetDAGCombine(ISD::SIGN_EXTEND_INREG);
1722   setTargetDAGCombine(ISD::SINT_TO_FP);
1723   setTargetDAGCombine(ISD::UINT_TO_FP);
1724   setTargetDAGCombine(ISD::SETCC);
1725   setTargetDAGCombine(ISD::BUILD_VECTOR);
1726   setTargetDAGCombine(ISD::MUL);
1727   setTargetDAGCombine(ISD::XOR);
1728
1729   computeRegisterProperties(Subtarget->getRegisterInfo());
1730
1731   MaxStoresPerMemset = 16; // For @llvm.memset -> sequence of stores
1732   MaxStoresPerMemsetOptSize = 8;
1733   MaxStoresPerMemcpy = 8; // For @llvm.memcpy -> sequence of stores
1734   MaxStoresPerMemcpyOptSize = 4;
1735   MaxStoresPerMemmove = 8; // For @llvm.memmove -> sequence of stores
1736   MaxStoresPerMemmoveOptSize = 4;
1737   setPrefLoopAlignment(4); // 2^4 bytes.
1738
1739   // Predictable cmov don't hurt on atom because it's in-order.
1740   PredictableSelectIsExpensive = !Subtarget->isAtom();
1741   EnableExtLdPromotion = true;
1742   setPrefFunctionAlignment(4); // 2^4 bytes.
1743
1744   verifyIntrinsicTables();
1745 }
1746
1747 // This has so far only been implemented for 64-bit MachO.
1748 bool X86TargetLowering::useLoadStackGuardNode() const {
1749   return Subtarget->isTargetMachO() && Subtarget->is64Bit();
1750 }
1751
1752 TargetLoweringBase::LegalizeTypeAction
1753 X86TargetLowering::getPreferredVectorAction(EVT VT) const {
1754   if (ExperimentalVectorWideningLegalization &&
1755       VT.getVectorNumElements() != 1 &&
1756       VT.getVectorElementType().getSimpleVT() != MVT::i1)
1757     return TypeWidenVector;
1758
1759   return TargetLoweringBase::getPreferredVectorAction(VT);
1760 }
1761
1762 EVT X86TargetLowering::getSetCCResultType(const DataLayout &DL, LLVMContext &,
1763                                           EVT VT) const {
1764   if (!VT.isVector())
1765     return Subtarget->hasAVX512() ? MVT::i1: MVT::i8;
1766
1767   const unsigned NumElts = VT.getVectorNumElements();
1768   const EVT EltVT = VT.getVectorElementType();
1769   if (VT.is512BitVector()) {
1770     if (Subtarget->hasAVX512())
1771       if (EltVT == MVT::i32 || EltVT == MVT::i64 ||
1772           EltVT == MVT::f32 || EltVT == MVT::f64)
1773         switch(NumElts) {
1774         case  8: return MVT::v8i1;
1775         case 16: return MVT::v16i1;
1776       }
1777     if (Subtarget->hasBWI())
1778       if (EltVT == MVT::i8 || EltVT == MVT::i16)
1779         switch(NumElts) {
1780         case 32: return MVT::v32i1;
1781         case 64: return MVT::v64i1;
1782       }
1783   }
1784
1785   if (VT.is256BitVector() || VT.is128BitVector()) {
1786     if (Subtarget->hasVLX())
1787       if (EltVT == MVT::i32 || EltVT == MVT::i64 ||
1788           EltVT == MVT::f32 || EltVT == MVT::f64)
1789         switch(NumElts) {
1790         case 2: return MVT::v2i1;
1791         case 4: return MVT::v4i1;
1792         case 8: return MVT::v8i1;
1793       }
1794     if (Subtarget->hasBWI() && Subtarget->hasVLX())
1795       if (EltVT == MVT::i8 || EltVT == MVT::i16)
1796         switch(NumElts) {
1797         case  8: return MVT::v8i1;
1798         case 16: return MVT::v16i1;
1799         case 32: return MVT::v32i1;
1800       }
1801   }
1802
1803   return VT.changeVectorElementTypeToInteger();
1804 }
1805
1806 /// Helper for getByValTypeAlignment to determine
1807 /// the desired ByVal argument alignment.
1808 static void getMaxByValAlign(Type *Ty, unsigned &MaxAlign) {
1809   if (MaxAlign == 16)
1810     return;
1811   if (VectorType *VTy = dyn_cast<VectorType>(Ty)) {
1812     if (VTy->getBitWidth() == 128)
1813       MaxAlign = 16;
1814   } else if (ArrayType *ATy = dyn_cast<ArrayType>(Ty)) {
1815     unsigned EltAlign = 0;
1816     getMaxByValAlign(ATy->getElementType(), EltAlign);
1817     if (EltAlign > MaxAlign)
1818       MaxAlign = EltAlign;
1819   } else if (StructType *STy = dyn_cast<StructType>(Ty)) {
1820     for (auto *EltTy : STy->elements()) {
1821       unsigned EltAlign = 0;
1822       getMaxByValAlign(EltTy, EltAlign);
1823       if (EltAlign > MaxAlign)
1824         MaxAlign = EltAlign;
1825       if (MaxAlign == 16)
1826         break;
1827     }
1828   }
1829 }
1830
1831 /// Return the desired alignment for ByVal aggregate
1832 /// function arguments in the caller parameter area. For X86, aggregates
1833 /// that contain SSE vectors are placed at 16-byte boundaries while the rest
1834 /// are at 4-byte boundaries.
1835 unsigned X86TargetLowering::getByValTypeAlignment(Type *Ty,
1836                                                   const DataLayout &DL) const {
1837   if (Subtarget->is64Bit()) {
1838     // Max of 8 and alignment of type.
1839     unsigned TyAlign = DL.getABITypeAlignment(Ty);
1840     if (TyAlign > 8)
1841       return TyAlign;
1842     return 8;
1843   }
1844
1845   unsigned Align = 4;
1846   if (Subtarget->hasSSE1())
1847     getMaxByValAlign(Ty, Align);
1848   return Align;
1849 }
1850
1851 /// Returns the target specific optimal type for load
1852 /// and store operations as a result of memset, memcpy, and memmove
1853 /// lowering. If DstAlign is zero that means it's safe to destination
1854 /// alignment can satisfy any constraint. Similarly if SrcAlign is zero it
1855 /// means there isn't a need to check it against alignment requirement,
1856 /// probably because the source does not need to be loaded. If 'IsMemset' is
1857 /// true, that means it's expanding a memset. If 'ZeroMemset' is true, that
1858 /// means it's a memset of zero. 'MemcpyStrSrc' indicates whether the memcpy
1859 /// source is constant so it does not need to be loaded.
1860 /// It returns EVT::Other if the type should be determined using generic
1861 /// target-independent logic.
1862 EVT
1863 X86TargetLowering::getOptimalMemOpType(uint64_t Size,
1864                                        unsigned DstAlign, unsigned SrcAlign,
1865                                        bool IsMemset, bool ZeroMemset,
1866                                        bool MemcpyStrSrc,
1867                                        MachineFunction &MF) const {
1868   const Function *F = MF.getFunction();
1869   if ((!IsMemset || ZeroMemset) &&
1870       !F->hasFnAttribute(Attribute::NoImplicitFloat)) {
1871     if (Size >= 16 &&
1872         (!Subtarget->isUnalignedMem16Slow() ||
1873          ((DstAlign == 0 || DstAlign >= 16) &&
1874           (SrcAlign == 0 || SrcAlign >= 16)))) {
1875       if (Size >= 32) {
1876         // FIXME: Check if unaligned 32-byte accesses are slow.
1877         if (Subtarget->hasInt256())
1878           return MVT::v8i32;
1879         if (Subtarget->hasFp256())
1880           return MVT::v8f32;
1881       }
1882       if (Subtarget->hasSSE2())
1883         return MVT::v4i32;
1884       if (Subtarget->hasSSE1())
1885         return MVT::v4f32;
1886     } else if (!MemcpyStrSrc && Size >= 8 &&
1887                !Subtarget->is64Bit() &&
1888                Subtarget->hasSSE2()) {
1889       // Do not use f64 to lower memcpy if source is string constant. It's
1890       // better to use i32 to avoid the loads.
1891       return MVT::f64;
1892     }
1893   }
1894   // This is a compromise. If we reach here, unaligned accesses may be slow on
1895   // this target. However, creating smaller, aligned accesses could be even
1896   // slower and would certainly be a lot more code.
1897   if (Subtarget->is64Bit() && Size >= 8)
1898     return MVT::i64;
1899   return MVT::i32;
1900 }
1901
1902 bool X86TargetLowering::isSafeMemOpType(MVT VT) const {
1903   if (VT == MVT::f32)
1904     return X86ScalarSSEf32;
1905   else if (VT == MVT::f64)
1906     return X86ScalarSSEf64;
1907   return true;
1908 }
1909
1910 bool
1911 X86TargetLowering::allowsMisalignedMemoryAccesses(EVT VT,
1912                                                   unsigned,
1913                                                   unsigned,
1914                                                   bool *Fast) const {
1915   if (Fast) {
1916     if (VT.getSizeInBits() == 256)
1917       *Fast = !Subtarget->isUnalignedMem32Slow();
1918     else
1919       // FIXME: We should always return that 8-byte and under accesses are fast.
1920       // That is what other x86 lowering code assumes.
1921       *Fast = !Subtarget->isUnalignedMem16Slow();
1922   }
1923   return true;
1924 }
1925
1926 /// Return the entry encoding for a jump table in the
1927 /// current function.  The returned value is a member of the
1928 /// MachineJumpTableInfo::JTEntryKind enum.
1929 unsigned X86TargetLowering::getJumpTableEncoding() const {
1930   // In GOT pic mode, each entry in the jump table is emitted as a @GOTOFF
1931   // symbol.
1932   if (getTargetMachine().getRelocationModel() == Reloc::PIC_ &&
1933       Subtarget->isPICStyleGOT())
1934     return MachineJumpTableInfo::EK_Custom32;
1935
1936   // Otherwise, use the normal jump table encoding heuristics.
1937   return TargetLowering::getJumpTableEncoding();
1938 }
1939
1940 bool X86TargetLowering::useSoftFloat() const {
1941   return Subtarget->useSoftFloat();
1942 }
1943
1944 const MCExpr *
1945 X86TargetLowering::LowerCustomJumpTableEntry(const MachineJumpTableInfo *MJTI,
1946                                              const MachineBasicBlock *MBB,
1947                                              unsigned uid,MCContext &Ctx) const{
1948   assert(MBB->getParent()->getTarget().getRelocationModel() == Reloc::PIC_ &&
1949          Subtarget->isPICStyleGOT());
1950   // In 32-bit ELF systems, our jump table entries are formed with @GOTOFF
1951   // entries.
1952   return MCSymbolRefExpr::create(MBB->getSymbol(),
1953                                  MCSymbolRefExpr::VK_GOTOFF, Ctx);
1954 }
1955
1956 /// Returns relocation base for the given PIC jumptable.
1957 SDValue X86TargetLowering::getPICJumpTableRelocBase(SDValue Table,
1958                                                     SelectionDAG &DAG) const {
1959   if (!Subtarget->is64Bit())
1960     // This doesn't have SDLoc associated with it, but is not really the
1961     // same as a Register.
1962     return DAG.getNode(X86ISD::GlobalBaseReg, SDLoc(),
1963                        getPointerTy(DAG.getDataLayout()));
1964   return Table;
1965 }
1966
1967 /// This returns the relocation base for the given PIC jumptable,
1968 /// the same as getPICJumpTableRelocBase, but as an MCExpr.
1969 const MCExpr *X86TargetLowering::
1970 getPICJumpTableRelocBaseExpr(const MachineFunction *MF, unsigned JTI,
1971                              MCContext &Ctx) const {
1972   // X86-64 uses RIP relative addressing based on the jump table label.
1973   if (Subtarget->isPICStyleRIPRel())
1974     return TargetLowering::getPICJumpTableRelocBaseExpr(MF, JTI, Ctx);
1975
1976   // Otherwise, the reference is relative to the PIC base.
1977   return MCSymbolRefExpr::create(MF->getPICBaseSymbol(), Ctx);
1978 }
1979
1980 std::pair<const TargetRegisterClass *, uint8_t>
1981 X86TargetLowering::findRepresentativeClass(const TargetRegisterInfo *TRI,
1982                                            MVT VT) const {
1983   const TargetRegisterClass *RRC = nullptr;
1984   uint8_t Cost = 1;
1985   switch (VT.SimpleTy) {
1986   default:
1987     return TargetLowering::findRepresentativeClass(TRI, VT);
1988   case MVT::i8: case MVT::i16: case MVT::i32: case MVT::i64:
1989     RRC = Subtarget->is64Bit() ? &X86::GR64RegClass : &X86::GR32RegClass;
1990     break;
1991   case MVT::x86mmx:
1992     RRC = &X86::VR64RegClass;
1993     break;
1994   case MVT::f32: case MVT::f64:
1995   case MVT::v16i8: case MVT::v8i16: case MVT::v4i32: case MVT::v2i64:
1996   case MVT::v4f32: case MVT::v2f64:
1997   case MVT::v32i8: case MVT::v8i32: case MVT::v4i64: case MVT::v8f32:
1998   case MVT::v4f64:
1999     RRC = &X86::VR128RegClass;
2000     break;
2001   }
2002   return std::make_pair(RRC, Cost);
2003 }
2004
2005 bool X86TargetLowering::getStackCookieLocation(unsigned &AddressSpace,
2006                                                unsigned &Offset) const {
2007   if (!Subtarget->isTargetLinux())
2008     return false;
2009
2010   if (Subtarget->is64Bit()) {
2011     // %fs:0x28, unless we're using a Kernel code model, in which case it's %gs:
2012     Offset = 0x28;
2013     if (getTargetMachine().getCodeModel() == CodeModel::Kernel)
2014       AddressSpace = 256;
2015     else
2016       AddressSpace = 257;
2017   } else {
2018     // %gs:0x14 on i386
2019     Offset = 0x14;
2020     AddressSpace = 256;
2021   }
2022   return true;
2023 }
2024
2025 bool X86TargetLowering::isNoopAddrSpaceCast(unsigned SrcAS,
2026                                             unsigned DestAS) const {
2027   assert(SrcAS != DestAS && "Expected different address spaces!");
2028
2029   return SrcAS < 256 && DestAS < 256;
2030 }
2031
2032 //===----------------------------------------------------------------------===//
2033 //               Return Value Calling Convention Implementation
2034 //===----------------------------------------------------------------------===//
2035
2036 #include "X86GenCallingConv.inc"
2037
2038 bool
2039 X86TargetLowering::CanLowerReturn(CallingConv::ID CallConv,
2040                                   MachineFunction &MF, bool isVarArg,
2041                         const SmallVectorImpl<ISD::OutputArg> &Outs,
2042                         LLVMContext &Context) const {
2043   SmallVector<CCValAssign, 16> RVLocs;
2044   CCState CCInfo(CallConv, isVarArg, MF, RVLocs, Context);
2045   return CCInfo.CheckReturn(Outs, RetCC_X86);
2046 }
2047
2048 const MCPhysReg *X86TargetLowering::getScratchRegisters(CallingConv::ID) const {
2049   static const MCPhysReg ScratchRegs[] = { X86::R11, 0 };
2050   return ScratchRegs;
2051 }
2052
2053 SDValue
2054 X86TargetLowering::LowerReturn(SDValue Chain,
2055                                CallingConv::ID CallConv, bool isVarArg,
2056                                const SmallVectorImpl<ISD::OutputArg> &Outs,
2057                                const SmallVectorImpl<SDValue> &OutVals,
2058                                SDLoc dl, SelectionDAG &DAG) const {
2059   MachineFunction &MF = DAG.getMachineFunction();
2060   X86MachineFunctionInfo *FuncInfo = MF.getInfo<X86MachineFunctionInfo>();
2061
2062   SmallVector<CCValAssign, 16> RVLocs;
2063   CCState CCInfo(CallConv, isVarArg, MF, RVLocs, *DAG.getContext());
2064   CCInfo.AnalyzeReturn(Outs, RetCC_X86);
2065
2066   SDValue Flag;
2067   SmallVector<SDValue, 6> RetOps;
2068   RetOps.push_back(Chain); // Operand #0 = Chain (updated below)
2069   // Operand #1 = Bytes To Pop
2070   RetOps.push_back(DAG.getTargetConstant(FuncInfo->getBytesToPopOnReturn(), dl,
2071                    MVT::i16));
2072
2073   // Copy the result values into the output registers.
2074   for (unsigned i = 0; i != RVLocs.size(); ++i) {
2075     CCValAssign &VA = RVLocs[i];
2076     assert(VA.isRegLoc() && "Can only return in registers!");
2077     SDValue ValToCopy = OutVals[i];
2078     EVT ValVT = ValToCopy.getValueType();
2079
2080     // Promote values to the appropriate types.
2081     if (VA.getLocInfo() == CCValAssign::SExt)
2082       ValToCopy = DAG.getNode(ISD::SIGN_EXTEND, dl, VA.getLocVT(), ValToCopy);
2083     else if (VA.getLocInfo() == CCValAssign::ZExt)
2084       ValToCopy = DAG.getNode(ISD::ZERO_EXTEND, dl, VA.getLocVT(), ValToCopy);
2085     else if (VA.getLocInfo() == CCValAssign::AExt) {
2086       if (ValVT.isVector() && ValVT.getScalarType() == MVT::i1)
2087         ValToCopy = DAG.getNode(ISD::SIGN_EXTEND, dl, VA.getLocVT(), ValToCopy);
2088       else
2089         ValToCopy = DAG.getNode(ISD::ANY_EXTEND, dl, VA.getLocVT(), ValToCopy);
2090     }
2091     else if (VA.getLocInfo() == CCValAssign::BCvt)
2092       ValToCopy = DAG.getBitcast(VA.getLocVT(), ValToCopy);
2093
2094     assert(VA.getLocInfo() != CCValAssign::FPExt &&
2095            "Unexpected FP-extend for return value.");
2096
2097     // If this is x86-64, and we disabled SSE, we can't return FP values,
2098     // or SSE or MMX vectors.
2099     if ((ValVT == MVT::f32 || ValVT == MVT::f64 ||
2100          VA.getLocReg() == X86::XMM0 || VA.getLocReg() == X86::XMM1) &&
2101           (Subtarget->is64Bit() && !Subtarget->hasSSE1())) {
2102       report_fatal_error("SSE register return with SSE disabled");
2103     }
2104     // Likewise we can't return F64 values with SSE1 only.  gcc does so, but
2105     // llvm-gcc has never done it right and no one has noticed, so this
2106     // should be OK for now.
2107     if (ValVT == MVT::f64 &&
2108         (Subtarget->is64Bit() && !Subtarget->hasSSE2()))
2109       report_fatal_error("SSE2 register return with SSE2 disabled");
2110
2111     // Returns in ST0/ST1 are handled specially: these are pushed as operands to
2112     // the RET instruction and handled by the FP Stackifier.
2113     if (VA.getLocReg() == X86::FP0 ||
2114         VA.getLocReg() == X86::FP1) {
2115       // If this is a copy from an xmm register to ST(0), use an FPExtend to
2116       // change the value to the FP stack register class.
2117       if (isScalarFPTypeInSSEReg(VA.getValVT()))
2118         ValToCopy = DAG.getNode(ISD::FP_EXTEND, dl, MVT::f80, ValToCopy);
2119       RetOps.push_back(ValToCopy);
2120       // Don't emit a copytoreg.
2121       continue;
2122     }
2123
2124     // 64-bit vector (MMX) values are returned in XMM0 / XMM1 except for v1i64
2125     // which is returned in RAX / RDX.
2126     if (Subtarget->is64Bit()) {
2127       if (ValVT == MVT::x86mmx) {
2128         if (VA.getLocReg() == X86::XMM0 || VA.getLocReg() == X86::XMM1) {
2129           ValToCopy = DAG.getBitcast(MVT::i64, ValToCopy);
2130           ValToCopy = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v2i64,
2131                                   ValToCopy);
2132           // If we don't have SSE2 available, convert to v4f32 so the generated
2133           // register is legal.
2134           if (!Subtarget->hasSSE2())
2135             ValToCopy = DAG.getBitcast(MVT::v4f32, ValToCopy);
2136         }
2137       }
2138     }
2139
2140     Chain = DAG.getCopyToReg(Chain, dl, VA.getLocReg(), ValToCopy, Flag);
2141     Flag = Chain.getValue(1);
2142     RetOps.push_back(DAG.getRegister(VA.getLocReg(), VA.getLocVT()));
2143   }
2144
2145   // All x86 ABIs require that for returning structs by value we copy
2146   // the sret argument into %rax/%eax (depending on ABI) for the return.
2147   // We saved the argument into a virtual register in the entry block,
2148   // so now we copy the value out and into %rax/%eax.
2149   //
2150   // Checking Function.hasStructRetAttr() here is insufficient because the IR
2151   // may not have an explicit sret argument. If FuncInfo.CanLowerReturn is
2152   // false, then an sret argument may be implicitly inserted in the SelDAG. In
2153   // either case FuncInfo->setSRetReturnReg() will have been called.
2154   if (unsigned SRetReg = FuncInfo->getSRetReturnReg()) {
2155     SDValue Val = DAG.getCopyFromReg(Chain, dl, SRetReg,
2156                                      getPointerTy(MF.getDataLayout()));
2157
2158     unsigned RetValReg
2159         = (Subtarget->is64Bit() && !Subtarget->isTarget64BitILP32()) ?
2160           X86::RAX : X86::EAX;
2161     Chain = DAG.getCopyToReg(Chain, dl, RetValReg, Val, Flag);
2162     Flag = Chain.getValue(1);
2163
2164     // RAX/EAX now acts like a return value.
2165     RetOps.push_back(
2166         DAG.getRegister(RetValReg, getPointerTy(DAG.getDataLayout())));
2167   }
2168
2169   RetOps[0] = Chain;  // Update chain.
2170
2171   // Add the flag if we have it.
2172   if (Flag.getNode())
2173     RetOps.push_back(Flag);
2174
2175   return DAG.getNode(X86ISD::RET_FLAG, dl, MVT::Other, RetOps);
2176 }
2177
2178 bool X86TargetLowering::isUsedByReturnOnly(SDNode *N, SDValue &Chain) const {
2179   if (N->getNumValues() != 1)
2180     return false;
2181   if (!N->hasNUsesOfValue(1, 0))
2182     return false;
2183
2184   SDValue TCChain = Chain;
2185   SDNode *Copy = *N->use_begin();
2186   if (Copy->getOpcode() == ISD::CopyToReg) {
2187     // If the copy has a glue operand, we conservatively assume it isn't safe to
2188     // perform a tail call.
2189     if (Copy->getOperand(Copy->getNumOperands()-1).getValueType() == MVT::Glue)
2190       return false;
2191     TCChain = Copy->getOperand(0);
2192   } else if (Copy->getOpcode() != ISD::FP_EXTEND)
2193     return false;
2194
2195   bool HasRet = false;
2196   for (SDNode::use_iterator UI = Copy->use_begin(), UE = Copy->use_end();
2197        UI != UE; ++UI) {
2198     if (UI->getOpcode() != X86ISD::RET_FLAG)
2199       return false;
2200     // If we are returning more than one value, we can definitely
2201     // not make a tail call see PR19530
2202     if (UI->getNumOperands() > 4)
2203       return false;
2204     if (UI->getNumOperands() == 4 &&
2205         UI->getOperand(UI->getNumOperands()-1).getValueType() != MVT::Glue)
2206       return false;
2207     HasRet = true;
2208   }
2209
2210   if (!HasRet)
2211     return false;
2212
2213   Chain = TCChain;
2214   return true;
2215 }
2216
2217 EVT
2218 X86TargetLowering::getTypeForExtArgOrReturn(LLVMContext &Context, EVT VT,
2219                                             ISD::NodeType ExtendKind) const {
2220   MVT ReturnMVT;
2221   // TODO: Is this also valid on 32-bit?
2222   if (Subtarget->is64Bit() && VT == MVT::i1 && ExtendKind == ISD::ZERO_EXTEND)
2223     ReturnMVT = MVT::i8;
2224   else
2225     ReturnMVT = MVT::i32;
2226
2227   EVT MinVT = getRegisterType(Context, ReturnMVT);
2228   return VT.bitsLT(MinVT) ? MinVT : VT;
2229 }
2230
2231 /// Lower the result values of a call into the
2232 /// appropriate copies out of appropriate physical registers.
2233 ///
2234 SDValue
2235 X86TargetLowering::LowerCallResult(SDValue Chain, SDValue InFlag,
2236                                    CallingConv::ID CallConv, bool isVarArg,
2237                                    const SmallVectorImpl<ISD::InputArg> &Ins,
2238                                    SDLoc dl, SelectionDAG &DAG,
2239                                    SmallVectorImpl<SDValue> &InVals) const {
2240
2241   // Assign locations to each value returned by this call.
2242   SmallVector<CCValAssign, 16> RVLocs;
2243   bool Is64Bit = Subtarget->is64Bit();
2244   CCState CCInfo(CallConv, isVarArg, DAG.getMachineFunction(), RVLocs,
2245                  *DAG.getContext());
2246   CCInfo.AnalyzeCallResult(Ins, RetCC_X86);
2247
2248   // Copy all of the result registers out of their specified physreg.
2249   for (unsigned i = 0, e = RVLocs.size(); i != e; ++i) {
2250     CCValAssign &VA = RVLocs[i];
2251     EVT CopyVT = VA.getLocVT();
2252
2253     // If this is x86-64, and we disabled SSE, we can't return FP values
2254     if ((CopyVT == MVT::f32 || CopyVT == MVT::f64) &&
2255         ((Is64Bit || Ins[i].Flags.isInReg()) && !Subtarget->hasSSE1())) {
2256       report_fatal_error("SSE register return with SSE disabled");
2257     }
2258
2259     // If we prefer to use the value in xmm registers, copy it out as f80 and
2260     // use a truncate to move it from fp stack reg to xmm reg.
2261     bool RoundAfterCopy = false;
2262     if ((VA.getLocReg() == X86::FP0 || VA.getLocReg() == X86::FP1) &&
2263         isScalarFPTypeInSSEReg(VA.getValVT())) {
2264       CopyVT = MVT::f80;
2265       RoundAfterCopy = (CopyVT != VA.getLocVT());
2266     }
2267
2268     Chain = DAG.getCopyFromReg(Chain, dl, VA.getLocReg(),
2269                                CopyVT, InFlag).getValue(1);
2270     SDValue Val = Chain.getValue(0);
2271
2272     if (RoundAfterCopy)
2273       Val = DAG.getNode(ISD::FP_ROUND, dl, VA.getValVT(), Val,
2274                         // This truncation won't change the value.
2275                         DAG.getIntPtrConstant(1, dl));
2276
2277     if (VA.isExtInLoc() && VA.getValVT().getScalarType() == MVT::i1)
2278       Val = DAG.getNode(ISD::TRUNCATE, dl, VA.getValVT(), Val);
2279
2280     InFlag = Chain.getValue(2);
2281     InVals.push_back(Val);
2282   }
2283
2284   return Chain;
2285 }
2286
2287 //===----------------------------------------------------------------------===//
2288 //                C & StdCall & Fast Calling Convention implementation
2289 //===----------------------------------------------------------------------===//
2290 //  StdCall calling convention seems to be standard for many Windows' API
2291 //  routines and around. It differs from C calling convention just a little:
2292 //  callee should clean up the stack, not caller. Symbols should be also
2293 //  decorated in some fancy way :) It doesn't support any vector arguments.
2294 //  For info on fast calling convention see Fast Calling Convention (tail call)
2295 //  implementation LowerX86_32FastCCCallTo.
2296
2297 /// CallIsStructReturn - Determines whether a call uses struct return
2298 /// semantics.
2299 enum StructReturnType {
2300   NotStructReturn,
2301   RegStructReturn,
2302   StackStructReturn
2303 };
2304 static StructReturnType
2305 callIsStructReturn(const SmallVectorImpl<ISD::OutputArg> &Outs) {
2306   if (Outs.empty())
2307     return NotStructReturn;
2308
2309   const ISD::ArgFlagsTy &Flags = Outs[0].Flags;
2310   if (!Flags.isSRet())
2311     return NotStructReturn;
2312   if (Flags.isInReg())
2313     return RegStructReturn;
2314   return StackStructReturn;
2315 }
2316
2317 /// Determines whether a function uses struct return semantics.
2318 static StructReturnType
2319 argsAreStructReturn(const SmallVectorImpl<ISD::InputArg> &Ins) {
2320   if (Ins.empty())
2321     return NotStructReturn;
2322
2323   const ISD::ArgFlagsTy &Flags = Ins[0].Flags;
2324   if (!Flags.isSRet())
2325     return NotStructReturn;
2326   if (Flags.isInReg())
2327     return RegStructReturn;
2328   return StackStructReturn;
2329 }
2330
2331 /// Make a copy of an aggregate at address specified by "Src" to address
2332 /// "Dst" with size and alignment information specified by the specific
2333 /// parameter attribute. The copy will be passed as a byval function parameter.
2334 static SDValue
2335 CreateCopyOfByValArgument(SDValue Src, SDValue Dst, SDValue Chain,
2336                           ISD::ArgFlagsTy Flags, SelectionDAG &DAG,
2337                           SDLoc dl) {
2338   SDValue SizeNode = DAG.getConstant(Flags.getByValSize(), dl, MVT::i32);
2339
2340   return DAG.getMemcpy(Chain, dl, Dst, Src, SizeNode, Flags.getByValAlign(),
2341                        /*isVolatile*/false, /*AlwaysInline=*/true,
2342                        /*isTailCall*/false,
2343                        MachinePointerInfo(), MachinePointerInfo());
2344 }
2345
2346 /// Return true if the calling convention is one that
2347 /// supports tail call optimization.
2348 static bool IsTailCallConvention(CallingConv::ID CC) {
2349   return (CC == CallingConv::Fast || CC == CallingConv::GHC ||
2350           CC == CallingConv::HiPE);
2351 }
2352
2353 /// \brief Return true if the calling convention is a C calling convention.
2354 static bool IsCCallConvention(CallingConv::ID CC) {
2355   return (CC == CallingConv::C || CC == CallingConv::X86_64_Win64 ||
2356           CC == CallingConv::X86_64_SysV);
2357 }
2358
2359 bool X86TargetLowering::mayBeEmittedAsTailCall(CallInst *CI) const {
2360   auto Attr =
2361       CI->getParent()->getParent()->getFnAttribute("disable-tail-calls");
2362   if (!CI->isTailCall() || Attr.getValueAsString() == "true")
2363     return false;
2364
2365   CallSite CS(CI);
2366   CallingConv::ID CalleeCC = CS.getCallingConv();
2367   if (!IsTailCallConvention(CalleeCC) && !IsCCallConvention(CalleeCC))
2368     return false;
2369
2370   return true;
2371 }
2372
2373 /// Return true if the function is being made into
2374 /// a tailcall target by changing its ABI.
2375 static bool FuncIsMadeTailCallSafe(CallingConv::ID CC,
2376                                    bool GuaranteedTailCallOpt) {
2377   return GuaranteedTailCallOpt && IsTailCallConvention(CC);
2378 }
2379
2380 SDValue
2381 X86TargetLowering::LowerMemArgument(SDValue Chain,
2382                                     CallingConv::ID CallConv,
2383                                     const SmallVectorImpl<ISD::InputArg> &Ins,
2384                                     SDLoc dl, SelectionDAG &DAG,
2385                                     const CCValAssign &VA,
2386                                     MachineFrameInfo *MFI,
2387                                     unsigned i) const {
2388   // Create the nodes corresponding to a load from this parameter slot.
2389   ISD::ArgFlagsTy Flags = Ins[i].Flags;
2390   bool AlwaysUseMutable = FuncIsMadeTailCallSafe(
2391       CallConv, DAG.getTarget().Options.GuaranteedTailCallOpt);
2392   bool isImmutable = !AlwaysUseMutable && !Flags.isByVal();
2393   EVT ValVT;
2394
2395   // If value is passed by pointer we have address passed instead of the value
2396   // itself.
2397   bool ExtendedInMem = VA.isExtInLoc() &&
2398     VA.getValVT().getScalarType() == MVT::i1;
2399
2400   if (VA.getLocInfo() == CCValAssign::Indirect || ExtendedInMem)
2401     ValVT = VA.getLocVT();
2402   else
2403     ValVT = VA.getValVT();
2404
2405   // FIXME: For now, all byval parameter objects are marked mutable. This can be
2406   // changed with more analysis.
2407   // In case of tail call optimization mark all arguments mutable. Since they
2408   // could be overwritten by lowering of arguments in case of a tail call.
2409   if (Flags.isByVal()) {
2410     unsigned Bytes = Flags.getByValSize();
2411     if (Bytes == 0) Bytes = 1; // Don't create zero-sized stack objects.
2412     int FI = MFI->CreateFixedObject(Bytes, VA.getLocMemOffset(), isImmutable);
2413     return DAG.getFrameIndex(FI, getPointerTy(DAG.getDataLayout()));
2414   } else {
2415     int FI = MFI->CreateFixedObject(ValVT.getSizeInBits()/8,
2416                                     VA.getLocMemOffset(), isImmutable);
2417     SDValue FIN = DAG.getFrameIndex(FI, getPointerTy(DAG.getDataLayout()));
2418     SDValue Val = DAG.getLoad(
2419         ValVT, dl, Chain, FIN,
2420         MachinePointerInfo::getFixedStack(DAG.getMachineFunction(), FI), false,
2421         false, false, 0);
2422     return ExtendedInMem ?
2423       DAG.getNode(ISD::TRUNCATE, dl, VA.getValVT(), Val) : Val;
2424   }
2425 }
2426
2427 // FIXME: Get this from tablegen.
2428 static ArrayRef<MCPhysReg> get64BitArgumentGPRs(CallingConv::ID CallConv,
2429                                                 const X86Subtarget *Subtarget) {
2430   assert(Subtarget->is64Bit());
2431
2432   if (Subtarget->isCallingConvWin64(CallConv)) {
2433     static const MCPhysReg GPR64ArgRegsWin64[] = {
2434       X86::RCX, X86::RDX, X86::R8,  X86::R9
2435     };
2436     return makeArrayRef(std::begin(GPR64ArgRegsWin64), std::end(GPR64ArgRegsWin64));
2437   }
2438
2439   static const MCPhysReg GPR64ArgRegs64Bit[] = {
2440     X86::RDI, X86::RSI, X86::RDX, X86::RCX, X86::R8, X86::R9
2441   };
2442   return makeArrayRef(std::begin(GPR64ArgRegs64Bit), std::end(GPR64ArgRegs64Bit));
2443 }
2444
2445 // FIXME: Get this from tablegen.
2446 static ArrayRef<MCPhysReg> get64BitArgumentXMMs(MachineFunction &MF,
2447                                                 CallingConv::ID CallConv,
2448                                                 const X86Subtarget *Subtarget) {
2449   assert(Subtarget->is64Bit());
2450   if (Subtarget->isCallingConvWin64(CallConv)) {
2451     // The XMM registers which might contain var arg parameters are shadowed
2452     // in their paired GPR.  So we only need to save the GPR to their home
2453     // slots.
2454     // TODO: __vectorcall will change this.
2455     return None;
2456   }
2457
2458   const Function *Fn = MF.getFunction();
2459   bool NoImplicitFloatOps = Fn->hasFnAttribute(Attribute::NoImplicitFloat);
2460   bool isSoftFloat = Subtarget->useSoftFloat();
2461   assert(!(isSoftFloat && NoImplicitFloatOps) &&
2462          "SSE register cannot be used when SSE is disabled!");
2463   if (isSoftFloat || NoImplicitFloatOps || !Subtarget->hasSSE1())
2464     // Kernel mode asks for SSE to be disabled, so there are no XMM argument
2465     // registers.
2466     return None;
2467
2468   static const MCPhysReg XMMArgRegs64Bit[] = {
2469     X86::XMM0, X86::XMM1, X86::XMM2, X86::XMM3,
2470     X86::XMM4, X86::XMM5, X86::XMM6, X86::XMM7
2471   };
2472   return makeArrayRef(std::begin(XMMArgRegs64Bit), std::end(XMMArgRegs64Bit));
2473 }
2474
2475 SDValue
2476 X86TargetLowering::LowerFormalArguments(SDValue Chain,
2477                                         CallingConv::ID CallConv,
2478                                         bool isVarArg,
2479                                       const SmallVectorImpl<ISD::InputArg> &Ins,
2480                                         SDLoc dl,
2481                                         SelectionDAG &DAG,
2482                                         SmallVectorImpl<SDValue> &InVals)
2483                                           const {
2484   MachineFunction &MF = DAG.getMachineFunction();
2485   X86MachineFunctionInfo *FuncInfo = MF.getInfo<X86MachineFunctionInfo>();
2486   const TargetFrameLowering &TFI = *Subtarget->getFrameLowering();
2487
2488   const Function* Fn = MF.getFunction();
2489   if (Fn->hasExternalLinkage() &&
2490       Subtarget->isTargetCygMing() &&
2491       Fn->getName() == "main")
2492     FuncInfo->setForceFramePointer(true);
2493
2494   MachineFrameInfo *MFI = MF.getFrameInfo();
2495   bool Is64Bit = Subtarget->is64Bit();
2496   bool IsWin64 = Subtarget->isCallingConvWin64(CallConv);
2497
2498   assert(!(isVarArg && IsTailCallConvention(CallConv)) &&
2499          "Var args not supported with calling convention fastcc, ghc or hipe");
2500
2501   // Assign locations to all of the incoming arguments.
2502   SmallVector<CCValAssign, 16> ArgLocs;
2503   CCState CCInfo(CallConv, isVarArg, MF, ArgLocs, *DAG.getContext());
2504
2505   // Allocate shadow area for Win64
2506   if (IsWin64)
2507     CCInfo.AllocateStack(32, 8);
2508
2509   CCInfo.AnalyzeFormalArguments(Ins, CC_X86);
2510
2511   unsigned LastVal = ~0U;
2512   SDValue ArgValue;
2513   for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
2514     CCValAssign &VA = ArgLocs[i];
2515     // TODO: If an arg is passed in two places (e.g. reg and stack), skip later
2516     // places.
2517     assert(VA.getValNo() != LastVal &&
2518            "Don't support value assigned to multiple locs yet");
2519     (void)LastVal;
2520     LastVal = VA.getValNo();
2521
2522     if (VA.isRegLoc()) {
2523       EVT RegVT = VA.getLocVT();
2524       const TargetRegisterClass *RC;
2525       if (RegVT == MVT::i32)
2526         RC = &X86::GR32RegClass;
2527       else if (Is64Bit && RegVT == MVT::i64)
2528         RC = &X86::GR64RegClass;
2529       else if (RegVT == MVT::f32)
2530         RC = &X86::FR32RegClass;
2531       else if (RegVT == MVT::f64)
2532         RC = &X86::FR64RegClass;
2533       else if (RegVT.is512BitVector())
2534         RC = &X86::VR512RegClass;
2535       else if (RegVT.is256BitVector())
2536         RC = &X86::VR256RegClass;
2537       else if (RegVT.is128BitVector())
2538         RC = &X86::VR128RegClass;
2539       else if (RegVT == MVT::x86mmx)
2540         RC = &X86::VR64RegClass;
2541       else if (RegVT == MVT::i1)
2542         RC = &X86::VK1RegClass;
2543       else if (RegVT == MVT::v8i1)
2544         RC = &X86::VK8RegClass;
2545       else if (RegVT == MVT::v16i1)
2546         RC = &X86::VK16RegClass;
2547       else if (RegVT == MVT::v32i1)
2548         RC = &X86::VK32RegClass;
2549       else if (RegVT == MVT::v64i1)
2550         RC = &X86::VK64RegClass;
2551       else
2552         llvm_unreachable("Unknown argument type!");
2553
2554       unsigned Reg = MF.addLiveIn(VA.getLocReg(), RC);
2555       ArgValue = DAG.getCopyFromReg(Chain, dl, Reg, RegVT);
2556
2557       // If this is an 8 or 16-bit value, it is really passed promoted to 32
2558       // bits.  Insert an assert[sz]ext to capture this, then truncate to the
2559       // right size.
2560       if (VA.getLocInfo() == CCValAssign::SExt)
2561         ArgValue = DAG.getNode(ISD::AssertSext, dl, RegVT, ArgValue,
2562                                DAG.getValueType(VA.getValVT()));
2563       else if (VA.getLocInfo() == CCValAssign::ZExt)
2564         ArgValue = DAG.getNode(ISD::AssertZext, dl, RegVT, ArgValue,
2565                                DAG.getValueType(VA.getValVT()));
2566       else if (VA.getLocInfo() == CCValAssign::BCvt)
2567         ArgValue = DAG.getBitcast(VA.getValVT(), ArgValue);
2568
2569       if (VA.isExtInLoc()) {
2570         // Handle MMX values passed in XMM regs.
2571         if (RegVT.isVector() && VA.getValVT().getScalarType() != MVT::i1)
2572           ArgValue = DAG.getNode(X86ISD::MOVDQ2Q, dl, VA.getValVT(), ArgValue);
2573         else
2574           ArgValue = DAG.getNode(ISD::TRUNCATE, dl, VA.getValVT(), ArgValue);
2575       }
2576     } else {
2577       assert(VA.isMemLoc());
2578       ArgValue = LowerMemArgument(Chain, CallConv, Ins, dl, DAG, VA, MFI, i);
2579     }
2580
2581     // If value is passed via pointer - do a load.
2582     if (VA.getLocInfo() == CCValAssign::Indirect)
2583       ArgValue = DAG.getLoad(VA.getValVT(), dl, Chain, ArgValue,
2584                              MachinePointerInfo(), false, false, false, 0);
2585
2586     InVals.push_back(ArgValue);
2587   }
2588
2589   for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
2590     // All x86 ABIs require that for returning structs by value we copy the
2591     // sret argument into %rax/%eax (depending on ABI) for the return. Save
2592     // the argument into a virtual register so that we can access it from the
2593     // return points.
2594     if (Ins[i].Flags.isSRet()) {
2595       unsigned Reg = FuncInfo->getSRetReturnReg();
2596       if (!Reg) {
2597         MVT PtrTy = getPointerTy(DAG.getDataLayout());
2598         Reg = MF.getRegInfo().createVirtualRegister(getRegClassFor(PtrTy));
2599         FuncInfo->setSRetReturnReg(Reg);
2600       }
2601       SDValue Copy = DAG.getCopyToReg(DAG.getEntryNode(), dl, Reg, InVals[i]);
2602       Chain = DAG.getNode(ISD::TokenFactor, dl, MVT::Other, Copy, Chain);
2603       break;
2604     }
2605   }
2606
2607   unsigned StackSize = CCInfo.getNextStackOffset();
2608   // Align stack specially for tail calls.
2609   if (FuncIsMadeTailCallSafe(CallConv,
2610                              MF.getTarget().Options.GuaranteedTailCallOpt))
2611     StackSize = GetAlignedArgumentStackSize(StackSize, DAG);
2612
2613   // If the function takes variable number of arguments, make a frame index for
2614   // the start of the first vararg value... for expansion of llvm.va_start. We
2615   // can skip this if there are no va_start calls.
2616   if (MFI->hasVAStart() &&
2617       (Is64Bit || (CallConv != CallingConv::X86_FastCall &&
2618                    CallConv != CallingConv::X86_ThisCall))) {
2619     FuncInfo->setVarArgsFrameIndex(
2620         MFI->CreateFixedObject(1, StackSize, true));
2621   }
2622
2623   MachineModuleInfo &MMI = MF.getMMI();
2624   const Function *WinEHParent = nullptr;
2625   if (MMI.hasWinEHFuncInfo(Fn))
2626     WinEHParent = MMI.getWinEHParent(Fn);
2627   bool IsWinEHOutlined = WinEHParent && WinEHParent != Fn;
2628   bool IsWinEHParent = WinEHParent && WinEHParent == Fn;
2629
2630   // Figure out if XMM registers are in use.
2631   assert(!(Subtarget->useSoftFloat() &&
2632            Fn->hasFnAttribute(Attribute::NoImplicitFloat)) &&
2633          "SSE register cannot be used when SSE is disabled!");
2634
2635   // 64-bit calling conventions support varargs and register parameters, so we
2636   // have to do extra work to spill them in the prologue.
2637   if (Is64Bit && isVarArg && MFI->hasVAStart()) {
2638     // Find the first unallocated argument registers.
2639     ArrayRef<MCPhysReg> ArgGPRs = get64BitArgumentGPRs(CallConv, Subtarget);
2640     ArrayRef<MCPhysReg> ArgXMMs = get64BitArgumentXMMs(MF, CallConv, Subtarget);
2641     unsigned NumIntRegs = CCInfo.getFirstUnallocated(ArgGPRs);
2642     unsigned NumXMMRegs = CCInfo.getFirstUnallocated(ArgXMMs);
2643     assert(!(NumXMMRegs && !Subtarget->hasSSE1()) &&
2644            "SSE register cannot be used when SSE is disabled!");
2645
2646     // Gather all the live in physical registers.
2647     SmallVector<SDValue, 6> LiveGPRs;
2648     SmallVector<SDValue, 8> LiveXMMRegs;
2649     SDValue ALVal;
2650     for (MCPhysReg Reg : ArgGPRs.slice(NumIntRegs)) {
2651       unsigned GPR = MF.addLiveIn(Reg, &X86::GR64RegClass);
2652       LiveGPRs.push_back(
2653           DAG.getCopyFromReg(Chain, dl, GPR, MVT::i64));
2654     }
2655     if (!ArgXMMs.empty()) {
2656       unsigned AL = MF.addLiveIn(X86::AL, &X86::GR8RegClass);
2657       ALVal = DAG.getCopyFromReg(Chain, dl, AL, MVT::i8);
2658       for (MCPhysReg Reg : ArgXMMs.slice(NumXMMRegs)) {
2659         unsigned XMMReg = MF.addLiveIn(Reg, &X86::VR128RegClass);
2660         LiveXMMRegs.push_back(
2661             DAG.getCopyFromReg(Chain, dl, XMMReg, MVT::v4f32));
2662       }
2663     }
2664
2665     if (IsWin64) {
2666       // Get to the caller-allocated home save location.  Add 8 to account
2667       // for the return address.
2668       int HomeOffset = TFI.getOffsetOfLocalArea() + 8;
2669       FuncInfo->setRegSaveFrameIndex(
2670           MFI->CreateFixedObject(1, NumIntRegs * 8 + HomeOffset, false));
2671       // Fixup to set vararg frame on shadow area (4 x i64).
2672       if (NumIntRegs < 4)
2673         FuncInfo->setVarArgsFrameIndex(FuncInfo->getRegSaveFrameIndex());
2674     } else {
2675       // For X86-64, if there are vararg parameters that are passed via
2676       // registers, then we must store them to their spots on the stack so
2677       // they may be loaded by deferencing the result of va_next.
2678       FuncInfo->setVarArgsGPOffset(NumIntRegs * 8);
2679       FuncInfo->setVarArgsFPOffset(ArgGPRs.size() * 8 + NumXMMRegs * 16);
2680       FuncInfo->setRegSaveFrameIndex(MFI->CreateStackObject(
2681           ArgGPRs.size() * 8 + ArgXMMs.size() * 16, 16, false));
2682     }
2683
2684     // Store the integer parameter registers.
2685     SmallVector<SDValue, 8> MemOps;
2686     SDValue RSFIN = DAG.getFrameIndex(FuncInfo->getRegSaveFrameIndex(),
2687                                       getPointerTy(DAG.getDataLayout()));
2688     unsigned Offset = FuncInfo->getVarArgsGPOffset();
2689     for (SDValue Val : LiveGPRs) {
2690       SDValue FIN = DAG.getNode(ISD::ADD, dl, getPointerTy(DAG.getDataLayout()),
2691                                 RSFIN, DAG.getIntPtrConstant(Offset, dl));
2692       SDValue Store =
2693           DAG.getStore(Val.getValue(1), dl, Val, FIN,
2694                        MachinePointerInfo::getFixedStack(
2695                            DAG.getMachineFunction(),
2696                            FuncInfo->getRegSaveFrameIndex(), Offset),
2697                        false, false, 0);
2698       MemOps.push_back(Store);
2699       Offset += 8;
2700     }
2701
2702     if (!ArgXMMs.empty() && NumXMMRegs != ArgXMMs.size()) {
2703       // Now store the XMM (fp + vector) parameter registers.
2704       SmallVector<SDValue, 12> SaveXMMOps;
2705       SaveXMMOps.push_back(Chain);
2706       SaveXMMOps.push_back(ALVal);
2707       SaveXMMOps.push_back(DAG.getIntPtrConstant(
2708                              FuncInfo->getRegSaveFrameIndex(), dl));
2709       SaveXMMOps.push_back(DAG.getIntPtrConstant(
2710                              FuncInfo->getVarArgsFPOffset(), dl));
2711       SaveXMMOps.insert(SaveXMMOps.end(), LiveXMMRegs.begin(),
2712                         LiveXMMRegs.end());
2713       MemOps.push_back(DAG.getNode(X86ISD::VASTART_SAVE_XMM_REGS, dl,
2714                                    MVT::Other, SaveXMMOps));
2715     }
2716
2717     if (!MemOps.empty())
2718       Chain = DAG.getNode(ISD::TokenFactor, dl, MVT::Other, MemOps);
2719   } else if (IsWin64 && IsWinEHOutlined) {
2720     // Get to the caller-allocated home save location.  Add 8 to account
2721     // for the return address.
2722     int HomeOffset = TFI.getOffsetOfLocalArea() + 8;
2723     FuncInfo->setRegSaveFrameIndex(MFI->CreateFixedObject(
2724         /*Size=*/1, /*SPOffset=*/HomeOffset + 8, /*Immutable=*/false));
2725
2726     MMI.getWinEHFuncInfo(Fn)
2727         .CatchHandlerParentFrameObjIdx[const_cast<Function *>(Fn)] =
2728         FuncInfo->getRegSaveFrameIndex();
2729
2730     // Store the second integer parameter (rdx) into rsp+16 relative to the
2731     // stack pointer at the entry of the function.
2732     SDValue RSFIN = DAG.getFrameIndex(FuncInfo->getRegSaveFrameIndex(),
2733                                       getPointerTy(DAG.getDataLayout()));
2734     unsigned GPR = MF.addLiveIn(X86::RDX, &X86::GR64RegClass);
2735     SDValue Val = DAG.getCopyFromReg(Chain, dl, GPR, MVT::i64);
2736     Chain = DAG.getStore(
2737         Val.getValue(1), dl, Val, RSFIN,
2738         MachinePointerInfo::getFixedStack(DAG.getMachineFunction(),
2739                                           FuncInfo->getRegSaveFrameIndex()),
2740         /*isVolatile=*/true, /*isNonTemporal=*/false, /*Alignment=*/0);
2741   }
2742
2743   if (isVarArg && MFI->hasMustTailInVarArgFunc()) {
2744     // Find the largest legal vector type.
2745     MVT VecVT = MVT::Other;
2746     // FIXME: Only some x86_32 calling conventions support AVX512.
2747     if (Subtarget->hasAVX512() &&
2748         (Is64Bit || (CallConv == CallingConv::X86_VectorCall ||
2749                      CallConv == CallingConv::Intel_OCL_BI)))
2750       VecVT = MVT::v16f32;
2751     else if (Subtarget->hasAVX())
2752       VecVT = MVT::v8f32;
2753     else if (Subtarget->hasSSE2())
2754       VecVT = MVT::v4f32;
2755
2756     // We forward some GPRs and some vector types.
2757     SmallVector<MVT, 2> RegParmTypes;
2758     MVT IntVT = Is64Bit ? MVT::i64 : MVT::i32;
2759     RegParmTypes.push_back(IntVT);
2760     if (VecVT != MVT::Other)
2761       RegParmTypes.push_back(VecVT);
2762
2763     // Compute the set of forwarded registers. The rest are scratch.
2764     SmallVectorImpl<ForwardedRegister> &Forwards =
2765         FuncInfo->getForwardedMustTailRegParms();
2766     CCInfo.analyzeMustTailForwardedRegisters(Forwards, RegParmTypes, CC_X86);
2767
2768     // Conservatively forward AL on x86_64, since it might be used for varargs.
2769     if (Is64Bit && !CCInfo.isAllocated(X86::AL)) {
2770       unsigned ALVReg = MF.addLiveIn(X86::AL, &X86::GR8RegClass);
2771       Forwards.push_back(ForwardedRegister(ALVReg, X86::AL, MVT::i8));
2772     }
2773
2774     // Copy all forwards from physical to virtual registers.
2775     for (ForwardedRegister &F : Forwards) {
2776       // FIXME: Can we use a less constrained schedule?
2777       SDValue RegVal = DAG.getCopyFromReg(Chain, dl, F.VReg, F.VT);
2778       F.VReg = MF.getRegInfo().createVirtualRegister(getRegClassFor(F.VT));
2779       Chain = DAG.getCopyToReg(Chain, dl, F.VReg, RegVal);
2780     }
2781   }
2782
2783   // Some CCs need callee pop.
2784   if (X86::isCalleePop(CallConv, Is64Bit, isVarArg,
2785                        MF.getTarget().Options.GuaranteedTailCallOpt)) {
2786     FuncInfo->setBytesToPopOnReturn(StackSize); // Callee pops everything.
2787   } else {
2788     FuncInfo->setBytesToPopOnReturn(0); // Callee pops nothing.
2789     // If this is an sret function, the return should pop the hidden pointer.
2790     if (!Is64Bit && !IsTailCallConvention(CallConv) &&
2791         !Subtarget->getTargetTriple().isOSMSVCRT() &&
2792         argsAreStructReturn(Ins) == StackStructReturn)
2793       FuncInfo->setBytesToPopOnReturn(4);
2794   }
2795
2796   if (!Is64Bit) {
2797     // RegSaveFrameIndex is X86-64 only.
2798     FuncInfo->setRegSaveFrameIndex(0xAAAAAAA);
2799     if (CallConv == CallingConv::X86_FastCall ||
2800         CallConv == CallingConv::X86_ThisCall)
2801       // fastcc functions can't have varargs.
2802       FuncInfo->setVarArgsFrameIndex(0xAAAAAAA);
2803   }
2804
2805   FuncInfo->setArgumentStackSize(StackSize);
2806
2807   if (IsWinEHParent) {
2808     if (Is64Bit) {
2809       int UnwindHelpFI = MFI->CreateStackObject(8, 8, /*isSS=*/false);
2810       SDValue StackSlot = DAG.getFrameIndex(UnwindHelpFI, MVT::i64);
2811       MMI.getWinEHFuncInfo(MF.getFunction()).UnwindHelpFrameIdx = UnwindHelpFI;
2812       SDValue Neg2 = DAG.getConstant(-2, dl, MVT::i64);
2813       Chain = DAG.getStore(Chain, dl, Neg2, StackSlot,
2814                            MachinePointerInfo::getFixedStack(
2815                                DAG.getMachineFunction(), UnwindHelpFI),
2816                            /*isVolatile=*/true,
2817                            /*isNonTemporal=*/false, /*Alignment=*/0);
2818     } else {
2819       // Functions using Win32 EH are considered to have opaque SP adjustments
2820       // to force local variables to be addressed from the frame or base
2821       // pointers.
2822       MFI->setHasOpaqueSPAdjustment(true);
2823     }
2824   }
2825
2826   return Chain;
2827 }
2828
2829 SDValue
2830 X86TargetLowering::LowerMemOpCallTo(SDValue Chain,
2831                                     SDValue StackPtr, SDValue Arg,
2832                                     SDLoc dl, SelectionDAG &DAG,
2833                                     const CCValAssign &VA,
2834                                     ISD::ArgFlagsTy Flags) const {
2835   unsigned LocMemOffset = VA.getLocMemOffset();
2836   SDValue PtrOff = DAG.getIntPtrConstant(LocMemOffset, dl);
2837   PtrOff = DAG.getNode(ISD::ADD, dl, getPointerTy(DAG.getDataLayout()),
2838                        StackPtr, PtrOff);
2839   if (Flags.isByVal())
2840     return CreateCopyOfByValArgument(Arg, PtrOff, Chain, Flags, DAG, dl);
2841
2842   return DAG.getStore(
2843       Chain, dl, Arg, PtrOff,
2844       MachinePointerInfo::getStack(DAG.getMachineFunction(), LocMemOffset),
2845       false, false, 0);
2846 }
2847
2848 /// Emit a load of return address if tail call
2849 /// optimization is performed and it is required.
2850 SDValue
2851 X86TargetLowering::EmitTailCallLoadRetAddr(SelectionDAG &DAG,
2852                                            SDValue &OutRetAddr, SDValue Chain,
2853                                            bool IsTailCall, bool Is64Bit,
2854                                            int FPDiff, SDLoc dl) const {
2855   // Adjust the Return address stack slot.
2856   EVT VT = getPointerTy(DAG.getDataLayout());
2857   OutRetAddr = getReturnAddressFrameIndex(DAG);
2858
2859   // Load the "old" Return address.
2860   OutRetAddr = DAG.getLoad(VT, dl, Chain, OutRetAddr, MachinePointerInfo(),
2861                            false, false, false, 0);
2862   return SDValue(OutRetAddr.getNode(), 1);
2863 }
2864
2865 /// Emit a store of the return address if tail call
2866 /// optimization is performed and it is required (FPDiff!=0).
2867 static SDValue EmitTailCallStoreRetAddr(SelectionDAG &DAG, MachineFunction &MF,
2868                                         SDValue Chain, SDValue RetAddrFrIdx,
2869                                         EVT PtrVT, unsigned SlotSize,
2870                                         int FPDiff, SDLoc dl) {
2871   // Store the return address to the appropriate stack slot.
2872   if (!FPDiff) return Chain;
2873   // Calculate the new stack slot for the return address.
2874   int NewReturnAddrFI =
2875     MF.getFrameInfo()->CreateFixedObject(SlotSize, (int64_t)FPDiff - SlotSize,
2876                                          false);
2877   SDValue NewRetAddrFrIdx = DAG.getFrameIndex(NewReturnAddrFI, PtrVT);
2878   Chain = DAG.getStore(Chain, dl, RetAddrFrIdx, NewRetAddrFrIdx,
2879                        MachinePointerInfo::getFixedStack(
2880                            DAG.getMachineFunction(), NewReturnAddrFI),
2881                        false, false, 0);
2882   return Chain;
2883 }
2884
2885 /// Returns a vector_shuffle mask for an movs{s|d}, movd
2886 /// operation of specified width.
2887 static SDValue getMOVL(SelectionDAG &DAG, SDLoc dl, EVT VT, SDValue V1,
2888                        SDValue V2) {
2889   unsigned NumElems = VT.getVectorNumElements();
2890   SmallVector<int, 8> Mask;
2891   Mask.push_back(NumElems);
2892   for (unsigned i = 1; i != NumElems; ++i)
2893     Mask.push_back(i);
2894   return DAG.getVectorShuffle(VT, dl, V1, V2, &Mask[0]);
2895 }
2896
2897 SDValue
2898 X86TargetLowering::LowerCall(TargetLowering::CallLoweringInfo &CLI,
2899                              SmallVectorImpl<SDValue> &InVals) const {
2900   SelectionDAG &DAG                     = CLI.DAG;
2901   SDLoc &dl                             = CLI.DL;
2902   SmallVectorImpl<ISD::OutputArg> &Outs = CLI.Outs;
2903   SmallVectorImpl<SDValue> &OutVals     = CLI.OutVals;
2904   SmallVectorImpl<ISD::InputArg> &Ins   = CLI.Ins;
2905   SDValue Chain                         = CLI.Chain;
2906   SDValue Callee                        = CLI.Callee;
2907   CallingConv::ID CallConv              = CLI.CallConv;
2908   bool &isTailCall                      = CLI.IsTailCall;
2909   bool isVarArg                         = CLI.IsVarArg;
2910
2911   MachineFunction &MF = DAG.getMachineFunction();
2912   bool Is64Bit        = Subtarget->is64Bit();
2913   bool IsWin64        = Subtarget->isCallingConvWin64(CallConv);
2914   StructReturnType SR = callIsStructReturn(Outs);
2915   bool IsSibcall      = false;
2916   X86MachineFunctionInfo *X86Info = MF.getInfo<X86MachineFunctionInfo>();
2917   auto Attr = MF.getFunction()->getFnAttribute("disable-tail-calls");
2918
2919   if (Attr.getValueAsString() == "true")
2920     isTailCall = false;
2921
2922   if (Subtarget->isPICStyleGOT() &&
2923       !MF.getTarget().Options.GuaranteedTailCallOpt) {
2924     // If we are using a GOT, disable tail calls to external symbols with
2925     // default visibility. Tail calling such a symbol requires using a GOT
2926     // relocation, which forces early binding of the symbol. This breaks code
2927     // that require lazy function symbol resolution. Using musttail or
2928     // GuaranteedTailCallOpt will override this.
2929     GlobalAddressSDNode *G = dyn_cast<GlobalAddressSDNode>(Callee);
2930     if (!G || (!G->getGlobal()->hasLocalLinkage() &&
2931                G->getGlobal()->hasDefaultVisibility()))
2932       isTailCall = false;
2933   }
2934
2935   bool IsMustTail = CLI.CS && CLI.CS->isMustTailCall();
2936   if (IsMustTail) {
2937     // Force this to be a tail call.  The verifier rules are enough to ensure
2938     // that we can lower this successfully without moving the return address
2939     // around.
2940     isTailCall = true;
2941   } else if (isTailCall) {
2942     // Check if it's really possible to do a tail call.
2943     isTailCall = IsEligibleForTailCallOptimization(Callee, CallConv,
2944                     isVarArg, SR != NotStructReturn,
2945                     MF.getFunction()->hasStructRetAttr(), CLI.RetTy,
2946                     Outs, OutVals, Ins, DAG);
2947
2948     // Sibcalls are automatically detected tailcalls which do not require
2949     // ABI changes.
2950     if (!MF.getTarget().Options.GuaranteedTailCallOpt && isTailCall)
2951       IsSibcall = true;
2952
2953     if (isTailCall)
2954       ++NumTailCalls;
2955   }
2956
2957   assert(!(isVarArg && IsTailCallConvention(CallConv)) &&
2958          "Var args not supported with calling convention fastcc, ghc or hipe");
2959
2960   // Analyze operands of the call, assigning locations to each operand.
2961   SmallVector<CCValAssign, 16> ArgLocs;
2962   CCState CCInfo(CallConv, isVarArg, MF, ArgLocs, *DAG.getContext());
2963
2964   // Allocate shadow area for Win64
2965   if (IsWin64)
2966     CCInfo.AllocateStack(32, 8);
2967
2968   CCInfo.AnalyzeCallOperands(Outs, CC_X86);
2969
2970   // Get a count of how many bytes are to be pushed on the stack.
2971   unsigned NumBytes = CCInfo.getNextStackOffset();
2972   if (IsSibcall)
2973     // This is a sibcall. The memory operands are available in caller's
2974     // own caller's stack.
2975     NumBytes = 0;
2976   else if (MF.getTarget().Options.GuaranteedTailCallOpt &&
2977            IsTailCallConvention(CallConv))
2978     NumBytes = GetAlignedArgumentStackSize(NumBytes, DAG);
2979
2980   int FPDiff = 0;
2981   if (isTailCall && !IsSibcall && !IsMustTail) {
2982     // Lower arguments at fp - stackoffset + fpdiff.
2983     unsigned NumBytesCallerPushed = X86Info->getBytesToPopOnReturn();
2984
2985     FPDiff = NumBytesCallerPushed - NumBytes;
2986
2987     // Set the delta of movement of the returnaddr stackslot.
2988     // But only set if delta is greater than previous delta.
2989     if (FPDiff < X86Info->getTCReturnAddrDelta())
2990       X86Info->setTCReturnAddrDelta(FPDiff);
2991   }
2992
2993   unsigned NumBytesToPush = NumBytes;
2994   unsigned NumBytesToPop = NumBytes;
2995
2996   // If we have an inalloca argument, all stack space has already been allocated
2997   // for us and be right at the top of the stack.  We don't support multiple
2998   // arguments passed in memory when using inalloca.
2999   if (!Outs.empty() && Outs.back().Flags.isInAlloca()) {
3000     NumBytesToPush = 0;
3001     if (!ArgLocs.back().isMemLoc())
3002       report_fatal_error("cannot use inalloca attribute on a register "
3003                          "parameter");
3004     if (ArgLocs.back().getLocMemOffset() != 0)
3005       report_fatal_error("any parameter with the inalloca attribute must be "
3006                          "the only memory argument");
3007   }
3008
3009   if (!IsSibcall)
3010     Chain = DAG.getCALLSEQ_START(
3011         Chain, DAG.getIntPtrConstant(NumBytesToPush, dl, true), dl);
3012
3013   SDValue RetAddrFrIdx;
3014   // Load return address for tail calls.
3015   if (isTailCall && FPDiff)
3016     Chain = EmitTailCallLoadRetAddr(DAG, RetAddrFrIdx, Chain, isTailCall,
3017                                     Is64Bit, FPDiff, dl);
3018
3019   SmallVector<std::pair<unsigned, SDValue>, 8> RegsToPass;
3020   SmallVector<SDValue, 8> MemOpChains;
3021   SDValue StackPtr;
3022
3023   // Walk the register/memloc assignments, inserting copies/loads.  In the case
3024   // of tail call optimization arguments are handle later.
3025   const X86RegisterInfo *RegInfo = Subtarget->getRegisterInfo();
3026   for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
3027     // Skip inalloca arguments, they have already been written.
3028     ISD::ArgFlagsTy Flags = Outs[i].Flags;
3029     if (Flags.isInAlloca())
3030       continue;
3031
3032     CCValAssign &VA = ArgLocs[i];
3033     EVT RegVT = VA.getLocVT();
3034     SDValue Arg = OutVals[i];
3035     bool isByVal = Flags.isByVal();
3036
3037     // Promote the value if needed.
3038     switch (VA.getLocInfo()) {
3039     default: llvm_unreachable("Unknown loc info!");
3040     case CCValAssign::Full: break;
3041     case CCValAssign::SExt:
3042       Arg = DAG.getNode(ISD::SIGN_EXTEND, dl, RegVT, Arg);
3043       break;
3044     case CCValAssign::ZExt:
3045       Arg = DAG.getNode(ISD::ZERO_EXTEND, dl, RegVT, Arg);
3046       break;
3047     case CCValAssign::AExt:
3048       if (Arg.getValueType().isVector() &&
3049           Arg.getValueType().getScalarType() == MVT::i1)
3050         Arg = DAG.getNode(ISD::SIGN_EXTEND, dl, RegVT, Arg);
3051       else if (RegVT.is128BitVector()) {
3052         // Special case: passing MMX values in XMM registers.
3053         Arg = DAG.getBitcast(MVT::i64, Arg);
3054         Arg = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v2i64, Arg);
3055         Arg = getMOVL(DAG, dl, MVT::v2i64, DAG.getUNDEF(MVT::v2i64), Arg);
3056       } else
3057         Arg = DAG.getNode(ISD::ANY_EXTEND, dl, RegVT, Arg);
3058       break;
3059     case CCValAssign::BCvt:
3060       Arg = DAG.getBitcast(RegVT, Arg);
3061       break;
3062     case CCValAssign::Indirect: {
3063       // Store the argument.
3064       SDValue SpillSlot = DAG.CreateStackTemporary(VA.getValVT());
3065       int FI = cast<FrameIndexSDNode>(SpillSlot)->getIndex();
3066       Chain = DAG.getStore(
3067           Chain, dl, Arg, SpillSlot,
3068           MachinePointerInfo::getFixedStack(DAG.getMachineFunction(), FI),
3069           false, false, 0);
3070       Arg = SpillSlot;
3071       break;
3072     }
3073     }
3074
3075     if (VA.isRegLoc()) {
3076       RegsToPass.push_back(std::make_pair(VA.getLocReg(), Arg));
3077       if (isVarArg && IsWin64) {
3078         // Win64 ABI requires argument XMM reg to be copied to the corresponding
3079         // shadow reg if callee is a varargs function.
3080         unsigned ShadowReg = 0;
3081         switch (VA.getLocReg()) {
3082         case X86::XMM0: ShadowReg = X86::RCX; break;
3083         case X86::XMM1: ShadowReg = X86::RDX; break;
3084         case X86::XMM2: ShadowReg = X86::R8; break;
3085         case X86::XMM3: ShadowReg = X86::R9; break;
3086         }
3087         if (ShadowReg)
3088           RegsToPass.push_back(std::make_pair(ShadowReg, Arg));
3089       }
3090     } else if (!IsSibcall && (!isTailCall || isByVal)) {
3091       assert(VA.isMemLoc());
3092       if (!StackPtr.getNode())
3093         StackPtr = DAG.getCopyFromReg(Chain, dl, RegInfo->getStackRegister(),
3094                                       getPointerTy(DAG.getDataLayout()));
3095       MemOpChains.push_back(LowerMemOpCallTo(Chain, StackPtr, Arg,
3096                                              dl, DAG, VA, Flags));
3097     }
3098   }
3099
3100   if (!MemOpChains.empty())
3101     Chain = DAG.getNode(ISD::TokenFactor, dl, MVT::Other, MemOpChains);
3102
3103   if (Subtarget->isPICStyleGOT()) {
3104     // ELF / PIC requires GOT in the EBX register before function calls via PLT
3105     // GOT pointer.
3106     if (!isTailCall) {
3107       RegsToPass.push_back(std::make_pair(
3108           unsigned(X86::EBX), DAG.getNode(X86ISD::GlobalBaseReg, SDLoc(),
3109                                           getPointerTy(DAG.getDataLayout()))));
3110     } else {
3111       // If we are tail calling and generating PIC/GOT style code load the
3112       // address of the callee into ECX. The value in ecx is used as target of
3113       // the tail jump. This is done to circumvent the ebx/callee-saved problem
3114       // for tail calls on PIC/GOT architectures. Normally we would just put the
3115       // address of GOT into ebx and then call target@PLT. But for tail calls
3116       // ebx would be restored (since ebx is callee saved) before jumping to the
3117       // target@PLT.
3118
3119       // Note: The actual moving to ECX is done further down.
3120       GlobalAddressSDNode *G = dyn_cast<GlobalAddressSDNode>(Callee);
3121       if (G && !G->getGlobal()->hasLocalLinkage() &&
3122           G->getGlobal()->hasDefaultVisibility())
3123         Callee = LowerGlobalAddress(Callee, DAG);
3124       else if (isa<ExternalSymbolSDNode>(Callee))
3125         Callee = LowerExternalSymbol(Callee, DAG);
3126     }
3127   }
3128
3129   if (Is64Bit && isVarArg && !IsWin64 && !IsMustTail) {
3130     // From AMD64 ABI document:
3131     // For calls that may call functions that use varargs or stdargs
3132     // (prototype-less calls or calls to functions containing ellipsis (...) in
3133     // the declaration) %al is used as hidden argument to specify the number
3134     // of SSE registers used. The contents of %al do not need to match exactly
3135     // the number of registers, but must be an ubound on the number of SSE
3136     // registers used and is in the range 0 - 8 inclusive.
3137
3138     // Count the number of XMM registers allocated.
3139     static const MCPhysReg XMMArgRegs[] = {
3140       X86::XMM0, X86::XMM1, X86::XMM2, X86::XMM3,
3141       X86::XMM4, X86::XMM5, X86::XMM6, X86::XMM7
3142     };
3143     unsigned NumXMMRegs = CCInfo.getFirstUnallocated(XMMArgRegs);
3144     assert((Subtarget->hasSSE1() || !NumXMMRegs)
3145            && "SSE registers cannot be used when SSE is disabled");
3146
3147     RegsToPass.push_back(std::make_pair(unsigned(X86::AL),
3148                                         DAG.getConstant(NumXMMRegs, dl,
3149                                                         MVT::i8)));
3150   }
3151
3152   if (isVarArg && IsMustTail) {
3153     const auto &Forwards = X86Info->getForwardedMustTailRegParms();
3154     for (const auto &F : Forwards) {
3155       SDValue Val = DAG.getCopyFromReg(Chain, dl, F.VReg, F.VT);
3156       RegsToPass.push_back(std::make_pair(unsigned(F.PReg), Val));
3157     }
3158   }
3159
3160   // For tail calls lower the arguments to the 'real' stack slots.  Sibcalls
3161   // don't need this because the eligibility check rejects calls that require
3162   // shuffling arguments passed in memory.
3163   if (!IsSibcall && isTailCall) {
3164     // Force all the incoming stack arguments to be loaded from the stack
3165     // before any new outgoing arguments are stored to the stack, because the
3166     // outgoing stack slots may alias the incoming argument stack slots, and
3167     // the alias isn't otherwise explicit. This is slightly more conservative
3168     // than necessary, because it means that each store effectively depends
3169     // on every argument instead of just those arguments it would clobber.
3170     SDValue ArgChain = DAG.getStackArgumentTokenFactor(Chain);
3171
3172     SmallVector<SDValue, 8> MemOpChains2;
3173     SDValue FIN;
3174     int FI = 0;
3175     for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
3176       CCValAssign &VA = ArgLocs[i];
3177       if (VA.isRegLoc())
3178         continue;
3179       assert(VA.isMemLoc());
3180       SDValue Arg = OutVals[i];
3181       ISD::ArgFlagsTy Flags = Outs[i].Flags;
3182       // Skip inalloca arguments.  They don't require any work.
3183       if (Flags.isInAlloca())
3184         continue;
3185       // Create frame index.
3186       int32_t Offset = VA.getLocMemOffset()+FPDiff;
3187       uint32_t OpSize = (VA.getLocVT().getSizeInBits()+7)/8;
3188       FI = MF.getFrameInfo()->CreateFixedObject(OpSize, Offset, true);
3189       FIN = DAG.getFrameIndex(FI, getPointerTy(DAG.getDataLayout()));
3190
3191       if (Flags.isByVal()) {
3192         // Copy relative to framepointer.
3193         SDValue Source = DAG.getIntPtrConstant(VA.getLocMemOffset(), dl);
3194         if (!StackPtr.getNode())
3195           StackPtr = DAG.getCopyFromReg(Chain, dl, RegInfo->getStackRegister(),
3196                                         getPointerTy(DAG.getDataLayout()));
3197         Source = DAG.getNode(ISD::ADD, dl, getPointerTy(DAG.getDataLayout()),
3198                              StackPtr, Source);
3199
3200         MemOpChains2.push_back(CreateCopyOfByValArgument(Source, FIN,
3201                                                          ArgChain,
3202                                                          Flags, DAG, dl));
3203       } else {
3204         // Store relative to framepointer.
3205         MemOpChains2.push_back(DAG.getStore(
3206             ArgChain, dl, Arg, FIN,
3207             MachinePointerInfo::getFixedStack(DAG.getMachineFunction(), FI),
3208             false, false, 0));
3209       }
3210     }
3211
3212     if (!MemOpChains2.empty())
3213       Chain = DAG.getNode(ISD::TokenFactor, dl, MVT::Other, MemOpChains2);
3214
3215     // Store the return address to the appropriate stack slot.
3216     Chain = EmitTailCallStoreRetAddr(DAG, MF, Chain, RetAddrFrIdx,
3217                                      getPointerTy(DAG.getDataLayout()),
3218                                      RegInfo->getSlotSize(), FPDiff, dl);
3219   }
3220
3221   // Build a sequence of copy-to-reg nodes chained together with token chain
3222   // and flag operands which copy the outgoing args into registers.
3223   SDValue InFlag;
3224   for (unsigned i = 0, e = RegsToPass.size(); i != e; ++i) {
3225     Chain = DAG.getCopyToReg(Chain, dl, RegsToPass[i].first,
3226                              RegsToPass[i].second, InFlag);
3227     InFlag = Chain.getValue(1);
3228   }
3229
3230   if (DAG.getTarget().getCodeModel() == CodeModel::Large) {
3231     assert(Is64Bit && "Large code model is only legal in 64-bit mode.");
3232     // In the 64-bit large code model, we have to make all calls
3233     // through a register, since the call instruction's 32-bit
3234     // pc-relative offset may not be large enough to hold the whole
3235     // address.
3236   } else if (Callee->getOpcode() == ISD::GlobalAddress) {
3237     // If the callee is a GlobalAddress node (quite common, every direct call
3238     // is) turn it into a TargetGlobalAddress node so that legalize doesn't hack
3239     // it.
3240     GlobalAddressSDNode* G = cast<GlobalAddressSDNode>(Callee);
3241
3242     // We should use extra load for direct calls to dllimported functions in
3243     // non-JIT mode.
3244     const GlobalValue *GV = G->getGlobal();
3245     if (!GV->hasDLLImportStorageClass()) {
3246       unsigned char OpFlags = 0;
3247       bool ExtraLoad = false;
3248       unsigned WrapperKind = ISD::DELETED_NODE;
3249
3250       // On ELF targets, in both X86-64 and X86-32 mode, direct calls to
3251       // external symbols most go through the PLT in PIC mode.  If the symbol
3252       // has hidden or protected visibility, or if it is static or local, then
3253       // we don't need to use the PLT - we can directly call it.
3254       if (Subtarget->isTargetELF() &&
3255           DAG.getTarget().getRelocationModel() == Reloc::PIC_ &&
3256           GV->hasDefaultVisibility() && !GV->hasLocalLinkage()) {
3257         OpFlags = X86II::MO_PLT;
3258       } else if (Subtarget->isPICStyleStubAny() &&
3259                  !GV->isStrongDefinitionForLinker() &&
3260                  (!Subtarget->getTargetTriple().isMacOSX() ||
3261                   Subtarget->getTargetTriple().isMacOSXVersionLT(10, 5))) {
3262         // PC-relative references to external symbols should go through $stub,
3263         // unless we're building with the leopard linker or later, which
3264         // automatically synthesizes these stubs.
3265         OpFlags = X86II::MO_DARWIN_STUB;
3266       } else if (Subtarget->isPICStyleRIPRel() && isa<Function>(GV) &&
3267                  cast<Function>(GV)->hasFnAttribute(Attribute::NonLazyBind)) {
3268         // If the function is marked as non-lazy, generate an indirect call
3269         // which loads from the GOT directly. This avoids runtime overhead
3270         // at the cost of eager binding (and one extra byte of encoding).
3271         OpFlags = X86II::MO_GOTPCREL;
3272         WrapperKind = X86ISD::WrapperRIP;
3273         ExtraLoad = true;
3274       }
3275
3276       Callee = DAG.getTargetGlobalAddress(
3277           GV, dl, getPointerTy(DAG.getDataLayout()), G->getOffset(), OpFlags);
3278
3279       // Add a wrapper if needed.
3280       if (WrapperKind != ISD::DELETED_NODE)
3281         Callee = DAG.getNode(X86ISD::WrapperRIP, dl,
3282                              getPointerTy(DAG.getDataLayout()), Callee);
3283       // Add extra indirection if needed.
3284       if (ExtraLoad)
3285         Callee = DAG.getLoad(
3286             getPointerTy(DAG.getDataLayout()), dl, DAG.getEntryNode(), Callee,
3287             MachinePointerInfo::getGOT(DAG.getMachineFunction()), false, false,
3288             false, 0);
3289     }
3290   } else if (ExternalSymbolSDNode *S = dyn_cast<ExternalSymbolSDNode>(Callee)) {
3291     unsigned char OpFlags = 0;
3292
3293     // On ELF targets, in either X86-64 or X86-32 mode, direct calls to
3294     // external symbols should go through the PLT.
3295     if (Subtarget->isTargetELF() &&
3296         DAG.getTarget().getRelocationModel() == Reloc::PIC_) {
3297       OpFlags = X86II::MO_PLT;
3298     } else if (Subtarget->isPICStyleStubAny() &&
3299                (!Subtarget->getTargetTriple().isMacOSX() ||
3300                 Subtarget->getTargetTriple().isMacOSXVersionLT(10, 5))) {
3301       // PC-relative references to external symbols should go through $stub,
3302       // unless we're building with the leopard linker or later, which
3303       // automatically synthesizes these stubs.
3304       OpFlags = X86II::MO_DARWIN_STUB;
3305     }
3306
3307     Callee = DAG.getTargetExternalSymbol(
3308         S->getSymbol(), getPointerTy(DAG.getDataLayout()), OpFlags);
3309   } else if (Subtarget->isTarget64BitILP32() &&
3310              Callee->getValueType(0) == MVT::i32) {
3311     // Zero-extend the 32-bit Callee address into a 64-bit according to x32 ABI
3312     Callee = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i64, Callee);
3313   }
3314
3315   // Returns a chain & a flag for retval copy to use.
3316   SDVTList NodeTys = DAG.getVTList(MVT::Other, MVT::Glue);
3317   SmallVector<SDValue, 8> Ops;
3318
3319   if (!IsSibcall && isTailCall) {
3320     Chain = DAG.getCALLSEQ_END(Chain,
3321                                DAG.getIntPtrConstant(NumBytesToPop, dl, true),
3322                                DAG.getIntPtrConstant(0, dl, true), InFlag, dl);
3323     InFlag = Chain.getValue(1);
3324   }
3325
3326   Ops.push_back(Chain);
3327   Ops.push_back(Callee);
3328
3329   if (isTailCall)
3330     Ops.push_back(DAG.getConstant(FPDiff, dl, MVT::i32));
3331
3332   // Add argument registers to the end of the list so that they are known live
3333   // into the call.
3334   for (unsigned i = 0, e = RegsToPass.size(); i != e; ++i)
3335     Ops.push_back(DAG.getRegister(RegsToPass[i].first,
3336                                   RegsToPass[i].second.getValueType()));
3337
3338   // Add a register mask operand representing the call-preserved registers.
3339   const uint32_t *Mask = RegInfo->getCallPreservedMask(MF, CallConv);
3340   assert(Mask && "Missing call preserved mask for calling convention");
3341
3342   // If this is an invoke in a 32-bit function using an MSVC personality, assume
3343   // the function clobbers all registers. If an exception is thrown, the runtime
3344   // will not restore CSRs.
3345   // FIXME: Model this more precisely so that we can register allocate across
3346   // the normal edge and spill and fill across the exceptional edge.
3347   if (!Is64Bit && CLI.CS && CLI.CS->isInvoke()) {
3348     const Function *CallerFn = MF.getFunction();
3349     EHPersonality Pers =
3350         CallerFn->hasPersonalityFn()
3351             ? classifyEHPersonality(CallerFn->getPersonalityFn())
3352             : EHPersonality::Unknown;
3353     if (isMSVCEHPersonality(Pers))
3354       Mask = RegInfo->getNoPreservedMask();
3355   }
3356
3357   Ops.push_back(DAG.getRegisterMask(Mask));
3358
3359   if (InFlag.getNode())
3360     Ops.push_back(InFlag);
3361
3362   if (isTailCall) {
3363     // We used to do:
3364     //// If this is the first return lowered for this function, add the regs
3365     //// to the liveout set for the function.
3366     // This isn't right, although it's probably harmless on x86; liveouts
3367     // should be computed from returns not tail calls.  Consider a void
3368     // function making a tail call to a function returning int.
3369     MF.getFrameInfo()->setHasTailCall();
3370     return DAG.getNode(X86ISD::TC_RETURN, dl, NodeTys, Ops);
3371   }
3372
3373   Chain = DAG.getNode(X86ISD::CALL, dl, NodeTys, Ops);
3374   InFlag = Chain.getValue(1);
3375
3376   // Create the CALLSEQ_END node.
3377   unsigned NumBytesForCalleeToPop;
3378   if (X86::isCalleePop(CallConv, Is64Bit, isVarArg,
3379                        DAG.getTarget().Options.GuaranteedTailCallOpt))
3380     NumBytesForCalleeToPop = NumBytes;    // Callee pops everything
3381   else if (!Is64Bit && !IsTailCallConvention(CallConv) &&
3382            !Subtarget->getTargetTriple().isOSMSVCRT() &&
3383            SR == StackStructReturn)
3384     // If this is a call to a struct-return function, the callee
3385     // pops the hidden struct pointer, so we have to push it back.
3386     // This is common for Darwin/X86, Linux & Mingw32 targets.
3387     // For MSVC Win32 targets, the caller pops the hidden struct pointer.
3388     NumBytesForCalleeToPop = 4;
3389   else
3390     NumBytesForCalleeToPop = 0;  // Callee pops nothing.
3391
3392   // Returns a flag for retval copy to use.
3393   if (!IsSibcall) {
3394     Chain = DAG.getCALLSEQ_END(Chain,
3395                                DAG.getIntPtrConstant(NumBytesToPop, dl, true),
3396                                DAG.getIntPtrConstant(NumBytesForCalleeToPop, dl,
3397                                                      true),
3398                                InFlag, dl);
3399     InFlag = Chain.getValue(1);
3400   }
3401
3402   // Handle result values, copying them out of physregs into vregs that we
3403   // return.
3404   return LowerCallResult(Chain, InFlag, CallConv, isVarArg,
3405                          Ins, dl, DAG, InVals);
3406 }
3407
3408 //===----------------------------------------------------------------------===//
3409 //                Fast Calling Convention (tail call) implementation
3410 //===----------------------------------------------------------------------===//
3411
3412 //  Like std call, callee cleans arguments, convention except that ECX is
3413 //  reserved for storing the tail called function address. Only 2 registers are
3414 //  free for argument passing (inreg). Tail call optimization is performed
3415 //  provided:
3416 //                * tailcallopt is enabled
3417 //                * caller/callee are fastcc
3418 //  On X86_64 architecture with GOT-style position independent code only local
3419 //  (within module) calls are supported at the moment.
3420 //  To keep the stack aligned according to platform abi the function
3421 //  GetAlignedArgumentStackSize ensures that argument delta is always multiples
3422 //  of stack alignment. (Dynamic linkers need this - darwin's dyld for example)
3423 //  If a tail called function callee has more arguments than the caller the
3424 //  caller needs to make sure that there is room to move the RETADDR to. This is
3425 //  achieved by reserving an area the size of the argument delta right after the
3426 //  original RETADDR, but before the saved framepointer or the spilled registers
3427 //  e.g. caller(arg1, arg2) calls callee(arg1, arg2,arg3,arg4)
3428 //  stack layout:
3429 //    arg1
3430 //    arg2
3431 //    RETADDR
3432 //    [ new RETADDR
3433 //      move area ]
3434 //    (possible EBP)
3435 //    ESI
3436 //    EDI
3437 //    local1 ..
3438
3439 /// Make the stack size align e.g 16n + 12 aligned for a 16-byte align
3440 /// requirement.
3441 unsigned
3442 X86TargetLowering::GetAlignedArgumentStackSize(unsigned StackSize,
3443                                                SelectionDAG& DAG) const {
3444   const X86RegisterInfo *RegInfo = Subtarget->getRegisterInfo();
3445   const TargetFrameLowering &TFI = *Subtarget->getFrameLowering();
3446   unsigned StackAlignment = TFI.getStackAlignment();
3447   uint64_t AlignMask = StackAlignment - 1;
3448   int64_t Offset = StackSize;
3449   unsigned SlotSize = RegInfo->getSlotSize();
3450   if ( (Offset & AlignMask) <= (StackAlignment - SlotSize) ) {
3451     // Number smaller than 12 so just add the difference.
3452     Offset += ((StackAlignment - SlotSize) - (Offset & AlignMask));
3453   } else {
3454     // Mask out lower bits, add stackalignment once plus the 12 bytes.
3455     Offset = ((~AlignMask) & Offset) + StackAlignment +
3456       (StackAlignment-SlotSize);
3457   }
3458   return Offset;
3459 }
3460
3461 /// Return true if the given stack call argument is already available in the
3462 /// same position (relatively) of the caller's incoming argument stack.
3463 static
3464 bool MatchingStackOffset(SDValue Arg, unsigned Offset, ISD::ArgFlagsTy Flags,
3465                          MachineFrameInfo *MFI, const MachineRegisterInfo *MRI,
3466                          const X86InstrInfo *TII) {
3467   unsigned Bytes = Arg.getValueType().getSizeInBits() / 8;
3468   int FI = INT_MAX;
3469   if (Arg.getOpcode() == ISD::CopyFromReg) {
3470     unsigned VR = cast<RegisterSDNode>(Arg.getOperand(1))->getReg();
3471     if (!TargetRegisterInfo::isVirtualRegister(VR))
3472       return false;
3473     MachineInstr *Def = MRI->getVRegDef(VR);
3474     if (!Def)
3475       return false;
3476     if (!Flags.isByVal()) {
3477       if (!TII->isLoadFromStackSlot(Def, FI))
3478         return false;
3479     } else {
3480       unsigned Opcode = Def->getOpcode();
3481       if ((Opcode == X86::LEA32r || Opcode == X86::LEA64r ||
3482            Opcode == X86::LEA64_32r) &&
3483           Def->getOperand(1).isFI()) {
3484         FI = Def->getOperand(1).getIndex();
3485         Bytes = Flags.getByValSize();
3486       } else
3487         return false;
3488     }
3489   } else if (LoadSDNode *Ld = dyn_cast<LoadSDNode>(Arg)) {
3490     if (Flags.isByVal())
3491       // ByVal argument is passed in as a pointer but it's now being
3492       // dereferenced. e.g.
3493       // define @foo(%struct.X* %A) {
3494       //   tail call @bar(%struct.X* byval %A)
3495       // }
3496       return false;
3497     SDValue Ptr = Ld->getBasePtr();
3498     FrameIndexSDNode *FINode = dyn_cast<FrameIndexSDNode>(Ptr);
3499     if (!FINode)
3500       return false;
3501     FI = FINode->getIndex();
3502   } else if (Arg.getOpcode() == ISD::FrameIndex && Flags.isByVal()) {
3503     FrameIndexSDNode *FINode = cast<FrameIndexSDNode>(Arg);
3504     FI = FINode->getIndex();
3505     Bytes = Flags.getByValSize();
3506   } else
3507     return false;
3508
3509   assert(FI != INT_MAX);
3510   if (!MFI->isFixedObjectIndex(FI))
3511     return false;
3512   return Offset == MFI->getObjectOffset(FI) && Bytes == MFI->getObjectSize(FI);
3513 }
3514
3515 /// Check whether the call is eligible for tail call optimization. Targets
3516 /// that want to do tail call optimization should implement this function.
3517 bool
3518 X86TargetLowering::IsEligibleForTailCallOptimization(SDValue Callee,
3519                                                      CallingConv::ID CalleeCC,
3520                                                      bool isVarArg,
3521                                                      bool isCalleeStructRet,
3522                                                      bool isCallerStructRet,
3523                                                      Type *RetTy,
3524                                     const SmallVectorImpl<ISD::OutputArg> &Outs,
3525                                     const SmallVectorImpl<SDValue> &OutVals,
3526                                     const SmallVectorImpl<ISD::InputArg> &Ins,
3527                                                      SelectionDAG &DAG) const {
3528   if (!IsTailCallConvention(CalleeCC) && !IsCCallConvention(CalleeCC))
3529     return false;
3530
3531   // If -tailcallopt is specified, make fastcc functions tail-callable.
3532   const MachineFunction &MF = DAG.getMachineFunction();
3533   const Function *CallerF = MF.getFunction();
3534
3535   // If the function return type is x86_fp80 and the callee return type is not,
3536   // then the FP_EXTEND of the call result is not a nop. It's not safe to
3537   // perform a tailcall optimization here.
3538   if (CallerF->getReturnType()->isX86_FP80Ty() && !RetTy->isX86_FP80Ty())
3539     return false;
3540
3541   CallingConv::ID CallerCC = CallerF->getCallingConv();
3542   bool CCMatch = CallerCC == CalleeCC;
3543   bool IsCalleeWin64 = Subtarget->isCallingConvWin64(CalleeCC);
3544   bool IsCallerWin64 = Subtarget->isCallingConvWin64(CallerCC);
3545
3546   // Win64 functions have extra shadow space for argument homing. Don't do the
3547   // sibcall if the caller and callee have mismatched expectations for this
3548   // space.
3549   if (IsCalleeWin64 != IsCallerWin64)
3550     return false;
3551
3552   if (DAG.getTarget().Options.GuaranteedTailCallOpt) {
3553     if (IsTailCallConvention(CalleeCC) && CCMatch)
3554       return true;
3555     return false;
3556   }
3557
3558   // Look for obvious safe cases to perform tail call optimization that do not
3559   // require ABI changes. This is what gcc calls sibcall.
3560
3561   // Can't do sibcall if stack needs to be dynamically re-aligned. PEI needs to
3562   // emit a special epilogue.
3563   const X86RegisterInfo *RegInfo = Subtarget->getRegisterInfo();
3564   if (RegInfo->needsStackRealignment(MF))
3565     return false;
3566
3567   // Also avoid sibcall optimization if either caller or callee uses struct
3568   // return semantics.
3569   if (isCalleeStructRet || isCallerStructRet)
3570     return false;
3571
3572   // An stdcall/thiscall caller is expected to clean up its arguments; the
3573   // callee isn't going to do that.
3574   // FIXME: this is more restrictive than needed. We could produce a tailcall
3575   // when the stack adjustment matches. For example, with a thiscall that takes
3576   // only one argument.
3577   if (!CCMatch && (CallerCC == CallingConv::X86_StdCall ||
3578                    CallerCC == CallingConv::X86_ThisCall))
3579     return false;
3580
3581   // Do not sibcall optimize vararg calls unless all arguments are passed via
3582   // registers.
3583   if (isVarArg && !Outs.empty()) {
3584
3585     // Optimizing for varargs on Win64 is unlikely to be safe without
3586     // additional testing.
3587     if (IsCalleeWin64 || IsCallerWin64)
3588       return false;
3589
3590     SmallVector<CCValAssign, 16> ArgLocs;
3591     CCState CCInfo(CalleeCC, isVarArg, DAG.getMachineFunction(), ArgLocs,
3592                    *DAG.getContext());
3593
3594     CCInfo.AnalyzeCallOperands(Outs, CC_X86);
3595     for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i)
3596       if (!ArgLocs[i].isRegLoc())
3597         return false;
3598   }
3599
3600   // If the call result is in ST0 / ST1, it needs to be popped off the x87
3601   // stack.  Therefore, if it's not used by the call it is not safe to optimize
3602   // this into a sibcall.
3603   bool Unused = false;
3604   for (unsigned i = 0, e = Ins.size(); i != e; ++i) {
3605     if (!Ins[i].Used) {
3606       Unused = true;
3607       break;
3608     }
3609   }
3610   if (Unused) {
3611     SmallVector<CCValAssign, 16> RVLocs;
3612     CCState CCInfo(CalleeCC, false, DAG.getMachineFunction(), RVLocs,
3613                    *DAG.getContext());
3614     CCInfo.AnalyzeCallResult(Ins, RetCC_X86);
3615     for (unsigned i = 0, e = RVLocs.size(); i != e; ++i) {
3616       CCValAssign &VA = RVLocs[i];
3617       if (VA.getLocReg() == X86::FP0 || VA.getLocReg() == X86::FP1)
3618         return false;
3619     }
3620   }
3621
3622   // If the calling conventions do not match, then we'd better make sure the
3623   // results are returned in the same way as what the caller expects.
3624   if (!CCMatch) {
3625     SmallVector<CCValAssign, 16> RVLocs1;
3626     CCState CCInfo1(CalleeCC, false, DAG.getMachineFunction(), RVLocs1,
3627                     *DAG.getContext());
3628     CCInfo1.AnalyzeCallResult(Ins, RetCC_X86);
3629
3630     SmallVector<CCValAssign, 16> RVLocs2;
3631     CCState CCInfo2(CallerCC, false, DAG.getMachineFunction(), RVLocs2,
3632                     *DAG.getContext());
3633     CCInfo2.AnalyzeCallResult(Ins, RetCC_X86);
3634
3635     if (RVLocs1.size() != RVLocs2.size())
3636       return false;
3637     for (unsigned i = 0, e = RVLocs1.size(); i != e; ++i) {
3638       if (RVLocs1[i].isRegLoc() != RVLocs2[i].isRegLoc())
3639         return false;
3640       if (RVLocs1[i].getLocInfo() != RVLocs2[i].getLocInfo())
3641         return false;
3642       if (RVLocs1[i].isRegLoc()) {
3643         if (RVLocs1[i].getLocReg() != RVLocs2[i].getLocReg())
3644           return false;
3645       } else {
3646         if (RVLocs1[i].getLocMemOffset() != RVLocs2[i].getLocMemOffset())
3647           return false;
3648       }
3649     }
3650   }
3651
3652   // If the callee takes no arguments then go on to check the results of the
3653   // call.
3654   if (!Outs.empty()) {
3655     // Check if stack adjustment is needed. For now, do not do this if any
3656     // argument is passed on the stack.
3657     SmallVector<CCValAssign, 16> ArgLocs;
3658     CCState CCInfo(CalleeCC, isVarArg, DAG.getMachineFunction(), ArgLocs,
3659                    *DAG.getContext());
3660
3661     // Allocate shadow area for Win64
3662     if (IsCalleeWin64)
3663       CCInfo.AllocateStack(32, 8);
3664
3665     CCInfo.AnalyzeCallOperands(Outs, CC_X86);
3666     if (CCInfo.getNextStackOffset()) {
3667       MachineFunction &MF = DAG.getMachineFunction();
3668       if (MF.getInfo<X86MachineFunctionInfo>()->getBytesToPopOnReturn())
3669         return false;
3670
3671       // Check if the arguments are already laid out in the right way as
3672       // the caller's fixed stack objects.
3673       MachineFrameInfo *MFI = MF.getFrameInfo();
3674       const MachineRegisterInfo *MRI = &MF.getRegInfo();
3675       const X86InstrInfo *TII = Subtarget->getInstrInfo();
3676       for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
3677         CCValAssign &VA = ArgLocs[i];
3678         SDValue Arg = OutVals[i];
3679         ISD::ArgFlagsTy Flags = Outs[i].Flags;
3680         if (VA.getLocInfo() == CCValAssign::Indirect)
3681           return false;
3682         if (!VA.isRegLoc()) {
3683           if (!MatchingStackOffset(Arg, VA.getLocMemOffset(), Flags,
3684                                    MFI, MRI, TII))
3685             return false;
3686         }
3687       }
3688     }
3689
3690     // If the tailcall address may be in a register, then make sure it's
3691     // possible to register allocate for it. In 32-bit, the call address can
3692     // only target EAX, EDX, or ECX since the tail call must be scheduled after
3693     // callee-saved registers are restored. These happen to be the same
3694     // registers used to pass 'inreg' arguments so watch out for those.
3695     if (!Subtarget->is64Bit() &&
3696         ((!isa<GlobalAddressSDNode>(Callee) &&
3697           !isa<ExternalSymbolSDNode>(Callee)) ||
3698          DAG.getTarget().getRelocationModel() == Reloc::PIC_)) {
3699       unsigned NumInRegs = 0;
3700       // In PIC we need an extra register to formulate the address computation
3701       // for the callee.
3702       unsigned MaxInRegs =
3703         (DAG.getTarget().getRelocationModel() == Reloc::PIC_) ? 2 : 3;
3704
3705       for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
3706         CCValAssign &VA = ArgLocs[i];
3707         if (!VA.isRegLoc())
3708           continue;
3709         unsigned Reg = VA.getLocReg();
3710         switch (Reg) {
3711         default: break;
3712         case X86::EAX: case X86::EDX: case X86::ECX:
3713           if (++NumInRegs == MaxInRegs)
3714             return false;
3715           break;
3716         }
3717       }
3718     }
3719   }
3720
3721   return true;
3722 }
3723
3724 FastISel *
3725 X86TargetLowering::createFastISel(FunctionLoweringInfo &funcInfo,
3726                                   const TargetLibraryInfo *libInfo) const {
3727   return X86::createFastISel(funcInfo, libInfo);
3728 }
3729
3730 //===----------------------------------------------------------------------===//
3731 //                           Other Lowering Hooks
3732 //===----------------------------------------------------------------------===//
3733
3734 static bool MayFoldLoad(SDValue Op) {
3735   return Op.hasOneUse() && ISD::isNormalLoad(Op.getNode());
3736 }
3737
3738 static bool MayFoldIntoStore(SDValue Op) {
3739   return Op.hasOneUse() && ISD::isNormalStore(*Op.getNode()->use_begin());
3740 }
3741
3742 static bool isTargetShuffle(unsigned Opcode) {
3743   switch(Opcode) {
3744   default: return false;
3745   case X86ISD::BLENDI:
3746   case X86ISD::PSHUFB:
3747   case X86ISD::PSHUFD:
3748   case X86ISD::PSHUFHW:
3749   case X86ISD::PSHUFLW:
3750   case X86ISD::SHUFP:
3751   case X86ISD::PALIGNR:
3752   case X86ISD::MOVLHPS:
3753   case X86ISD::MOVLHPD:
3754   case X86ISD::MOVHLPS:
3755   case X86ISD::MOVLPS:
3756   case X86ISD::MOVLPD:
3757   case X86ISD::MOVSHDUP:
3758   case X86ISD::MOVSLDUP:
3759   case X86ISD::MOVDDUP:
3760   case X86ISD::MOVSS:
3761   case X86ISD::MOVSD:
3762   case X86ISD::UNPCKL:
3763   case X86ISD::UNPCKH:
3764   case X86ISD::VPERMILPI:
3765   case X86ISD::VPERM2X128:
3766   case X86ISD::VPERMI:
3767     return true;
3768   }
3769 }
3770
3771 static SDValue getTargetShuffleNode(unsigned Opc, SDLoc dl, EVT VT,
3772                                     SDValue V1, unsigned TargetMask,
3773                                     SelectionDAG &DAG) {
3774   switch(Opc) {
3775   default: llvm_unreachable("Unknown x86 shuffle node");
3776   case X86ISD::PSHUFD:
3777   case X86ISD::PSHUFHW:
3778   case X86ISD::PSHUFLW:
3779   case X86ISD::VPERMILPI:
3780   case X86ISD::VPERMI:
3781     return DAG.getNode(Opc, dl, VT, V1,
3782                        DAG.getConstant(TargetMask, dl, MVT::i8));
3783   }
3784 }
3785
3786 static SDValue getTargetShuffleNode(unsigned Opc, SDLoc dl, EVT VT,
3787                                     SDValue V1, SDValue V2, SelectionDAG &DAG) {
3788   switch(Opc) {
3789   default: llvm_unreachable("Unknown x86 shuffle node");
3790   case X86ISD::MOVLHPS:
3791   case X86ISD::MOVLHPD:
3792   case X86ISD::MOVHLPS:
3793   case X86ISD::MOVLPS:
3794   case X86ISD::MOVLPD:
3795   case X86ISD::MOVSS:
3796   case X86ISD::MOVSD:
3797   case X86ISD::UNPCKL:
3798   case X86ISD::UNPCKH:
3799     return DAG.getNode(Opc, dl, VT, V1, V2);
3800   }
3801 }
3802
3803 SDValue X86TargetLowering::getReturnAddressFrameIndex(SelectionDAG &DAG) const {
3804   MachineFunction &MF = DAG.getMachineFunction();
3805   const X86RegisterInfo *RegInfo = Subtarget->getRegisterInfo();
3806   X86MachineFunctionInfo *FuncInfo = MF.getInfo<X86MachineFunctionInfo>();
3807   int ReturnAddrIndex = FuncInfo->getRAIndex();
3808
3809   if (ReturnAddrIndex == 0) {
3810     // Set up a frame object for the return address.
3811     unsigned SlotSize = RegInfo->getSlotSize();
3812     ReturnAddrIndex = MF.getFrameInfo()->CreateFixedObject(SlotSize,
3813                                    &n