lib/Target/ARM/ARMInstrNEON.td

   1 //===- ARMInstrNEON.td - NEON support for ARM -----------------------------===//
   2 //
   3 //                     The LLVM Compiler Infrastructure
   4 //
   5 // This file is distributed under the University of Illinois Open Source
   6 // License. See LICENSE.TXT for details.
   7 //
   8 //===----------------------------------------------------------------------===//
   9 //
  10 // This file describes the ARM NEON instruction set.
  11 //
  12 //===----------------------------------------------------------------------===//
  13
  14
  15 //===----------------------------------------------------------------------===//
  16 // NEON-specific Operands.
  17 //===----------------------------------------------------------------------===//
  18 def nModImm : Operand<i32> {
  19   let PrintMethod = "printNEONModImmOperand";
  20 }
  21
  22 def nImmSplatI8AsmOperand : AsmOperandClass { let Name = "NEONi8splat"; }
  23 def nImmSplatI8 : Operand<i32> {
  24   let PrintMethod = "printNEONModImmOperand";
  25   let ParserMatchClass = nImmSplatI8AsmOperand;
  26 }
  27 def nImmSplatI16AsmOperand : AsmOperandClass { let Name = "NEONi16splat"; }
  28 def nImmSplatI16 : Operand<i32> {
  29   let PrintMethod = "printNEONModImmOperand";
  30   let ParserMatchClass = nImmSplatI16AsmOperand;
  31 }
  32 def nImmSplatI32AsmOperand : AsmOperandClass { let Name = "NEONi32splat"; }
  33 def nImmSplatI32 : Operand<i32> {
  34   let PrintMethod = "printNEONModImmOperand";
  35   let ParserMatchClass = nImmSplatI32AsmOperand;
  36 }
  37 def nImmVMOVI32AsmOperand : AsmOperandClass { let Name = "NEONi32vmov"; }
  38 def nImmVMOVI32 : Operand<i32> {
  39   let PrintMethod = "printNEONModImmOperand";
  40   let ParserMatchClass = nImmVMOVI32AsmOperand;
  41 }
  42 def nImmSplatI64AsmOperand : AsmOperandClass { let Name = "NEONi64splat"; }
  43 def nImmSplatI64 : Operand<i32> {
  44   let PrintMethod = "printNEONModImmOperand";
  45   let ParserMatchClass = nImmSplatI64AsmOperand;
  46 }
  47
  48 def VectorIndex8Operand  : AsmOperandClass { let Name = "VectorIndex8"; }
  49 def VectorIndex16Operand : AsmOperandClass { let Name = "VectorIndex16"; }
  50 def VectorIndex32Operand : AsmOperandClass { let Name = "VectorIndex32"; }
  51 def VectorIndex8 : Operand<i32>, ImmLeaf<i32, [{
  52   return ((uint64_t)Imm) < 8;
  53 }]> {
  54   let ParserMatchClass = VectorIndex8Operand;
  55   let PrintMethod = "printVectorIndex";
  56   let MIOperandInfo = (ops i32imm);
  57 }
  58 def VectorIndex16 : Operand<i32>, ImmLeaf<i32, [{
  59   return ((uint64_t)Imm) < 4;
  60 }]> {
  61   let ParserMatchClass = VectorIndex16Operand;
  62   let PrintMethod = "printVectorIndex";
  63   let MIOperandInfo = (ops i32imm);
  64 }
  65 def VectorIndex32 : Operand<i32>, ImmLeaf<i32, [{
  66   return ((uint64_t)Imm) < 2;
  67 }]> {
  68   let ParserMatchClass = VectorIndex32Operand;
  69   let PrintMethod = "printVectorIndex";
  70   let MIOperandInfo = (ops i32imm);
  71 }
  72
  73 def VecListOneDAsmOperand : AsmOperandClass {
  74   let Name = "VecListOneD";
  75   let ParserMethod = "parseVectorList";
  76 }
  77 def VecListOneD : RegisterOperand<DPR, "printVectorListOne"> {
  78   let ParserMatchClass = VecListOneDAsmOperand;
  79 }
  80 // Register list of two sequential D registers.
  81 def VecListTwoDAsmOperand : AsmOperandClass {
  82   let Name = "VecListTwoD";
  83   let ParserMethod = "parseVectorList";
  84 }
  85 def VecListTwoD : RegisterOperand<DPR, "printVectorListTwo"> {
  86   let ParserMatchClass = VecListTwoDAsmOperand;
  87 }
  88 // Register list of three sequential D registers.
  89 def VecListThreeDAsmOperand : AsmOperandClass {
  90   let Name = "VecListThreeD";
  91   let ParserMethod = "parseVectorList";
  92 }
  93 def VecListThreeD : RegisterOperand<DPR, "printVectorListThree"> {
  94   let ParserMatchClass = VecListThreeDAsmOperand;
  95 }
  96 // Register list of four sequential D registers.
  97 def VecListFourDAsmOperand : AsmOperandClass {
  98   let Name = "VecListFourD";
  99   let ParserMethod = "parseVectorList";
 100 }
 101 def VecListFourD : RegisterOperand<DPR, "printVectorListFour"> {
 102   let ParserMatchClass = VecListFourDAsmOperand;
 103 }
 104 // Register list of two D registers spaced by 2 (two sequential Q registers).
 105 def VecListTwoQAsmOperand : AsmOperandClass {
 106   let Name = "VecListTwoQ";
 107   let ParserMethod = "parseVectorList";
 108 }
 109 def VecListTwoQ : RegisterOperand<DPR, "printVectorListTwo"> {
 110   let ParserMatchClass = VecListTwoQAsmOperand;
 111 }
 112
 113 //===----------------------------------------------------------------------===//
 114 // NEON-specific DAG Nodes.
 115 //===----------------------------------------------------------------------===//
 116
 117 def SDTARMVCMP    : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<1, 2>]>;
 118 def SDTARMVCMPZ   : SDTypeProfile<1, 1, []>;
 119
 120 def NEONvceq      : SDNode<"ARMISD::VCEQ", SDTARMVCMP>;
 121 def NEONvceqz     : SDNode<"ARMISD::VCEQZ", SDTARMVCMPZ>;
 122 def NEONvcge      : SDNode<"ARMISD::VCGE", SDTARMVCMP>;
 123 def NEONvcgez     : SDNode<"ARMISD::VCGEZ", SDTARMVCMPZ>;
 124 def NEONvclez     : SDNode<"ARMISD::VCLEZ", SDTARMVCMPZ>;
 125 def NEONvcgeu     : SDNode<"ARMISD::VCGEU", SDTARMVCMP>;
 126 def NEONvcgt      : SDNode<"ARMISD::VCGT", SDTARMVCMP>;
 127 def NEONvcgtz     : SDNode<"ARMISD::VCGTZ", SDTARMVCMPZ>;
 128 def NEONvcltz     : SDNode<"ARMISD::VCLTZ", SDTARMVCMPZ>;
 129 def NEONvcgtu     : SDNode<"ARMISD::VCGTU", SDTARMVCMP>;
 130 def NEONvtst      : SDNode<"ARMISD::VTST", SDTARMVCMP>;
 131
 132 // Types for vector shift by immediates.  The "SHX" version is for long and
 133 // narrow operations where the source and destination vectors have different
 134 // types.  The "SHINS" version is for shift and insert operations.
 135 def SDTARMVSH     : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<0, 1>,
 136                                          SDTCisVT<2, i32>]>;
 137 def SDTARMVSHX    : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,
 138                                          SDTCisVT<2, i32>]>;
 139 def SDTARMVSHINS  : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0, 1>,
 140                                          SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;
 141
 142 def NEONvshl      : SDNode<"ARMISD::VSHL", SDTARMVSH>;
 143 def NEONvshrs     : SDNode<"ARMISD::VSHRs", SDTARMVSH>;
 144 def NEONvshru     : SDNode<"ARMISD::VSHRu", SDTARMVSH>;
 145 def NEONvshlls    : SDNode<"ARMISD::VSHLLs", SDTARMVSHX>;
 146 def NEONvshllu    : SDNode<"ARMISD::VSHLLu", SDTARMVSHX>;
 147 def NEONvshlli    : SDNode<"ARMISD::VSHLLi", SDTARMVSHX>;
 148 def NEONvshrn     : SDNode<"ARMISD::VSHRN", SDTARMVSHX>;
 149
 150 def NEONvrshrs    : SDNode<"ARMISD::VRSHRs", SDTARMVSH>;
 151 def NEONvrshru    : SDNode<"ARMISD::VRSHRu", SDTARMVSH>;
 152 def NEONvrshrn    : SDNode<"ARMISD::VRSHRN", SDTARMVSHX>;
 153
 154 def NEONvqshls    : SDNode<"ARMISD::VQSHLs", SDTARMVSH>;
 155 def NEONvqshlu    : SDNode<"ARMISD::VQSHLu", SDTARMVSH>;
 156 def NEONvqshlsu   : SDNode<"ARMISD::VQSHLsu", SDTARMVSH>;
 157 def NEONvqshrns   : SDNode<"ARMISD::VQSHRNs", SDTARMVSHX>;
 158 def NEONvqshrnu   : SDNode<"ARMISD::VQSHRNu", SDTARMVSHX>;
 159 def NEONvqshrnsu  : SDNode<"ARMISD::VQSHRNsu", SDTARMVSHX>;
 160
 161 def NEONvqrshrns  : SDNode<"ARMISD::VQRSHRNs", SDTARMVSHX>;
 162 def NEONvqrshrnu  : SDNode<"ARMISD::VQRSHRNu", SDTARMVSHX>;
 163 def NEONvqrshrnsu : SDNode<"ARMISD::VQRSHRNsu", SDTARMVSHX>;
 164
 165 def NEONvsli      : SDNode<"ARMISD::VSLI", SDTARMVSHINS>;
 166 def NEONvsri      : SDNode<"ARMISD::VSRI", SDTARMVSHINS>;
 167
 168 def SDTARMVGETLN  : SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisInt<1>,
 169                                          SDTCisVT<2, i32>]>;
 170 def NEONvgetlaneu : SDNode<"ARMISD::VGETLANEu", SDTARMVGETLN>;
 171 def NEONvgetlanes : SDNode<"ARMISD::VGETLANEs", SDTARMVGETLN>;
 172
 173 def SDTARMVMOVIMM : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisVT<1, i32>]>;
 174 def NEONvmovImm   : SDNode<"ARMISD::VMOVIMM", SDTARMVMOVIMM>;
 175 def NEONvmvnImm   : SDNode<"ARMISD::VMVNIMM", SDTARMVMOVIMM>;
 176
 177 def SDTARMVORRIMM : SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
 178                                            SDTCisVT<2, i32>]>;
 179 def NEONvorrImm   : SDNode<"ARMISD::VORRIMM", SDTARMVORRIMM>;
 180 def NEONvbicImm   : SDNode<"ARMISD::VBICIMM", SDTARMVORRIMM>;
 181
 182 def NEONvbsl      : SDNode<"ARMISD::VBSL",
 183                            SDTypeProfile<1, 3, [SDTCisVec<0>,
 184                                                 SDTCisSameAs<0, 1>,
 185                                                 SDTCisSameAs<0, 2>,
 186                                                 SDTCisSameAs<0, 3>]>>;
 187
 188 def NEONvdup      : SDNode<"ARMISD::VDUP", SDTypeProfile<1, 1, [SDTCisVec<0>]>>;
 189
 190 // VDUPLANE can produce a quad-register result from a double-register source,
 191 // so the result is not constrained to match the source.
 192 def NEONvduplane  : SDNode<"ARMISD::VDUPLANE",
 193                            SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisVec<1>,
 194                                                 SDTCisVT<2, i32>]>>;
 195
 196 def SDTARMVEXT    : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
 197                                          SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;
 198 def NEONvext      : SDNode<"ARMISD::VEXT", SDTARMVEXT>;
 199
 200 def SDTARMVSHUF   : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisSameAs<0, 1>]>;
 201 def NEONvrev64    : SDNode<"ARMISD::VREV64", SDTARMVSHUF>;
 202 def NEONvrev32    : SDNode<"ARMISD::VREV32", SDTARMVSHUF>;
 203 def NEONvrev16    : SDNode<"ARMISD::VREV16", SDTARMVSHUF>;
 204
 205 def SDTARMVSHUF2  : SDTypeProfile<2, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
 206                                          SDTCisSameAs<0, 2>,
 207                                          SDTCisSameAs<0, 3>]>;
 208 def NEONzip       : SDNode<"ARMISD::VZIP", SDTARMVSHUF2>;
 209 def NEONuzp       : SDNode<"ARMISD::VUZP", SDTARMVSHUF2>;
 210 def NEONtrn       : SDNode<"ARMISD::VTRN", SDTARMVSHUF2>;
 211
 212 def SDTARMVMULL   : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,
 213                                          SDTCisSameAs<1, 2>]>;
 214 def NEONvmulls    : SDNode<"ARMISD::VMULLs", SDTARMVMULL>;
 215 def NEONvmullu    : SDNode<"ARMISD::VMULLu", SDTARMVMULL>;
 216
 217 def SDTARMFMAX    : SDTypeProfile<1, 2, [SDTCisVT<0, f32>, SDTCisSameAs<0, 1>,
 218                                          SDTCisSameAs<0, 2>]>;
 219 def NEONfmax      : SDNode<"ARMISD::FMAX", SDTARMFMAX>;
 220 def NEONfmin      : SDNode<"ARMISD::FMIN", SDTARMFMAX>;
 221
 222 def NEONimmAllZerosV: PatLeaf<(NEONvmovImm (i32 timm)), [{
 223   ConstantSDNode *ConstVal = cast<ConstantSDNode>(N->getOperand(0));
 224   unsigned EltBits = 0;
 225   uint64_t EltVal = ARM_AM::decodeNEONModImm(ConstVal->getZExtValue(), EltBits);
 226   return (EltBits == 32 && EltVal == 0);
 227 }]>;
 228
 229 def NEONimmAllOnesV: PatLeaf<(NEONvmovImm (i32 timm)), [{
 230   ConstantSDNode *ConstVal = cast<ConstantSDNode>(N->getOperand(0));
 231   unsigned EltBits = 0;
 232   uint64_t EltVal = ARM_AM::decodeNEONModImm(ConstVal->getZExtValue(), EltBits);
 233   return (EltBits == 8 && EltVal == 0xff);
 234 }]>;
 235
 236 //===----------------------------------------------------------------------===//
 237 // NEON load / store instructions
 238 //===----------------------------------------------------------------------===//
 239
 240 // Use VLDM to load a Q register as a D register pair.
 241 // This is a pseudo instruction that is expanded to VLDMD after reg alloc.
 242 def VLDMQIA
 243   : PseudoVFPLdStM<(outs QPR:$dst), (ins GPR:$Rn),
 244                     IIC_fpLoad_m, "",
 245                    [(set QPR:$dst, (v2f64 (load GPR:$Rn)))]>;
 246
 247 // Use VSTM to store a Q register as a D register pair.
 248 // This is a pseudo instruction that is expanded to VSTMD after reg alloc.
 249 def VSTMQIA
 250   : PseudoVFPLdStM<(outs), (ins QPR:$src, GPR:$Rn),
 251                     IIC_fpStore_m, "",
 252                    [(store (v2f64 QPR:$src), GPR:$Rn)]>;
 253
 254 // Classes for VLD* pseudo-instructions with multi-register operands.
 255 // These are expanded to real instructions after register allocation.
 256 class VLDQPseudo<InstrItinClass itin>
 257   : PseudoNLdSt<(outs QPR:$dst), (ins addrmode6:$addr), itin, "">;
 258 class VLDQWBPseudo<InstrItinClass itin>
 259   : PseudoNLdSt<(outs QPR:$dst, GPR:$wb),
 260                 (ins addrmode6:$addr, am6offset:$offset), itin,
 261                 "$addr.addr = $wb">;
 262 class VLDQQPseudo<InstrItinClass itin>
 263   : PseudoNLdSt<(outs QQPR:$dst), (ins addrmode6:$addr), itin, "">;
 264 class VLDQQWBPseudo<InstrItinClass itin>
 265   : PseudoNLdSt<(outs QQPR:$dst, GPR:$wb),
 266                 (ins addrmode6:$addr, am6offset:$offset), itin,
 267                 "$addr.addr = $wb">;
 268 class VLDQQQQPseudo<InstrItinClass itin>
 269   : PseudoNLdSt<(outs QQQQPR:$dst), (ins addrmode6:$addr, QQQQPR:$src),itin,
 270                 "$src = $dst">;
 271 class VLDQQQQWBPseudo<InstrItinClass itin>
 272   : PseudoNLdSt<(outs QQQQPR:$dst, GPR:$wb),
 273                 (ins addrmode6:$addr, am6offset:$offset, QQQQPR:$src), itin,
 274                 "$addr.addr = $wb, $src = $dst">;
 275
 276 let mayLoad = 1, neverHasSideEffects = 1, hasExtraDefRegAllocReq = 1 in {
 277
 278 //   VLD1     : Vector Load (multiple single elements)
 279 class VLD1D<bits<4> op7_4, string Dt>
 280   : NLdSt<0,0b10,0b0111,op7_4, (outs VecListOneD:$Vd),
 281           (ins addrmode6:$Rn), IIC_VLD1,
 282           "vld1", Dt, "$Vd, $Rn", "", []> {
 283   let Rm = 0b1111;
 284   let Inst{4} = Rn{4};
 285   let DecoderMethod = "DecodeVLDInstruction";
 286 }
 287 class VLD1Q<bits<4> op7_4, string Dt>
 288   : NLdSt<0,0b10,0b1010,op7_4, (outs VecListTwoD:$Vd),
 289           (ins addrmode6:$Rn), IIC_VLD1x2,
 290           "vld1", Dt, "$Vd, $Rn", "", []> {
 291   let Rm = 0b1111;
 292   let Inst{5-4} = Rn{5-4};
 293   let DecoderMethod = "DecodeVLDInstruction";
 294 }
 295
 296 def  VLD1d8   : VLD1D<{0,0,0,?}, "8">;
 297 def  VLD1d16  : VLD1D<{0,1,0,?}, "16">;
 298 def  VLD1d32  : VLD1D<{1,0,0,?}, "32">;
 299 def  VLD1d64  : VLD1D<{1,1,0,?}, "64">;
 300
 301 def  VLD1q8   : VLD1Q<{0,0,?,?}, "8">;
 302 def  VLD1q16  : VLD1Q<{0,1,?,?}, "16">;
 303 def  VLD1q32  : VLD1Q<{1,0,?,?}, "32">;
 304 def  VLD1q64  : VLD1Q<{1,1,?,?}, "64">;
 305
 306 def  VLD1q8Pseudo  : VLDQPseudo<IIC_VLD1x2>;
 307 def  VLD1q16Pseudo : VLDQPseudo<IIC_VLD1x2>;
 308 def  VLD1q32Pseudo : VLDQPseudo<IIC_VLD1x2>;
 309 def  VLD1q64Pseudo : VLDQPseudo<IIC_VLD1x2>;
 310
 311 // ...with address register writeback:
 312 class VLD1DWB<bits<4> op7_4, string Dt>
 313   : NLdSt<0,0b10,0b0111,op7_4, (outs DPR:$Vd, GPR:$wb),
 314           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD1u,
 315           "vld1", Dt, "\\{$Vd\\}, $Rn$Rm",
 316           "$Rn.addr = $wb", []> {
 317   let Inst{4} = Rn{4};
 318   let DecoderMethod = "DecodeVLDInstruction";
 319 }
 320 class VLD1QWB<bits<4> op7_4, string Dt>
 321   : NLdSt<0,0b10,0b1010,op7_4, (outs VecListTwoD:$Vd, GPR:$wb),
 322           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD1x2u,
 323           "vld1", Dt, "$Vd, $Rn$Rm",
 324           "$Rn.addr = $wb", []> {
 325   let Inst{5-4} = Rn{5-4};
 326   let DecoderMethod = "DecodeVLDInstruction";
 327 }
 328
 329 def VLD1d8_UPD  : VLD1DWB<{0,0,0,?}, "8">;
 330 def VLD1d16_UPD : VLD1DWB<{0,1,0,?}, "16">;
 331 def VLD1d32_UPD : VLD1DWB<{1,0,0,?}, "32">;
 332 def VLD1d64_UPD : VLD1DWB<{1,1,0,?}, "64">;
 333
 334 def VLD1q8_UPD  : VLD1QWB<{0,0,?,?}, "8">;
 335 def VLD1q16_UPD : VLD1QWB<{0,1,?,?}, "16">;
 336 def VLD1q32_UPD : VLD1QWB<{1,0,?,?}, "32">;
 337 def VLD1q64_UPD : VLD1QWB<{1,1,?,?}, "64">;
 338
 339 def VLD1q8Pseudo_UPD  : VLDQWBPseudo<IIC_VLD1x2u>;
 340 def VLD1q16Pseudo_UPD : VLDQWBPseudo<IIC_VLD1x2u>;
 341 def VLD1q32Pseudo_UPD : VLDQWBPseudo<IIC_VLD1x2u>;
 342 def VLD1q64Pseudo_UPD : VLDQWBPseudo<IIC_VLD1x2u>;
 343
 344 // ...with 3 registers
 345 class VLD1D3<bits<4> op7_4, string Dt>
 346   : NLdSt<0,0b10,0b0110,op7_4, (outs VecListThreeD:$Vd),
 347           (ins addrmode6:$Rn), IIC_VLD1x3, "vld1", Dt,
 348           "$Vd, $Rn", "", []> {
 349   let Rm = 0b1111;
 350   let Inst{4} = Rn{4};
 351   let DecoderMethod = "DecodeVLDInstruction";
 352 }
 353 class VLD1D3WB<bits<4> op7_4, string Dt>
 354   : NLdSt<0,0b10,0b0110,op7_4, (outs VecListThreeD:$Vd, GPR:$wb),
 355           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD1x3u, "vld1", Dt,
 356           "$Vd, $Rn$Rm", "$Rn.addr = $wb", []> {
 357   let Inst{4} = Rn{4};
 358   let DecoderMethod = "DecodeVLDInstruction";
 359 }
 360
 361 def VLD1d8T      : VLD1D3<{0,0,0,?}, "8">;
 362 def VLD1d16T     : VLD1D3<{0,1,0,?}, "16">;
 363 def VLD1d32T     : VLD1D3<{1,0,0,?}, "32">;
 364 def VLD1d64T     : VLD1D3<{1,1,0,?}, "64">;
 365
 366 def VLD1d8T_UPD  : VLD1D3WB<{0,0,0,?}, "8">;
 367 def VLD1d16T_UPD : VLD1D3WB<{0,1,0,?}, "16">;
 368 def VLD1d32T_UPD : VLD1D3WB<{1,0,0,?}, "32">;
 369 def VLD1d64T_UPD : VLD1D3WB<{1,1,0,?}, "64">;
 370
 371 def VLD1d64TPseudo     : VLDQQPseudo<IIC_VLD1x3>;
 372 def VLD1d64TPseudo_UPD : VLDQQWBPseudo<IIC_VLD1x3u>;
 373
 374 // ...with 4 registers
 375 class VLD1D4<bits<4> op7_4, string Dt>
 376   : NLdSt<0, 0b10, 0b0010, op7_4, (outs VecListFourD:$Vd),
 377           (ins addrmode6:$Rn), IIC_VLD1x4, "vld1", Dt,
 378           "$Vd, $Rn", "", []> {
 379   let Rm = 0b1111;
 380   let Inst{5-4} = Rn{5-4};
 381   let DecoderMethod = "DecodeVLDInstruction";
 382 }
 383 class VLD1D4WB<bits<4> op7_4, string Dt>
 384   : NLdSt<0, 0b10, 0b0010, op7_4, (outs VecListFourD:$Vd, GPR:$wb),
 385           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD1x4u, "vld1", Dt,
 386           "$Vd, $Rn$Rm", "$Rn.addr = $wb",
 387           []> {
 388   let Inst{5-4} = Rn{5-4};
 389   let DecoderMethod = "DecodeVLDInstruction";
 390 }
 391
 392 def VLD1d8Q      : VLD1D4<{0,0,?,?}, "8">;
 393 def VLD1d16Q     : VLD1D4<{0,1,?,?}, "16">;
 394 def VLD1d32Q     : VLD1D4<{1,0,?,?}, "32">;
 395 def VLD1d64Q     : VLD1D4<{1,1,?,?}, "64">;
 396
 397 def VLD1d8Q_UPD  : VLD1D4WB<{0,0,?,?}, "8">;
 398 def VLD1d16Q_UPD : VLD1D4WB<{0,1,?,?}, "16">;
 399 def VLD1d32Q_UPD : VLD1D4WB<{1,0,?,?}, "32">;
 400 def VLD1d64Q_UPD : VLD1D4WB<{1,1,?,?}, "64">;
 401
 402 def VLD1d64QPseudo     : VLDQQPseudo<IIC_VLD1x4>;
 403 def VLD1d64QPseudo_UPD : VLDQQWBPseudo<IIC_VLD1x4u>;
 404
 405 //   VLD2     : Vector Load (multiple 2-element structures)
 406 class VLD2D<bits<4> op11_8, bits<4> op7_4, string Dt, RegisterOperand VdTy>
 407   : NLdSt<0, 0b10, op11_8, op7_4, (outs VdTy:$Vd),
 408           (ins addrmode6:$Rn), IIC_VLD2,
 409           "vld2", Dt, "$Vd, $Rn", "", []> {
 410   let Rm = 0b1111;
 411   let Inst{5-4} = Rn{5-4};
 412   let DecoderMethod = "DecodeVLDInstruction";
 413 }
 414 class VLD2Q<bits<4> op7_4, string Dt>
 415   : NLdSt<0, 0b10, 0b0011, op7_4,
 416           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 417           (ins addrmode6:$Rn), IIC_VLD2x2,
 418           "vld2", Dt, "\\{$Vd, $dst2, $dst3, $dst4\\}, $Rn", "", []> {
 419   let Rm = 0b1111;
 420   let Inst{5-4} = Rn{5-4};
 421   let DecoderMethod = "DecodeVLDInstruction";
 422 }
 423
 424 def  VLD2d8   : VLD2D<0b1000, {0,0,?,?}, "8", VecListTwoD>;
 425 def  VLD2d16  : VLD2D<0b1000, {0,1,?,?}, "16", VecListTwoD>;
 426 def  VLD2d32  : VLD2D<0b1000, {1,0,?,?}, "32", VecListTwoD>;
 427
 428 def  VLD2q8   : VLD2Q<{0,0,?,?}, "8">;
 429 def  VLD2q16  : VLD2Q<{0,1,?,?}, "16">;
 430 def  VLD2q32  : VLD2Q<{1,0,?,?}, "32">;
 431
 432 def  VLD2d8Pseudo  : VLDQPseudo<IIC_VLD2>;
 433 def  VLD2d16Pseudo : VLDQPseudo<IIC_VLD2>;
 434 def  VLD2d32Pseudo : VLDQPseudo<IIC_VLD2>;
 435
 436 def  VLD2q8Pseudo  : VLDQQPseudo<IIC_VLD2x2>;
 437 def  VLD2q16Pseudo : VLDQQPseudo<IIC_VLD2x2>;
 438 def  VLD2q32Pseudo : VLDQQPseudo<IIC_VLD2x2>;
 439
 440 // ...with address register writeback:
 441 class VLD2DWB<bits<4> op11_8, bits<4> op7_4, string Dt, RegisterOperand VdTy>
 442   : NLdSt<0, 0b10, op11_8, op7_4, (outs VdTy:$Vd, GPR:$wb),
 443           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD2u,
 444           "vld2", Dt, "$Vd, $Rn$Rm",
 445           "$Rn.addr = $wb", []> {
 446   let Inst{5-4} = Rn{5-4};
 447   let DecoderMethod = "DecodeVLDInstruction";
 448 }
 449 class VLD2QWB<bits<4> op7_4, string Dt>
 450   : NLdSt<0, 0b10, 0b0011, op7_4,
 451           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4, GPR:$wb),
 452           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD2x2u,
 453           "vld2", Dt, "\\{$Vd, $dst2, $dst3, $dst4\\}, $Rn$Rm",
 454           "$Rn.addr = $wb", []> {
 455   let Inst{5-4} = Rn{5-4};
 456   let DecoderMethod = "DecodeVLDInstruction";
 457 }
 458
 459 def VLD2d8_UPD  : VLD2DWB<0b1000, {0,0,?,?}, "8", VecListTwoD>;
 460 def VLD2d16_UPD : VLD2DWB<0b1000, {0,1,?,?}, "16", VecListTwoD>;
 461 def VLD2d32_UPD : VLD2DWB<0b1000, {1,0,?,?}, "32", VecListTwoD>;
 462
 463 def VLD2q8_UPD  : VLD2QWB<{0,0,?,?}, "8">;
 464 def VLD2q16_UPD : VLD2QWB<{0,1,?,?}, "16">;
 465 def VLD2q32_UPD : VLD2QWB<{1,0,?,?}, "32">;
 466
 467 def VLD2d8Pseudo_UPD  : VLDQWBPseudo<IIC_VLD2u>;
 468 def VLD2d16Pseudo_UPD : VLDQWBPseudo<IIC_VLD2u>;
 469 def VLD2d32Pseudo_UPD : VLDQWBPseudo<IIC_VLD2u>;
 470
 471 def VLD2q8Pseudo_UPD  : VLDQQWBPseudo<IIC_VLD2x2u>;
 472 def VLD2q16Pseudo_UPD : VLDQQWBPseudo<IIC_VLD2x2u>;
 473 def VLD2q32Pseudo_UPD : VLDQQWBPseudo<IIC_VLD2x2u>;
 474
 475 // ...with double-spaced registers
 476 def VLD2b8      : VLD2D<0b1001, {0,0,?,?}, "8", VecListTwoQ>;
 477 def VLD2b16     : VLD2D<0b1001, {0,1,?,?}, "16", VecListTwoQ>;
 478 def VLD2b32     : VLD2D<0b1001, {1,0,?,?}, "32", VecListTwoQ>;
 479 def VLD2b8_UPD  : VLD2DWB<0b1001, {0,0,?,?}, "8", VecListTwoQ>;
 480 def VLD2b16_UPD : VLD2DWB<0b1001, {0,1,?,?}, "16", VecListTwoQ>;
 481 def VLD2b32_UPD : VLD2DWB<0b1001, {1,0,?,?}, "32", VecListTwoQ>;
 482
 483 //   VLD3     : Vector Load (multiple 3-element structures)
 484 class VLD3D<bits<4> op11_8, bits<4> op7_4, string Dt>
 485   : NLdSt<0, 0b10, op11_8, op7_4, (outs DPR:$Vd, DPR:$dst2, DPR:$dst3),
 486           (ins addrmode6:$Rn), IIC_VLD3,
 487           "vld3", Dt, "\\{$Vd, $dst2, $dst3\\}, $Rn", "", []> {
 488   let Rm = 0b1111;
 489   let Inst{4} = Rn{4};
 490   let DecoderMethod = "DecodeVLDInstruction";
 491 }
 492
 493 def  VLD3d8   : VLD3D<0b0100, {0,0,0,?}, "8">;
 494 def  VLD3d16  : VLD3D<0b0100, {0,1,0,?}, "16">;
 495 def  VLD3d32  : VLD3D<0b0100, {1,0,0,?}, "32">;
 496
 497 def  VLD3d8Pseudo  : VLDQQPseudo<IIC_VLD3>;
 498 def  VLD3d16Pseudo : VLDQQPseudo<IIC_VLD3>;
 499 def  VLD3d32Pseudo : VLDQQPseudo<IIC_VLD3>;
 500
 501 // ...with address register writeback:
 502 class VLD3DWB<bits<4> op11_8, bits<4> op7_4, string Dt>
 503   : NLdSt<0, 0b10, op11_8, op7_4,
 504           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, GPR:$wb),
 505           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD3u,
 506           "vld3", Dt, "\\{$Vd, $dst2, $dst3\\}, $Rn$Rm",
 507           "$Rn.addr = $wb", []> {
 508   let Inst{4} = Rn{4};
 509   let DecoderMethod = "DecodeVLDInstruction";
 510 }
 511
 512 def VLD3d8_UPD  : VLD3DWB<0b0100, {0,0,0,?}, "8">;
 513 def VLD3d16_UPD : VLD3DWB<0b0100, {0,1,0,?}, "16">;
 514 def VLD3d32_UPD : VLD3DWB<0b0100, {1,0,0,?}, "32">;
 515
 516 def VLD3d8Pseudo_UPD  : VLDQQWBPseudo<IIC_VLD3u>;
 517 def VLD3d16Pseudo_UPD : VLDQQWBPseudo<IIC_VLD3u>;
 518 def VLD3d32Pseudo_UPD : VLDQQWBPseudo<IIC_VLD3u>;
 519
 520 // ...with double-spaced registers:
 521 def VLD3q8      : VLD3D<0b0101, {0,0,0,?}, "8">;
 522 def VLD3q16     : VLD3D<0b0101, {0,1,0,?}, "16">;
 523 def VLD3q32     : VLD3D<0b0101, {1,0,0,?}, "32">;
 524 def VLD3q8_UPD  : VLD3DWB<0b0101, {0,0,0,?}, "8">;
 525 def VLD3q16_UPD : VLD3DWB<0b0101, {0,1,0,?}, "16">;
 526 def VLD3q32_UPD : VLD3DWB<0b0101, {1,0,0,?}, "32">;
 527
 528 def VLD3q8Pseudo_UPD  : VLDQQQQWBPseudo<IIC_VLD3u>;
 529 def VLD3q16Pseudo_UPD : VLDQQQQWBPseudo<IIC_VLD3u>;
 530 def VLD3q32Pseudo_UPD : VLDQQQQWBPseudo<IIC_VLD3u>;
 531
 532 // ...alternate versions to be allocated odd register numbers:
 533 def VLD3q8oddPseudo   : VLDQQQQPseudo<IIC_VLD3>;
 534 def VLD3q16oddPseudo  : VLDQQQQPseudo<IIC_VLD3>;
 535 def VLD3q32oddPseudo  : VLDQQQQPseudo<IIC_VLD3>;
 536
 537 def VLD3q8oddPseudo_UPD  : VLDQQQQWBPseudo<IIC_VLD3u>;
 538 def VLD3q16oddPseudo_UPD : VLDQQQQWBPseudo<IIC_VLD3u>;
 539 def VLD3q32oddPseudo_UPD : VLDQQQQWBPseudo<IIC_VLD3u>;
 540
 541 //   VLD4     : Vector Load (multiple 4-element structures)
 542 class VLD4D<bits<4> op11_8, bits<4> op7_4, string Dt>
 543   : NLdSt<0, 0b10, op11_8, op7_4,
 544           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 545           (ins addrmode6:$Rn), IIC_VLD4,
 546           "vld4", Dt, "\\{$Vd, $dst2, $dst3, $dst4\\}, $Rn", "", []> {
 547   let Rm = 0b1111;
 548   let Inst{5-4} = Rn{5-4};
 549   let DecoderMethod = "DecodeVLDInstruction";
 550 }
 551
 552 def  VLD4d8   : VLD4D<0b0000, {0,0,?,?}, "8">;
 553 def  VLD4d16  : VLD4D<0b0000, {0,1,?,?}, "16">;
 554 def  VLD4d32  : VLD4D<0b0000, {1,0,?,?}, "32">;
 555
 556 def  VLD4d8Pseudo  : VLDQQPseudo<IIC_VLD4>;
 557 def  VLD4d16Pseudo : VLDQQPseudo<IIC_VLD4>;
 558 def  VLD4d32Pseudo : VLDQQPseudo<IIC_VLD4>;
 559
 560 // ...with address register writeback:
 561 class VLD4DWB<bits<4> op11_8, bits<4> op7_4, string Dt>
 562   : NLdSt<0, 0b10, op11_8, op7_4,
 563           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4, GPR:$wb),
 564           (ins addrmode6:$Rn, am6offset:$Rm), IIC_VLD4u,
 565           "vld4", Dt, "\\{$Vd, $dst2, $dst3, $dst4\\}, $Rn$Rm",
 566           "$Rn.addr = $wb", []> {
 567   let Inst{5-4} = Rn{5-4};
 568   let DecoderMethod = "DecodeVLDInstruction";
 569 }
 570
 571 def VLD4d8_UPD  : VLD4DWB<0b0000, {0,0,?,?}, "8">;
 572 def VLD4d16_UPD : VLD4DWB<0b0000, {0,1,?,?}, "16">;
 573 def VLD4d32_UPD : VLD4DWB<0b0000, {1,0,?,?}, "32">;
 574
 575 def VLD4d8Pseudo_UPD  : VLDQQWBPseudo<IIC_VLD4u>;
 576 def VLD4d16Pseudo_UPD : VLDQQWBPseudo<IIC_VLD4u>;
 577 def VLD4d32Pseudo_UPD : VLDQQWBPseudo<IIC_VLD4u>;
 578
 579 // ...with double-spaced registers:
 580 def VLD4q8      : VLD4D<0b0001, {0,0,?,?}, "8">;
 581 def VLD4q16     : VLD4D<0b0001, {0,1,?,?}, "16">;
 582 def VLD4q32     : VLD4D<0b0001, {1,0,?,?}, "32">;
 583 def VLD4q8_UPD  : VLD4DWB<0b0001, {0,0,?,?}, "8">;
 584 def VLD4q16_UPD : VLD4DWB<0b0001, {0,1,?,?}, "16">;
 585 def VLD4q32_UPD : VLD4DWB<0b0001, {1,0,?,?}, "32">;
 586
 587 def VLD4q8Pseudo_UPD  : VLDQQQQWBPseudo<IIC_VLD4u>;
 588 def VLD4q16Pseudo_UPD : VLDQQQQWBPseudo<IIC_VLD4u>;
 589 def VLD4q32Pseudo_UPD : VLDQQQQWBPseudo<IIC_VLD4u>;
 590
 591 // ...alternate versions to be allocated odd register numbers:
 592 def VLD4q8oddPseudo   : VLDQQQQPseudo<IIC_VLD4>;
 593 def VLD4q16oddPseudo  : VLDQQQQPseudo<IIC_VLD4>;
 594 def VLD4q32oddPseudo  : VLDQQQQPseudo<IIC_VLD4>;
 595
 596 def VLD4q8oddPseudo_UPD  : VLDQQQQWBPseudo<IIC_VLD4u>;
 597 def VLD4q16oddPseudo_UPD : VLDQQQQWBPseudo<IIC_VLD4u>;
 598 def VLD4q32oddPseudo_UPD : VLDQQQQWBPseudo<IIC_VLD4u>;
 599
 600 } // mayLoad = 1, neverHasSideEffects = 1, hasExtraDefRegAllocReq = 1
 601
 602 // Classes for VLD*LN pseudo-instructions with multi-register operands.
 603 // These are expanded to real instructions after register allocation.
 604 class VLDQLNPseudo<InstrItinClass itin>
 605   : PseudoNLdSt<(outs QPR:$dst),
 606                 (ins addrmode6:$addr, QPR:$src, nohash_imm:$lane),
 607                 itin, "$src = $dst">;
 608 class VLDQLNWBPseudo<InstrItinClass itin>
 609   : PseudoNLdSt<(outs QPR:$dst, GPR:$wb),
 610                 (ins addrmode6:$addr, am6offset:$offset, QPR:$src,
 611                  nohash_imm:$lane), itin, "$addr.addr = $wb, $src = $dst">;
 612 class VLDQQLNPseudo<InstrItinClass itin>
 613   : PseudoNLdSt<(outs QQPR:$dst),
 614                 (ins addrmode6:$addr, QQPR:$src, nohash_imm:$lane),
 615                 itin, "$src = $dst">;
 616 class VLDQQLNWBPseudo<InstrItinClass itin>
 617   : PseudoNLdSt<(outs QQPR:$dst, GPR:$wb),
 618                 (ins addrmode6:$addr, am6offset:$offset, QQPR:$src,
 619                  nohash_imm:$lane), itin, "$addr.addr = $wb, $src = $dst">;
 620 class VLDQQQQLNPseudo<InstrItinClass itin>
 621   : PseudoNLdSt<(outs QQQQPR:$dst),
 622                 (ins addrmode6:$addr, QQQQPR:$src, nohash_imm:$lane),
 623                 itin, "$src = $dst">;
 624 class VLDQQQQLNWBPseudo<InstrItinClass itin>
 625   : PseudoNLdSt<(outs QQQQPR:$dst, GPR:$wb),
 626                 (ins addrmode6:$addr, am6offset:$offset, QQQQPR:$src,
 627                  nohash_imm:$lane), itin, "$addr.addr = $wb, $src = $dst">;
 628
 629 //   VLD1LN   : Vector Load (single element to one lane)
 630 class VLD1LN<bits<4> op11_8, bits<4> op7_4, string Dt, ValueType Ty,
 631              PatFrag LoadOp>
 632   : NLdStLn<1, 0b10, op11_8, op7_4, (outs DPR:$Vd),
 633           (ins addrmode6:$Rn, DPR:$src, nohash_imm:$lane),
 634           IIC_VLD1ln, "vld1", Dt, "\\{$Vd[$lane]\\}, $Rn",
 635           "$src = $Vd",
 636           [(set DPR:$Vd, (vector_insert (Ty DPR:$src),
 637                                          (i32 (LoadOp addrmode6:$Rn)),
 638                                          imm:$lane))]> {
 639   let Rm = 0b1111;
 640   let DecoderMethod = "DecodeVLD1LN";
 641 }
 642 class VLD1LN32<bits<4> op11_8, bits<4> op7_4, string Dt, ValueType Ty,
 643              PatFrag LoadOp>
 644   : NLdStLn<1, 0b10, op11_8, op7_4, (outs DPR:$Vd),
 645           (ins addrmode6oneL32:$Rn, DPR:$src, nohash_imm:$lane),
 646           IIC_VLD1ln, "vld1", Dt, "\\{$Vd[$lane]\\}, $Rn",
 647           "$src = $Vd",
 648           [(set DPR:$Vd, (vector_insert (Ty DPR:$src),
 649                                          (i32 (LoadOp addrmode6oneL32:$Rn)),
 650                                          imm:$lane))]> {
 651   let Rm = 0b1111;
 652   let DecoderMethod = "DecodeVLD1LN";
 653 }
 654 class VLD1QLNPseudo<ValueType Ty, PatFrag LoadOp> : VLDQLNPseudo<IIC_VLD1ln> {
 655   let Pattern = [(set QPR:$dst, (vector_insert (Ty QPR:$src),
 656                                                (i32 (LoadOp addrmode6:$addr)),
 657                                                imm:$lane))];
 658 }
 659
 660 def VLD1LNd8  : VLD1LN<0b0000, {?,?,?,0}, "8", v8i8, extloadi8> {
 661   let Inst{7-5} = lane{2-0};
 662 }
 663 def VLD1LNd16 : VLD1LN<0b0100, {?,?,0,?}, "16", v4i16, extloadi16> {
 664   let Inst{7-6} = lane{1-0};
 665   let Inst{4}   = Rn{4};
 666 }
 667 def VLD1LNd32 : VLD1LN32<0b1000, {?,0,?,?}, "32", v2i32, load> {
 668   let Inst{7} = lane{0};
 669   let Inst{5} = Rn{4};
 670   let Inst{4} = Rn{4};
 671 }
 672
 673 def VLD1LNq8Pseudo  : VLD1QLNPseudo<v16i8, extloadi8>;
 674 def VLD1LNq16Pseudo : VLD1QLNPseudo<v8i16, extloadi16>;
 675 def VLD1LNq32Pseudo : VLD1QLNPseudo<v4i32, load>;
 676
 677 def : Pat<(vector_insert (v2f32 DPR:$src),
 678                          (f32 (load addrmode6:$addr)), imm:$lane),
 679           (VLD1LNd32 addrmode6:$addr, DPR:$src, imm:$lane)>;
 680 def : Pat<(vector_insert (v4f32 QPR:$src),
 681                          (f32 (load addrmode6:$addr)), imm:$lane),
 682           (VLD1LNq32Pseudo addrmode6:$addr, QPR:$src, imm:$lane)>;
 683
 684 let mayLoad = 1, neverHasSideEffects = 1, hasExtraDefRegAllocReq = 1 in {
 685
 686 // ...with address register writeback:
 687 class VLD1LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
 688   : NLdStLn<1, 0b10, op11_8, op7_4, (outs DPR:$Vd, GPR:$wb),
 689           (ins addrmode6:$Rn, am6offset:$Rm,
 690            DPR:$src, nohash_imm:$lane), IIC_VLD1lnu, "vld1", Dt,
 691           "\\{$Vd[$lane]\\}, $Rn$Rm",
 692           "$src = $Vd, $Rn.addr = $wb", []> {
 693   let DecoderMethod = "DecodeVLD1LN";
 694 }
 695
 696 def VLD1LNd8_UPD  : VLD1LNWB<0b0000, {?,?,?,0}, "8"> {
 697   let Inst{7-5} = lane{2-0};
 698 }
 699 def VLD1LNd16_UPD : VLD1LNWB<0b0100, {?,?,0,?}, "16"> {
 700   let Inst{7-6} = lane{1-0};
 701   let Inst{4}   = Rn{4};
 702 }
 703 def VLD1LNd32_UPD : VLD1LNWB<0b1000, {?,0,?,?}, "32"> {
 704   let Inst{7} = lane{0};
 705   let Inst{5} = Rn{4};
 706   let Inst{4} = Rn{4};
 707 }
 708
 709 def VLD1LNq8Pseudo_UPD  : VLDQLNWBPseudo<IIC_VLD1lnu>;
 710 def VLD1LNq16Pseudo_UPD : VLDQLNWBPseudo<IIC_VLD1lnu>;
 711 def VLD1LNq32Pseudo_UPD : VLDQLNWBPseudo<IIC_VLD1lnu>;
 712
 713 //   VLD2LN   : Vector Load (single 2-element structure to one lane)
 714 class VLD2LN<bits<4> op11_8, bits<4> op7_4, string Dt>
 715   : NLdStLn<1, 0b10, op11_8, op7_4, (outs DPR:$Vd, DPR:$dst2),
 716           (ins addrmode6:$Rn, DPR:$src1, DPR:$src2, nohash_imm:$lane),
 717           IIC_VLD2ln, "vld2", Dt, "\\{$Vd[$lane], $dst2[$lane]\\}, $Rn",
 718           "$src1 = $Vd, $src2 = $dst2", []> {
 719   let Rm = 0b1111;
 720   let Inst{4}   = Rn{4};
 721   let DecoderMethod = "DecodeVLD2LN";
 722 }
 723
 724 def VLD2LNd8  : VLD2LN<0b0001, {?,?,?,?}, "8"> {
 725   let Inst{7-5} = lane{2-0};
 726 }
 727 def VLD2LNd16 : VLD2LN<0b0101, {?,?,0,?}, "16"> {
 728   let Inst{7-6} = lane{1-0};
 729 }
 730 def VLD2LNd32 : VLD2LN<0b1001, {?,0,0,?}, "32"> {
 731   let Inst{7} = lane{0};
 732 }
 733
 734 def VLD2LNd8Pseudo  : VLDQLNPseudo<IIC_VLD2ln>;
 735 def VLD2LNd16Pseudo : VLDQLNPseudo<IIC_VLD2ln>;
 736 def VLD2LNd32Pseudo : VLDQLNPseudo<IIC_VLD2ln>;
 737
 738 // ...with double-spaced registers:
 739 def VLD2LNq16 : VLD2LN<0b0101, {?,?,1,?}, "16"> {
 740   let Inst{7-6} = lane{1-0};
 741 }
 742 def VLD2LNq32 : VLD2LN<0b1001, {?,1,0,?}, "32"> {
 743   let Inst{7} = lane{0};
 744 }
 745
 746 def VLD2LNq16Pseudo : VLDQQLNPseudo<IIC_VLD2ln>;
 747 def VLD2LNq32Pseudo : VLDQQLNPseudo<IIC_VLD2ln>;
 748
 749 // ...with address register writeback:
 750 class VLD2LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
 751   : NLdStLn<1, 0b10, op11_8, op7_4, (outs DPR:$Vd, DPR:$dst2, GPR:$wb),
 752           (ins addrmode6:$Rn, am6offset:$Rm,
 753            DPR:$src1, DPR:$src2, nohash_imm:$lane), IIC_VLD2lnu, "vld2", Dt,
 754           "\\{$Vd[$lane], $dst2[$lane]\\}, $Rn$Rm",
 755           "$src1 = $Vd, $src2 = $dst2, $Rn.addr = $wb", []> {
 756   let Inst{4}   = Rn{4};
 757   let DecoderMethod = "DecodeVLD2LN";
 758 }
 759
 760 def VLD2LNd8_UPD  : VLD2LNWB<0b0001, {?,?,?,?}, "8"> {
 761   let Inst{7-5} = lane{2-0};
 762 }
 763 def VLD2LNd16_UPD : VLD2LNWB<0b0101, {?,?,0,?}, "16"> {
 764   let Inst{7-6} = lane{1-0};
 765 }
 766 def VLD2LNd32_UPD : VLD2LNWB<0b1001, {?,0,0,?}, "32"> {
 767   let Inst{7} = lane{0};
 768 }
 769
 770 def VLD2LNd8Pseudo_UPD  : VLDQLNWBPseudo<IIC_VLD2lnu>;
 771 def VLD2LNd16Pseudo_UPD : VLDQLNWBPseudo<IIC_VLD2lnu>;
 772 def VLD2LNd32Pseudo_UPD : VLDQLNWBPseudo<IIC_VLD2lnu>;
 773
 774 def VLD2LNq16_UPD : VLD2LNWB<0b0101, {?,?,1,?}, "16"> {
 775   let Inst{7-6} = lane{1-0};
 776 }
 777 def VLD2LNq32_UPD : VLD2LNWB<0b1001, {?,1,0,?}, "32"> {
 778   let Inst{7} = lane{0};
 779 }
 780
 781 def VLD2LNq16Pseudo_UPD : VLDQQLNWBPseudo<IIC_VLD2lnu>;
 782 def VLD2LNq32Pseudo_UPD : VLDQQLNWBPseudo<IIC_VLD2lnu>;
 783
 784 //   VLD3LN   : Vector Load (single 3-element structure to one lane)
 785 class VLD3LN<bits<4> op11_8, bits<4> op7_4, string Dt>
 786   : NLdStLn<1, 0b10, op11_8, op7_4, (outs DPR:$Vd, DPR:$dst2, DPR:$dst3),
 787           (ins addrmode6:$Rn, DPR:$src1, DPR:$src2, DPR:$src3,
 788           nohash_imm:$lane), IIC_VLD3ln, "vld3", Dt,
 789           "\\{$Vd[$lane], $dst2[$lane], $dst3[$lane]\\}, $Rn",
 790           "$src1 = $Vd, $src2 = $dst2, $src3 = $dst3", []> {
 791   let Rm = 0b1111;
 792   let DecoderMethod = "DecodeVLD3LN";
 793 }
 794
 795 def VLD3LNd8  : VLD3LN<0b0010, {?,?,?,0}, "8"> {
 796   let Inst{7-5} = lane{2-0};
 797 }
 798 def VLD3LNd16 : VLD3LN<0b0110, {?,?,0,0}, "16"> {
 799   let Inst{7-6} = lane{1-0};
 800 }
 801 def VLD3LNd32 : VLD3LN<0b1010, {?,0,0,0}, "32"> {
 802   let Inst{7}   = lane{0};
 803 }
 804
 805 def VLD3LNd8Pseudo  : VLDQQLNPseudo<IIC_VLD3ln>;
 806 def VLD3LNd16Pseudo : VLDQQLNPseudo<IIC_VLD3ln>;
 807 def VLD3LNd32Pseudo : VLDQQLNPseudo<IIC_VLD3ln>;
 808
 809 // ...with double-spaced registers:
 810 def VLD3LNq16 : VLD3LN<0b0110, {?,?,1,0}, "16"> {
 811   let Inst{7-6} = lane{1-0};
 812 }
 813 def VLD3LNq32 : VLD3LN<0b1010, {?,1,0,0}, "32"> {
 814   let Inst{7}   = lane{0};
 815 }
 816
 817 def VLD3LNq16Pseudo : VLDQQQQLNPseudo<IIC_VLD3ln>;
 818 def VLD3LNq32Pseudo : VLDQQQQLNPseudo<IIC_VLD3ln>;
 819
 820 // ...with address register writeback:
 821 class VLD3LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
 822   : NLdStLn<1, 0b10, op11_8, op7_4,
 823           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, GPR:$wb),
 824           (ins addrmode6:$Rn, am6offset:$Rm,
 825            DPR:$src1, DPR:$src2, DPR:$src3, nohash_imm:$lane),
 826           IIC_VLD3lnu, "vld3", Dt,
 827           "\\{$Vd[$lane], $dst2[$lane], $dst3[$lane]\\}, $Rn$Rm",
 828           "$src1 = $Vd, $src2 = $dst2, $src3 = $dst3, $Rn.addr = $wb",
 829           []> {
 830   let DecoderMethod = "DecodeVLD3LN";
 831 }
 832
 833 def VLD3LNd8_UPD  : VLD3LNWB<0b0010, {?,?,?,0}, "8"> {
 834   let Inst{7-5} = lane{2-0};
 835 }
 836 def VLD3LNd16_UPD : VLD3LNWB<0b0110, {?,?,0,0}, "16"> {
 837   let Inst{7-6} = lane{1-0};
 838 }
 839 def VLD3LNd32_UPD : VLD3LNWB<0b1010, {?,0,0,0}, "32"> {
 840   let Inst{7}   = lane{0};
 841 }
 842
 843 def VLD3LNd8Pseudo_UPD  : VLDQQLNWBPseudo<IIC_VLD3lnu>;
 844 def VLD3LNd16Pseudo_UPD : VLDQQLNWBPseudo<IIC_VLD3lnu>;
 845 def VLD3LNd32Pseudo_UPD : VLDQQLNWBPseudo<IIC_VLD3lnu>;
 846
 847 def VLD3LNq16_UPD : VLD3LNWB<0b0110, {?,?,1,0}, "16"> {
 848   let Inst{7-6} = lane{1-0};
 849 }
 850 def VLD3LNq32_UPD : VLD3LNWB<0b1010, {?,1,0,0}, "32"> {
 851   let Inst{7}   = lane{0};
 852 }
 853
 854 def VLD3LNq16Pseudo_UPD : VLDQQQQLNWBPseudo<IIC_VLD3lnu>;
 855 def VLD3LNq32Pseudo_UPD : VLDQQQQLNWBPseudo<IIC_VLD3lnu>;
 856
 857 //   VLD4LN   : Vector Load (single 4-element structure to one lane)
 858 class VLD4LN<bits<4> op11_8, bits<4> op7_4, string Dt>
 859   : NLdStLn<1, 0b10, op11_8, op7_4,
 860           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 861           (ins addrmode6:$Rn, DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4,
 862           nohash_imm:$lane), IIC_VLD4ln, "vld4", Dt,
 863           "\\{$Vd[$lane], $dst2[$lane], $dst3[$lane], $dst4[$lane]\\}, $Rn",
 864           "$src1 = $Vd, $src2 = $dst2, $src3 = $dst3, $src4 = $dst4", []> {
 865   let Rm = 0b1111;
 866   let Inst{4}   = Rn{4};
 867   let DecoderMethod = "DecodeVLD4LN";
 868 }
 869
 870 def VLD4LNd8  : VLD4LN<0b0011, {?,?,?,?}, "8"> {
 871   let Inst{7-5} = lane{2-0};
 872 }
 873 def VLD4LNd16 : VLD4LN<0b0111, {?,?,0,?}, "16"> {
 874   let Inst{7-6} = lane{1-0};
 875 }
 876 def VLD4LNd32 : VLD4LN<0b1011, {?,0,?,?}, "32"> {
 877   let Inst{7}   = lane{0};
 878   let Inst{5} = Rn{5};
 879 }
 880
 881 def VLD4LNd8Pseudo  : VLDQQLNPseudo<IIC_VLD4ln>;
 882 def VLD4LNd16Pseudo : VLDQQLNPseudo<IIC_VLD4ln>;
 883 def VLD4LNd32Pseudo : VLDQQLNPseudo<IIC_VLD4ln>;
 884
 885 // ...with double-spaced registers:
 886 def VLD4LNq16 : VLD4LN<0b0111, {?,?,1,?}, "16"> {
 887   let Inst{7-6} = lane{1-0};
 888 }
 889 def VLD4LNq32 : VLD4LN<0b1011, {?,1,?,?}, "32"> {
 890   let Inst{7}   = lane{0};
 891   let Inst{5} = Rn{5};
 892 }
 893
 894 def VLD4LNq16Pseudo : VLDQQQQLNPseudo<IIC_VLD4ln>;
 895 def VLD4LNq32Pseudo : VLDQQQQLNPseudo<IIC_VLD4ln>;
 896
 897 // ...with address register writeback:
 898 class VLD4LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
 899   : NLdStLn<1, 0b10, op11_8, op7_4,
 900           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4, GPR:$wb),
 901           (ins addrmode6:$Rn, am6offset:$Rm,
 902            DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4, nohash_imm:$lane),
 903           IIC_VLD4lnu, "vld4", Dt,
 904 "\\{$Vd[$lane], $dst2[$lane], $dst3[$lane], $dst4[$lane]\\}, $Rn$Rm",
 905 "$src1 = $Vd, $src2 = $dst2, $src3 = $dst3, $src4 = $dst4, $Rn.addr = $wb",
 906           []> {
 907   let Inst{4}   = Rn{4};
 908   let DecoderMethod = "DecodeVLD4LN"  ;
 909 }
 910
 911 def VLD4LNd8_UPD  : VLD4LNWB<0b0011, {?,?,?,?}, "8"> {
 912   let Inst{7-5} = lane{2-0};
 913 }
 914 def VLD4LNd16_UPD : VLD4LNWB<0b0111, {?,?,0,?}, "16"> {
 915   let Inst{7-6} = lane{1-0};
 916 }
 917 def VLD4LNd32_UPD : VLD4LNWB<0b1011, {?,0,?,?}, "32"> {
 918   let Inst{7}   = lane{0};
 919   let Inst{5} = Rn{5};
 920 }
 921
 922 def VLD4LNd8Pseudo_UPD  : VLDQQLNWBPseudo<IIC_VLD4lnu>;
 923 def VLD4LNd16Pseudo_UPD : VLDQQLNWBPseudo<IIC_VLD4lnu>;
 924 def VLD4LNd32Pseudo_UPD : VLDQQLNWBPseudo<IIC_VLD4lnu>;
 925
 926 def VLD4LNq16_UPD : VLD4LNWB<0b0111, {?,?,1,?}, "16"> {
 927   let Inst{7-6} = lane{1-0};
 928 }
 929 def VLD4LNq32_UPD : VLD4LNWB<0b1011, {?,1,?,?}, "32"> {
 930   let Inst{7}   = lane{0};
 931   let Inst{5} = Rn{5};
 932 }
 933
 934 def VLD4LNq16Pseudo_UPD : VLDQQQQLNWBPseudo<IIC_VLD4lnu>;
 935 def VLD4LNq32Pseudo_UPD : VLDQQQQLNWBPseudo<IIC_VLD4lnu>;
 936
 937 } // mayLoad = 1, neverHasSideEffects = 1, hasExtraDefRegAllocReq = 1
 938
 939 //   VLD1DUP  : Vector Load (single element to all lanes)
 940 class VLD1DUP<bits<4> op7_4, string Dt, ValueType Ty, PatFrag LoadOp>
 941   : NLdSt<1, 0b10, 0b1100, op7_4, (outs DPR:$Vd), (ins addrmode6dup:$Rn),
 942           IIC_VLD1dup, "vld1", Dt, "\\{$Vd[]\\}, $Rn", "",
 943           [(set DPR:$Vd, (Ty (NEONvdup (i32 (LoadOp addrmode6dup:$Rn)))))]> {
 944   let Rm = 0b1111;
 945   let Inst{4} = Rn{4};
 946   let DecoderMethod = "DecodeVLD1DupInstruction";
 947 }
 948 class VLD1QDUPPseudo<ValueType Ty, PatFrag LoadOp> : VLDQPseudo<IIC_VLD1dup> {
 949   let Pattern = [(set QPR:$dst,
 950                       (Ty (NEONvdup (i32 (LoadOp addrmode6dup:$addr)))))];
 951 }
 952
 953 def VLD1DUPd8  : VLD1DUP<{0,0,0,?}, "8", v8i8, extloadi8>;
 954 def VLD1DUPd16 : VLD1DUP<{0,1,0,?}, "16", v4i16, extloadi16>;
 955 def VLD1DUPd32 : VLD1DUP<{1,0,0,?}, "32", v2i32, load>;
 956
 957 def VLD1DUPq8Pseudo  : VLD1QDUPPseudo<v16i8, extloadi8>;
 958 def VLD1DUPq16Pseudo : VLD1QDUPPseudo<v8i16, extloadi16>;
 959 def VLD1DUPq32Pseudo : VLD1QDUPPseudo<v4i32, load>;
 960
 961 def : Pat<(v2f32 (NEONvdup (f32 (load addrmode6dup:$addr)))),
 962           (VLD1DUPd32 addrmode6:$addr)>;
 963 def : Pat<(v4f32 (NEONvdup (f32 (load addrmode6dup:$addr)))),
 964           (VLD1DUPq32Pseudo addrmode6:$addr)>;
 965
 966 let mayLoad = 1, neverHasSideEffects = 1, hasExtraDefRegAllocReq = 1 in {
 967
 968 class VLD1QDUP<bits<4> op7_4, string Dt>
 969   : NLdSt<1, 0b10, 0b1100, op7_4, (outs DPR:$Vd, DPR:$dst2),
 970           (ins addrmode6dup:$Rn), IIC_VLD1dup,
 971           "vld1", Dt, "\\{$Vd[], $dst2[]\\}, $Rn", "", []> {
 972   let Rm = 0b1111;
 973   let Inst{4} = Rn{4};
 974   let DecoderMethod = "DecodeVLD1DupInstruction";
 975 }
 976
 977 def VLD1DUPq8  : VLD1QDUP<{0,0,1,0}, "8">;
 978 def VLD1DUPq16 : VLD1QDUP<{0,1,1,?}, "16">;
 979 def VLD1DUPq32 : VLD1QDUP<{1,0,1,?}, "32">;
 980
 981 // ...with address register writeback:
 982 class VLD1DUPWB<bits<4> op7_4, string Dt>
 983   : NLdSt<1, 0b10, 0b1100, op7_4, (outs DPR:$Vd, GPR:$wb),
 984           (ins addrmode6dup:$Rn, am6offset:$Rm), IIC_VLD1dupu,
 985           "vld1", Dt, "\\{$Vd[]\\}, $Rn$Rm", "$Rn.addr = $wb", []> {
 986   let Inst{4} = Rn{4};
 987   let DecoderMethod = "DecodeVLD1DupInstruction";
 988 }
 989 class VLD1QDUPWB<bits<4> op7_4, string Dt>
 990   : NLdSt<1, 0b10, 0b1100, op7_4, (outs DPR:$Vd, DPR:$dst2, GPR:$wb),
 991           (ins addrmode6dup:$Rn, am6offset:$Rm), IIC_VLD1dupu,
 992           "vld1", Dt, "\\{$Vd[], $dst2[]\\}, $Rn$Rm", "$Rn.addr = $wb", []> {
 993   let Inst{4} = Rn{4};
 994   let DecoderMethod = "DecodeVLD1DupInstruction";
 995 }
 996
 997 def VLD1DUPd8_UPD  : VLD1DUPWB<{0,0,0,0}, "8">;
 998 def VLD1DUPd16_UPD : VLD1DUPWB<{0,1,0,?}, "16">;
 999 def VLD1DUPd32_UPD : VLD1DUPWB<{1,0,0,?}, "32">;
1000
1001 def VLD1DUPq8_UPD  : VLD1QDUPWB<{0,0,1,0}, "8">;
1002 def VLD1DUPq16_UPD : VLD1QDUPWB<{0,1,1,?}, "16">;
1003 def VLD1DUPq32_UPD : VLD1QDUPWB<{1,0,1,?}, "32">;
1004
1005 def VLD1DUPq8Pseudo_UPD  : VLDQWBPseudo<IIC_VLD1dupu>;
1006 def VLD1DUPq16Pseudo_UPD : VLDQWBPseudo<IIC_VLD1dupu>;
1007 def VLD1DUPq32Pseudo_UPD : VLDQWBPseudo<IIC_VLD1dupu>;
1008
1009 //   VLD2DUP  : Vector Load (single 2-element structure to all lanes)
1010 class VLD2DUP<bits<4> op7_4, string Dt>
1011   : NLdSt<1, 0b10, 0b1101, op7_4, (outs DPR:$Vd, DPR:$dst2),
1012           (ins addrmode6dup:$Rn), IIC_VLD2dup,
1013           "vld2", Dt, "\\{$Vd[], $dst2[]\\}, $Rn", "", []> {
1014   let Rm = 0b1111;
1015   let Inst{4} = Rn{4};
1016   let DecoderMethod = "DecodeVLD2DupInstruction";
1017 }
1018
1019 def VLD2DUPd8  : VLD2DUP<{0,0,0,?}, "8">;
1020 def VLD2DUPd16 : VLD2DUP<{0,1,0,?}, "16">;
1021 def VLD2DUPd32 : VLD2DUP<{1,0,0,?}, "32">;
1022
1023 def VLD2DUPd8Pseudo  : VLDQPseudo<IIC_VLD2dup>;
1024 def VLD2DUPd16Pseudo : VLDQPseudo<IIC_VLD2dup>;
1025 def VLD2DUPd32Pseudo : VLDQPseudo<IIC_VLD2dup>;
1026
1027 // ...with double-spaced registers (not used for codegen):
1028 def VLD2DUPd8x2  : VLD2DUP<{0,0,1,?}, "8">;
1029 def VLD2DUPd16x2 : VLD2DUP<{0,1,1,?}, "16">;
1030 def VLD2DUPd32x2 : VLD2DUP<{1,0,1,?}, "32">;
1031
1032 // ...with address register writeback:
1033 class VLD2DUPWB<bits<4> op7_4, string Dt>
1034   : NLdSt<1, 0b10, 0b1101, op7_4, (outs DPR:$Vd, DPR:$dst2, GPR:$wb),
1035           (ins addrmode6dup:$Rn, am6offset:$Rm), IIC_VLD2dupu,
1036           "vld2", Dt, "\\{$Vd[], $dst2[]\\}, $Rn$Rm", "$Rn.addr = $wb", []> {
1037   let Inst{4} = Rn{4};
1038   let DecoderMethod = "DecodeVLD2DupInstruction";
1039 }
1040
1041 def VLD2DUPd8_UPD  : VLD2DUPWB<{0,0,0,0}, "8">;
1042 def VLD2DUPd16_UPD : VLD2DUPWB<{0,1,0,?}, "16">;
1043 def VLD2DUPd32_UPD : VLD2DUPWB<{1,0,0,?}, "32">;
1044
1045 def VLD2DUPd8x2_UPD  : VLD2DUPWB<{0,0,1,0}, "8">;
1046 def VLD2DUPd16x2_UPD : VLD2DUPWB<{0,1,1,?}, "16">;
1047 def VLD2DUPd32x2_UPD : VLD2DUPWB<{1,0,1,?}, "32">;
1048
1049 def VLD2DUPd8Pseudo_UPD  : VLDQWBPseudo<IIC_VLD2dupu>;
1050 def VLD2DUPd16Pseudo_UPD : VLDQWBPseudo<IIC_VLD2dupu>;
1051 def VLD2DUPd32Pseudo_UPD : VLDQWBPseudo<IIC_VLD2dupu>;
1052
1053 //   VLD3DUP  : Vector Load (single 3-element structure to all lanes)
1054 class VLD3DUP<bits<4> op7_4, string Dt>
1055   : NLdSt<1, 0b10, 0b1110, op7_4, (outs DPR:$Vd, DPR:$dst2, DPR:$dst3),
1056           (ins addrmode6dup:$Rn), IIC_VLD3dup,
1057           "vld3", Dt, "\\{$Vd[], $dst2[], $dst3[]\\}, $Rn", "", []> {
1058   let Rm = 0b1111;
1059   let Inst{4} = 0;
1060   let DecoderMethod = "DecodeVLD3DupInstruction";
1061 }
1062
1063 def VLD3DUPd8  : VLD3DUP<{0,0,0,?}, "8">;
1064 def VLD3DUPd16 : VLD3DUP<{0,1,0,?}, "16">;
1065 def VLD3DUPd32 : VLD3DUP<{1,0,0,?}, "32">;
1066
1067 def VLD3DUPd8Pseudo  : VLDQQPseudo<IIC_VLD3dup>;
1068 def VLD3DUPd16Pseudo : VLDQQPseudo<IIC_VLD3dup>;
1069 def VLD3DUPd32Pseudo : VLDQQPseudo<IIC_VLD3dup>;
1070
1071 // ...with double-spaced registers (not used for codegen):
1072 def VLD3DUPd8x2  : VLD3DUP<{0,0,1,?}, "8">;
1073 def VLD3DUPd16x2 : VLD3DUP<{0,1,1,?}, "16">;
1074 def VLD3DUPd32x2 : VLD3DUP<{1,0,1,?}, "32">;
1075
1076 // ...with address register writeback:
1077 class VLD3DUPWB<bits<4> op7_4, string Dt>
1078   : NLdSt<1, 0b10, 0b1110, op7_4, (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, GPR:$wb),
1079           (ins addrmode6dup:$Rn, am6offset:$Rm), IIC_VLD3dupu,
1080           "vld3", Dt, "\\{$Vd[], $dst2[], $dst3[]\\}, $Rn$Rm",
1081           "$Rn.addr = $wb", []> {
1082   let Inst{4} = 0;
1083   let DecoderMethod = "DecodeVLD3DupInstruction";
1084 }
1085
1086 def VLD3DUPd8_UPD  : VLD3DUPWB<{0,0,0,0}, "8">;
1087 def VLD3DUPd16_UPD : VLD3DUPWB<{0,1,0,?}, "16">;
1088 def VLD3DUPd32_UPD : VLD3DUPWB<{1,0,0,?}, "32">;
1089
1090 def VLD3DUPd8x2_UPD  : VLD3DUPWB<{0,0,1,0}, "8">;
1091 def VLD3DUPd16x2_UPD : VLD3DUPWB<{0,1,1,?}, "16">;
1092 def VLD3DUPd32x2_UPD : VLD3DUPWB<{1,0,1,?}, "32">;
1093
1094 def VLD3DUPd8Pseudo_UPD  : VLDQQWBPseudo<IIC_VLD3dupu>;
1095 def VLD3DUPd16Pseudo_UPD : VLDQQWBPseudo<IIC_VLD3dupu>;
1096 def VLD3DUPd32Pseudo_UPD : VLDQQWBPseudo<IIC_VLD3dupu>;
1097
1098 //   VLD4DUP  : Vector Load (single 4-element structure to all lanes)
1099 class VLD4DUP<bits<4> op7_4, string Dt>
1100   : NLdSt<1, 0b10, 0b1111, op7_4,
1101           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4),
1102           (ins addrmode6dup:$Rn), IIC_VLD4dup,
1103           "vld4", Dt, "\\{$Vd[], $dst2[], $dst3[], $dst4[]\\}, $Rn", "", []> {
1104   let Rm = 0b1111;
1105   let Inst{4} = Rn{4};
1106   let DecoderMethod = "DecodeVLD4DupInstruction";
1107 }
1108
1109 def VLD4DUPd8  : VLD4DUP<{0,0,0,?}, "8">;
1110 def VLD4DUPd16 : VLD4DUP<{0,1,0,?}, "16">;
1111 def VLD4DUPd32 : VLD4DUP<{1,?,0,?}, "32"> { let Inst{6} = Rn{5}; }
1112
1113 def VLD4DUPd8Pseudo  : VLDQQPseudo<IIC_VLD4dup>;
1114 def VLD4DUPd16Pseudo : VLDQQPseudo<IIC_VLD4dup>;
1115 def VLD4DUPd32Pseudo : VLDQQPseudo<IIC_VLD4dup>;
1116
1117 // ...with double-spaced registers (not used for codegen):
1118 def VLD4DUPd8x2  : VLD4DUP<{0,0,1,?}, "8">;
1119 def VLD4DUPd16x2 : VLD4DUP<{0,1,1,?}, "16">;
1120 def VLD4DUPd32x2 : VLD4DUP<{1,?,1,?}, "32"> { let Inst{6} = Rn{5}; }
1121
1122 // ...with address register writeback:
1123 class VLD4DUPWB<bits<4> op7_4, string Dt>
1124   : NLdSt<1, 0b10, 0b1111, op7_4,
1125           (outs DPR:$Vd, DPR:$dst2, DPR:$dst3, DPR:$dst4, GPR:$wb),
1126           (ins addrmode6dup:$Rn, am6offset:$Rm), IIC_VLD4dupu,
1127           "vld4", Dt, "\\{$Vd[], $dst2[], $dst3[], $dst4[]\\}, $Rn$Rm",
1128           "$Rn.addr = $wb", []> {
1129   let Inst{4} = Rn{4};
1130   let DecoderMethod = "DecodeVLD4DupInstruction";
1131 }
1132
1133 def VLD4DUPd8_UPD  : VLD4DUPWB<{0,0,0,0}, "8">;
1134 def VLD4DUPd16_UPD : VLD4DUPWB<{0,1,0,?}, "16">;
1135 def VLD4DUPd32_UPD : VLD4DUPWB<{1,?,0,?}, "32"> { let Inst{6} = Rn{5}; }
1136
1137 def VLD4DUPd8x2_UPD  : VLD4DUPWB<{0,0,1,0}, "8">;
1138 def VLD4DUPd16x2_UPD : VLD4DUPWB<{0,1,1,?}, "16">;
1139 def VLD4DUPd32x2_UPD : VLD4DUPWB<{1,?,1,?}, "32"> { let Inst{6} = Rn{5}; }
1140
1141 def VLD4DUPd8Pseudo_UPD  : VLDQQWBPseudo<IIC_VLD4dupu>;
1142 def VLD4DUPd16Pseudo_UPD : VLDQQWBPseudo<IIC_VLD4dupu>;
1143 def VLD4DUPd32Pseudo_UPD : VLDQQWBPseudo<IIC_VLD4dupu>;
1144
1145 } // mayLoad = 1, neverHasSideEffects = 1, hasExtraDefRegAllocReq = 1
1146
1147 let mayStore = 1, neverHasSideEffects = 1, hasExtraSrcRegAllocReq = 1 in {
1148
1149 // Classes for VST* pseudo-instructions with multi-register operands.
1150 // These are expanded to real instructions after register allocation.
1151 class VSTQPseudo<InstrItinClass itin>
1152   : PseudoNLdSt<(outs), (ins addrmode6:$addr, QPR:$src), itin, "">;
1153 class VSTQWBPseudo<InstrItinClass itin>
1154   : PseudoNLdSt<(outs GPR:$wb),
1155                 (ins addrmode6:$addr, am6offset:$offset, QPR:$src), itin,
1156                 "$addr.addr = $wb">;
1157 class VSTQQPseudo<InstrItinClass itin>
1158   : PseudoNLdSt<(outs), (ins addrmode6:$addr, QQPR:$src), itin, "">;
1159 class VSTQQWBPseudo<InstrItinClass itin>
1160   : PseudoNLdSt<(outs GPR:$wb),
1161                 (ins addrmode6:$addr, am6offset:$offset, QQPR:$src), itin,
1162                 "$addr.addr = $wb">;
1163 class VSTQQQQPseudo<InstrItinClass itin>
1164   : PseudoNLdSt<(outs), (ins addrmode6:$addr, QQQQPR:$src), itin, "">;
1165 class VSTQQQQWBPseudo<InstrItinClass itin>
1166   : PseudoNLdSt<(outs GPR:$wb),
1167                 (ins addrmode6:$addr, am6offset:$offset, QQQQPR:$src), itin,
1168                 "$addr.addr = $wb">;
1169
1170 //   VST1     : Vector Store (multiple single elements)
1171 class VST1D<bits<4> op7_4, string Dt>
1172   : NLdSt<0,0b00,0b0111,op7_4, (outs), (ins addrmode6:$Rn, VecListOneD:$Vd),
1173           IIC_VST1, "vst1", Dt, "$Vd, $Rn", "", []> {
1174   let Rm = 0b1111;
1175   let Inst{4} = Rn{4};
1176   let DecoderMethod = "DecodeVSTInstruction";
1177 }
1178 class VST1Q<bits<4> op7_4, string Dt>
1179   : NLdSt<0,0b00,0b1010,op7_4, (outs),
1180           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2), IIC_VST1x2,
1181           "vst1", Dt, "\\{$Vd, $src2\\}, $Rn", "", []> {
1182   let Rm = 0b1111;
1183   let Inst{5-4} = Rn{5-4};
1184   let DecoderMethod = "DecodeVSTInstruction";
1185 }
1186
1187 def  VST1d8   : VST1D<{0,0,0,?}, "8">;
1188 def  VST1d16  : VST1D<{0,1,0,?}, "16">;
1189 def  VST1d32  : VST1D<{1,0,0,?}, "32">;
1190 def  VST1d64  : VST1D<{1,1,0,?}, "64">;
1191
1192 def  VST1q8   : VST1Q<{0,0,?,?}, "8">;
1193 def  VST1q16  : VST1Q<{0,1,?,?}, "16">;
1194 def  VST1q32  : VST1Q<{1,0,?,?}, "32">;
1195 def  VST1q64  : VST1Q<{1,1,?,?}, "64">;
1196
1197 def  VST1q8Pseudo  : VSTQPseudo<IIC_VST1x2>;
1198 def  VST1q16Pseudo : VSTQPseudo<IIC_VST1x2>;
1199 def  VST1q32Pseudo : VSTQPseudo<IIC_VST1x2>;
1200 def  VST1q64Pseudo : VSTQPseudo<IIC_VST1x2>;
1201
1202 // ...with address register writeback:
1203 class VST1DWB<bits<4> op7_4, string Dt>
1204   : NLdSt<0, 0b00, 0b0111, op7_4, (outs GPR:$wb),
1205           (ins addrmode6:$Rn, am6offset:$Rm, DPR:$Vd), IIC_VST1u,
1206           "vst1", Dt, "\\{$Vd\\}, $Rn$Rm", "$Rn.addr = $wb", []> {
1207   let Inst{4} = Rn{4};
1208   let DecoderMethod = "DecodeVSTInstruction";
1209 }
1210 class VST1QWB<bits<4> op7_4, string Dt>
1211   : NLdSt<0, 0b00, 0b1010, op7_4, (outs GPR:$wb),
1212           (ins addrmode6:$Rn, am6offset:$Rm, DPR:$Vd, DPR:$src2),
1213           IIC_VST1x2u, "vst1", Dt, "\\{$Vd, $src2\\}, $Rn$Rm",
1214           "$Rn.addr = $wb", []> {
1215   let Inst{5-4} = Rn{5-4};
1216   let DecoderMethod = "DecodeVSTInstruction";
1217 }
1218
1219 def VST1d8_UPD  : VST1DWB<{0,0,0,?}, "8">;
1220 def VST1d16_UPD : VST1DWB<{0,1,0,?}, "16">;
1221 def VST1d32_UPD : VST1DWB<{1,0,0,?}, "32">;
1222 def VST1d64_UPD : VST1DWB<{1,1,0,?}, "64">;
1223
1224 def VST1q8_UPD  : VST1QWB<{0,0,?,?}, "8">;
1225 def VST1q16_UPD : VST1QWB<{0,1,?,?}, "16">;
1226 def VST1q32_UPD : VST1QWB<{1,0,?,?}, "32">;
1227 def VST1q64_UPD : VST1QWB<{1,1,?,?}, "64">;
1228
1229 def VST1q8Pseudo_UPD  : VSTQWBPseudo<IIC_VST1x2u>;
1230 def VST1q16Pseudo_UPD : VSTQWBPseudo<IIC_VST1x2u>;
1231 def VST1q32Pseudo_UPD : VSTQWBPseudo<IIC_VST1x2u>;
1232 def VST1q64Pseudo_UPD : VSTQWBPseudo<IIC_VST1x2u>;
1233
1234 // ...with 3 registers
1235 class VST1D3<bits<4> op7_4, string Dt>
1236   : NLdSt<0, 0b00, 0b0110, op7_4, (outs),
1237           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3),
1238           IIC_VST1x3, "vst1", Dt, "\\{$Vd, $src2, $src3\\}, $Rn", "", []> {
1239   let Rm = 0b1111;
1240   let Inst{4} = Rn{4};
1241   let DecoderMethod = "DecodeVSTInstruction";
1242 }
1243 class VST1D3WB<bits<4> op7_4, string Dt>
1244   : NLdSt<0, 0b00, 0b0110, op7_4, (outs GPR:$wb),
1245           (ins addrmode6:$Rn, am6offset:$Rm,
1246            DPR:$Vd, DPR:$src2, DPR:$src3),
1247           IIC_VST1x3u, "vst1", Dt, "\\{$Vd, $src2, $src3\\}, $Rn$Rm",
1248           "$Rn.addr = $wb", []> {
1249   let Inst{4} = Rn{4};
1250   let DecoderMethod = "DecodeVSTInstruction";
1251 }
1252
1253 def VST1d8T      : VST1D3<{0,0,0,?}, "8">;
1254 def VST1d16T     : VST1D3<{0,1,0,?}, "16">;
1255 def VST1d32T     : VST1D3<{1,0,0,?}, "32">;
1256 def VST1d64T     : VST1D3<{1,1,0,?}, "64">;
1257
1258 def VST1d8T_UPD  : VST1D3WB<{0,0,0,?}, "8">;
1259 def VST1d16T_UPD : VST1D3WB<{0,1,0,?}, "16">;
1260 def VST1d32T_UPD : VST1D3WB<{1,0,0,?}, "32">;
1261 def VST1d64T_UPD : VST1D3WB<{1,1,0,?}, "64">;
1262
1263 def VST1d64TPseudo     : VSTQQPseudo<IIC_VST1x3>;
1264 def VST1d64TPseudo_UPD : VSTQQWBPseudo<IIC_VST1x3u>;
1265
1266 // ...with 4 registers
1267 class VST1D4<bits<4> op7_4, string Dt>
1268   : NLdSt<0, 0b00, 0b0010, op7_4, (outs),
1269           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4),
1270           IIC_VST1x4, "vst1", Dt, "\\{$Vd, $src2, $src3, $src4\\}, $Rn", "",
1271           []> {
1272   let Rm = 0b1111;
1273   let Inst{5-4} = Rn{5-4};
1274   let DecoderMethod = "DecodeVSTInstruction";
1275 }
1276 class VST1D4WB<bits<4> op7_4, string Dt>
1277   : NLdSt<0, 0b00, 0b0010, op7_4, (outs GPR:$wb),
1278           (ins addrmode6:$Rn, am6offset:$Rm,
1279            DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4), IIC_VST1x4u,
1280           "vst1", Dt, "\\{$Vd, $src2, $src3, $src4\\}, $Rn$Rm",
1281           "$Rn.addr = $wb", []> {
1282   let Inst{5-4} = Rn{5-4};
1283   let DecoderMethod = "DecodeVSTInstruction";
1284 }
1285
1286 def VST1d8Q      : VST1D4<{0,0,?,?}, "8">;
1287 def VST1d16Q     : VST1D4<{0,1,?,?}, "16">;
1288 def VST1d32Q     : VST1D4<{1,0,?,?}, "32">;
1289 def VST1d64Q     : VST1D4<{1,1,?,?}, "64">;
1290
1291 def VST1d8Q_UPD  : VST1D4WB<{0,0,?,?}, "8">;
1292 def VST1d16Q_UPD : VST1D4WB<{0,1,?,?}, "16">;
1293 def VST1d32Q_UPD : VST1D4WB<{1,0,?,?}, "32">;
1294 def VST1d64Q_UPD : VST1D4WB<{1,1,?,?}, "64">;
1295
1296 def VST1d64QPseudo     : VSTQQPseudo<IIC_VST1x4>;
1297 def VST1d64QPseudo_UPD : VSTQQWBPseudo<IIC_VST1x4u>;
1298
1299 //   VST2     : Vector Store (multiple 2-element structures)
1300 class VST2D<bits<4> op11_8, bits<4> op7_4, string Dt>
1301   : NLdSt<0, 0b00, op11_8, op7_4, (outs),
1302           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2),
1303           IIC_VST2, "vst2", Dt, "\\{$Vd, $src2\\}, $Rn", "", []> {
1304   let Rm = 0b1111;
1305   let Inst{5-4} = Rn{5-4};
1306   let DecoderMethod = "DecodeVSTInstruction";
1307 }
1308 class VST2Q<bits<4> op7_4, string Dt>
1309   : NLdSt<0, 0b00, 0b0011, op7_4, (outs),
1310           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4),
1311           IIC_VST2x2, "vst2", Dt, "\\{$Vd, $src2, $src3, $src4\\}, $Rn",
1312           "", []> {
1313   let Rm = 0b1111;
1314   let Inst{5-4} = Rn{5-4};
1315   let DecoderMethod = "DecodeVSTInstruction";
1316 }
1317
1318 def  VST2d8   : VST2D<0b1000, {0,0,?,?}, "8">;
1319 def  VST2d16  : VST2D<0b1000, {0,1,?,?}, "16">;
1320 def  VST2d32  : VST2D<0b1000, {1,0,?,?}, "32">;
1321
1322 def  VST2q8   : VST2Q<{0,0,?,?}, "8">;
1323 def  VST2q16  : VST2Q<{0,1,?,?}, "16">;
1324 def  VST2q32  : VST2Q<{1,0,?,?}, "32">;
1325
1326 def  VST2d8Pseudo  : VSTQPseudo<IIC_VST2>;
1327 def  VST2d16Pseudo : VSTQPseudo<IIC_VST2>;
1328 def  VST2d32Pseudo : VSTQPseudo<IIC_VST2>;
1329
1330 def  VST2q8Pseudo  : VSTQQPseudo<IIC_VST2x2>;
1331 def  VST2q16Pseudo : VSTQQPseudo<IIC_VST2x2>;
1332 def  VST2q32Pseudo : VSTQQPseudo<IIC_VST2x2>;
1333
1334 // ...with address register writeback:
1335 class VST2DWB<bits<4> op11_8, bits<4> op7_4, string Dt>
1336   : NLdSt<0, 0b00, op11_8, op7_4, (outs GPR:$wb),
1337           (ins addrmode6:$Rn, am6offset:$Rm, DPR:$Vd, DPR:$src2),
1338           IIC_VST2u, "vst2", Dt, "\\{$Vd, $src2\\}, $Rn$Rm",
1339           "$Rn.addr = $wb", []> {
1340   let Inst{5-4} = Rn{5-4};
1341   let DecoderMethod = "DecodeVSTInstruction";
1342 }
1343 class VST2QWB<bits<4> op7_4, string Dt>
1344   : NLdSt<0, 0b00, 0b0011, op7_4, (outs GPR:$wb),
1345           (ins addrmode6:$Rn, am6offset:$Rm,
1346            DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4), IIC_VST2x2u,
1347           "vst2", Dt, "\\{$Vd, $src2, $src3, $src4\\}, $Rn$Rm",
1348           "$Rn.addr = $wb", []> {
1349   let Inst{5-4} = Rn{5-4};
1350   let DecoderMethod = "DecodeVSTInstruction";
1351 }
1352
1353 def VST2d8_UPD  : VST2DWB<0b1000, {0,0,?,?}, "8">;
1354 def VST2d16_UPD : VST2DWB<0b1000, {0,1,?,?}, "16">;
1355 def VST2d32_UPD : VST2DWB<0b1000, {1,0,?,?}, "32">;
1356
1357 def VST2q8_UPD  : VST2QWB<{0,0,?,?}, "8">;
1358 def VST2q16_UPD : VST2QWB<{0,1,?,?}, "16">;
1359 def VST2q32_UPD : VST2QWB<{1,0,?,?}, "32">;
1360
1361 def VST2d8Pseudo_UPD  : VSTQWBPseudo<IIC_VST2u>;
1362 def VST2d16Pseudo_UPD : VSTQWBPseudo<IIC_VST2u>;
1363 def VST2d32Pseudo_UPD : VSTQWBPseudo<IIC_VST2u>;
1364
1365 def VST2q8Pseudo_UPD  : VSTQQWBPseudo<IIC_VST2x2u>;
1366 def VST2q16Pseudo_UPD : VSTQQWBPseudo<IIC_VST2x2u>;
1367 def VST2q32Pseudo_UPD : VSTQQWBPseudo<IIC_VST2x2u>;
1368
1369 // ...with double-spaced registers
1370 def VST2b8      : VST2D<0b1001, {0,0,?,?}, "8">;
1371 def VST2b16     : VST2D<0b1001, {0,1,?,?}, "16">;
1372 def VST2b32     : VST2D<0b1001, {1,0,?,?}, "32">;
1373 def VST2b8_UPD  : VST2DWB<0b1001, {0,0,?,?}, "8">;
1374 def VST2b16_UPD : VST2DWB<0b1001, {0,1,?,?}, "16">;
1375 def VST2b32_UPD : VST2DWB<0b1001, {1,0,?,?}, "32">;
1376
1377 //   VST3     : Vector Store (multiple 3-element structures)
1378 class VST3D<bits<4> op11_8, bits<4> op7_4, string Dt>
1379   : NLdSt<0, 0b00, op11_8, op7_4, (outs),
1380           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3), IIC_VST3,
1381           "vst3", Dt, "\\{$Vd, $src2, $src3\\}, $Rn", "", []> {
1382   let Rm = 0b1111;
1383   let Inst{4} = Rn{4};
1384   let DecoderMethod = "DecodeVSTInstruction";
1385 }
1386
1387 def  VST3d8   : VST3D<0b0100, {0,0,0,?}, "8">;
1388 def  VST3d16  : VST3D<0b0100, {0,1,0,?}, "16">;
1389 def  VST3d32  : VST3D<0b0100, {1,0,0,?}, "32">;
1390
1391 def  VST3d8Pseudo  : VSTQQPseudo<IIC_VST3>;
1392 def  VST3d16Pseudo : VSTQQPseudo<IIC_VST3>;
1393 def  VST3d32Pseudo : VSTQQPseudo<IIC_VST3>;
1394
1395 // ...with address register writeback:
1396 class VST3DWB<bits<4> op11_8, bits<4> op7_4, string Dt>
1397   : NLdSt<0, 0b00, op11_8, op7_4, (outs GPR:$wb),
1398           (ins addrmode6:$Rn, am6offset:$Rm,
1399            DPR:$Vd, DPR:$src2, DPR:$src3), IIC_VST3u,
1400           "vst3", Dt, "\\{$Vd, $src2, $src3\\}, $Rn$Rm",
1401           "$Rn.addr = $wb", []> {
1402   let Inst{4} = Rn{4};
1403   let DecoderMethod = "DecodeVSTInstruction";
1404 }
1405
1406 def VST3d8_UPD  : VST3DWB<0b0100, {0,0,0,?}, "8">;
1407 def VST3d16_UPD : VST3DWB<0b0100, {0,1,0,?}, "16">;
1408 def VST3d32_UPD : VST3DWB<0b0100, {1,0,0,?}, "32">;
1409
1410 def VST3d8Pseudo_UPD  : VSTQQWBPseudo<IIC_VST3u>;
1411 def VST3d16Pseudo_UPD : VSTQQWBPseudo<IIC_VST3u>;
1412 def VST3d32Pseudo_UPD : VSTQQWBPseudo<IIC_VST3u>;
1413
1414 // ...with double-spaced registers:
1415 def VST3q8      : VST3D<0b0101, {0,0,0,?}, "8">;
1416 def VST3q16     : VST3D<0b0101, {0,1,0,?}, "16">;
1417 def VST3q32     : VST3D<0b0101, {1,0,0,?}, "32">;
1418 def VST3q8_UPD  : VST3DWB<0b0101, {0,0,0,?}, "8">;
1419 def VST3q16_UPD : VST3DWB<0b0101, {0,1,0,?}, "16">;
1420 def VST3q32_UPD : VST3DWB<0b0101, {1,0,0,?}, "32">;
1421
1422 def VST3q8Pseudo_UPD  : VSTQQQQWBPseudo<IIC_VST3u>;
1423 def VST3q16Pseudo_UPD : VSTQQQQWBPseudo<IIC_VST3u>;
1424 def VST3q32Pseudo_UPD : VSTQQQQWBPseudo<IIC_VST3u>;
1425
1426 // ...alternate versions to be allocated odd register numbers:
1427 def VST3q8oddPseudo   : VSTQQQQPseudo<IIC_VST3>;
1428 def VST3q16oddPseudo  : VSTQQQQPseudo<IIC_VST3>;
1429 def VST3q32oddPseudo  : VSTQQQQPseudo<IIC_VST3>;
1430
1431 def VST3q8oddPseudo_UPD  : VSTQQQQWBPseudo<IIC_VST3u>;
1432 def VST3q16oddPseudo_UPD : VSTQQQQWBPseudo<IIC_VST3u>;
1433 def VST3q32oddPseudo_UPD : VSTQQQQWBPseudo<IIC_VST3u>;
1434
1435 //   VST4     : Vector Store (multiple 4-element structures)
1436 class VST4D<bits<4> op11_8, bits<4> op7_4, string Dt>
1437   : NLdSt<0, 0b00, op11_8, op7_4, (outs),
1438           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4),
1439           IIC_VST4, "vst4", Dt, "\\{$Vd, $src2, $src3, $src4\\}, $Rn",
1440           "", []> {
1441   let Rm = 0b1111;
1442   let Inst{5-4} = Rn{5-4};
1443   let DecoderMethod = "DecodeVSTInstruction";
1444 }
1445
1446 def  VST4d8   : VST4D<0b0000, {0,0,?,?}, "8">;
1447 def  VST4d16  : VST4D<0b0000, {0,1,?,?}, "16">;
1448 def  VST4d32  : VST4D<0b0000, {1,0,?,?}, "32">;
1449
1450 def  VST4d8Pseudo  : VSTQQPseudo<IIC_VST4>;
1451 def  VST4d16Pseudo : VSTQQPseudo<IIC_VST4>;
1452 def  VST4d32Pseudo : VSTQQPseudo<IIC_VST4>;
1453
1454 // ...with address register writeback:
1455 class VST4DWB<bits<4> op11_8, bits<4> op7_4, string Dt>
1456   : NLdSt<0, 0b00, op11_8, op7_4, (outs GPR:$wb),
1457           (ins addrmode6:$Rn, am6offset:$Rm,
1458            DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4), IIC_VST4u,
1459            "vst4", Dt, "\\{$Vd, $src2, $src3, $src4\\}, $Rn$Rm",
1460           "$Rn.addr = $wb", []> {
1461   let Inst{5-4} = Rn{5-4};
1462   let DecoderMethod = "DecodeVSTInstruction";
1463 }
1464
1465 def VST4d8_UPD  : VST4DWB<0b0000, {0,0,?,?}, "8">;
1466 def VST4d16_UPD : VST4DWB<0b0000, {0,1,?,?}, "16">;
1467 def VST4d32_UPD : VST4DWB<0b0000, {1,0,?,?}, "32">;
1468
1469 def VST4d8Pseudo_UPD  : VSTQQWBPseudo<IIC_VST4u>;
1470 def VST4d16Pseudo_UPD : VSTQQWBPseudo<IIC_VST4u>;
1471 def VST4d32Pseudo_UPD : VSTQQWBPseudo<IIC_VST4u>;
1472
1473 // ...with double-spaced registers:
1474 def VST4q8      : VST4D<0b0001, {0,0,?,?}, "8">;
1475 def VST4q16     : VST4D<0b0001, {0,1,?,?}, "16">;
1476 def VST4q32     : VST4D<0b0001, {1,0,?,?}, "32">;
1477 def VST4q8_UPD  : VST4DWB<0b0001, {0,0,?,?}, "8">;
1478 def VST4q16_UPD : VST4DWB<0b0001, {0,1,?,?}, "16">;
1479 def VST4q32_UPD : VST4DWB<0b0001, {1,0,?,?}, "32">;
1480
1481 def VST4q8Pseudo_UPD  : VSTQQQQWBPseudo<IIC_VST4u>;
1482 def VST4q16Pseudo_UPD : VSTQQQQWBPseudo<IIC_VST4u>;
1483 def VST4q32Pseudo_UPD : VSTQQQQWBPseudo<IIC_VST4u>;
1484
1485 // ...alternate versions to be allocated odd register numbers:
1486 def VST4q8oddPseudo   : VSTQQQQPseudo<IIC_VST4>;
1487 def VST4q16oddPseudo  : VSTQQQQPseudo<IIC_VST4>;
1488 def VST4q32oddPseudo  : VSTQQQQPseudo<IIC_VST4>;
1489
1490 def VST4q8oddPseudo_UPD  : VSTQQQQWBPseudo<IIC_VST4u>;
1491 def VST4q16oddPseudo_UPD : VSTQQQQWBPseudo<IIC_VST4u>;
1492 def VST4q32oddPseudo_UPD : VSTQQQQWBPseudo<IIC_VST4u>;
1493
1494 } // mayStore = 1, neverHasSideEffects = 1, hasExtraSrcRegAllocReq = 1
1495
1496 // Classes for VST*LN pseudo-instructions with multi-register operands.
1497 // These are expanded to real instructions after register allocation.
1498 class VSTQLNPseudo<InstrItinClass itin>
1499   : PseudoNLdSt<(outs), (ins addrmode6:$addr, QPR:$src, nohash_imm:$lane),
1500                 itin, "">;
1501 class VSTQLNWBPseudo<InstrItinClass itin>
1502   : PseudoNLdSt<(outs GPR:$wb),
1503                 (ins addrmode6:$addr, am6offset:$offset, QPR:$src,
1504                  nohash_imm:$lane), itin, "$addr.addr = $wb">;
1505 class VSTQQLNPseudo<InstrItinClass itin>
1506   : PseudoNLdSt<(outs), (ins addrmode6:$addr, QQPR:$src, nohash_imm:$lane),
1507                 itin, "">;
1508 class VSTQQLNWBPseudo<InstrItinClass itin>
1509   : PseudoNLdSt<(outs GPR:$wb),
1510                 (ins addrmode6:$addr, am6offset:$offset, QQPR:$src,
1511                  nohash_imm:$lane), itin, "$addr.addr = $wb">;
1512 class VSTQQQQLNPseudo<InstrItinClass itin>
1513   : PseudoNLdSt<(outs), (ins addrmode6:$addr, QQQQPR:$src, nohash_imm:$lane),
1514                 itin, "">;
1515 class VSTQQQQLNWBPseudo<InstrItinClass itin>
1516   : PseudoNLdSt<(outs GPR:$wb),
1517                 (ins addrmode6:$addr, am6offset:$offset, QQQQPR:$src,
1518                  nohash_imm:$lane), itin, "$addr.addr = $wb">;
1519
1520 //   VST1LN   : Vector Store (single element from one lane)
1521 class VST1LN<bits<4> op11_8, bits<4> op7_4, string Dt, ValueType Ty,
1522              PatFrag StoreOp, SDNode ExtractOp>
1523   : NLdStLn<1, 0b00, op11_8, op7_4, (outs),
1524           (ins addrmode6:$Rn, DPR:$Vd, nohash_imm:$lane),
1525           IIC_VST1ln, "vst1", Dt, "\\{$Vd[$lane]\\}, $Rn", "",
1526           [(StoreOp (ExtractOp (Ty DPR:$Vd), imm:$lane), addrmode6:$Rn)]> {
1527   let Rm = 0b1111;
1528   let DecoderMethod = "DecodeVST1LN";
1529 }
1530 class VST1LN32<bits<4> op11_8, bits<4> op7_4, string Dt, ValueType Ty,
1531              PatFrag StoreOp, SDNode ExtractOp>
1532   : NLdStLn<1, 0b00, op11_8, op7_4, (outs),
1533           (ins addrmode6oneL32:$Rn, DPR:$Vd, nohash_imm:$lane),
1534           IIC_VST1ln, "vst1", Dt, "\\{$Vd[$lane]\\}, $Rn", "",
1535           [(StoreOp (ExtractOp (Ty DPR:$Vd), imm:$lane), addrmode6oneL32:$Rn)]>{
1536   let Rm = 0b1111;
1537   let DecoderMethod = "DecodeVST1LN";
1538 }
1539 class VST1QLNPseudo<ValueType Ty, PatFrag StoreOp, SDNode ExtractOp>
1540   : VSTQLNPseudo<IIC_VST1ln> {
1541   let Pattern = [(StoreOp (ExtractOp (Ty QPR:$src), imm:$lane),
1542                           addrmode6:$addr)];
1543 }
1544
1545 def VST1LNd8  : VST1LN<0b0000, {?,?,?,0}, "8", v8i8, truncstorei8,
1546                        NEONvgetlaneu> {
1547   let Inst{7-5} = lane{2-0};
1548 }
1549 def VST1LNd16 : VST1LN<0b0100, {?,?,0,?}, "16", v4i16, truncstorei16,
1550                        NEONvgetlaneu> {
1551   let Inst{7-6} = lane{1-0};
1552   let Inst{4}   = Rn{5};
1553 }
1554
1555 def VST1LNd32 : VST1LN32<0b1000, {?,0,?,?}, "32", v2i32, store, extractelt> {
1556   let Inst{7}   = lane{0};
1557   let Inst{5-4} = Rn{5-4};
1558 }
1559
1560 def VST1LNq8Pseudo  : VST1QLNPseudo<v16i8, truncstorei8, NEONvgetlaneu>;
1561 def VST1LNq16Pseudo : VST1QLNPseudo<v8i16, truncstorei16, NEONvgetlaneu>;
1562 def VST1LNq32Pseudo : VST1QLNPseudo<v4i32, store, extractelt>;
1563
1564 def : Pat<(store (extractelt (v2f32 DPR:$src), imm:$lane), addrmode6:$addr),
1565           (VST1LNd32 addrmode6:$addr, DPR:$src, imm:$lane)>;
1566 def : Pat<(store (extractelt (v4f32 QPR:$src), imm:$lane), addrmode6:$addr),
1567           (VST1LNq32Pseudo addrmode6:$addr, QPR:$src, imm:$lane)>;
1568
1569 // ...with address register writeback:
1570 class VST1LNWB<bits<4> op11_8, bits<4> op7_4, string Dt, ValueType Ty,
1571                PatFrag StoreOp, SDNode ExtractOp>
1572   : NLdStLn<1, 0b00, op11_8, op7_4, (outs GPR:$wb),
1573           (ins addrmode6:$Rn, am6offset:$Rm,
1574            DPR:$Vd, nohash_imm:$lane), IIC_VST1lnu, "vst1", Dt,
1575           "\\{$Vd[$lane]\\}, $Rn$Rm",
1576           "$Rn.addr = $wb",
1577           [(set GPR:$wb, (StoreOp (ExtractOp (Ty DPR:$Vd), imm:$lane),
1578                                   addrmode6:$Rn, am6offset:$Rm))]> {
1579   let DecoderMethod = "DecodeVST1LN";
1580 }
1581 class VST1QLNWBPseudo<ValueType Ty, PatFrag StoreOp, SDNode ExtractOp>
1582   : VSTQLNWBPseudo<IIC_VST1lnu> {
1583   let Pattern = [(set GPR:$wb, (StoreOp (ExtractOp (Ty QPR:$src), imm:$lane),
1584                                         addrmode6:$addr, am6offset:$offset))];
1585 }
1586
1587 def VST1LNd8_UPD  : VST1LNWB<0b0000, {?,?,?,0}, "8", v8i8, post_truncsti8,
1588                              NEONvgetlaneu> {
1589   let Inst{7-5} = lane{2-0};
1590 }
1591 def VST1LNd16_UPD : VST1LNWB<0b0100, {?,?,0,?}, "16", v4i16, post_truncsti16,
1592                              NEONvgetlaneu> {
1593   let Inst{7-6} = lane{1-0};
1594   let Inst{4}   = Rn{5};
1595 }
1596 def VST1LNd32_UPD : VST1LNWB<0b1000, {?,0,?,?}, "32", v2i32, post_store,
1597                              extractelt> {
1598   let Inst{7}   = lane{0};
1599   let Inst{5-4} = Rn{5-4};
1600 }
1601
1602 def VST1LNq8Pseudo_UPD  : VST1QLNWBPseudo<v16i8, post_truncsti8, NEONvgetlaneu>;
1603 def VST1LNq16Pseudo_UPD : VST1QLNWBPseudo<v8i16, post_truncsti16,NEONvgetlaneu>;
1604 def VST1LNq32Pseudo_UPD : VST1QLNWBPseudo<v4i32, post_store, extractelt>;
1605
1606 let mayStore = 1, neverHasSideEffects = 1, hasExtraSrcRegAllocReq = 1 in {
1607
1608 //   VST2LN   : Vector Store (single 2-element structure from one lane)
1609 class VST2LN<bits<4> op11_8, bits<4> op7_4, string Dt>
1610   : NLdStLn<1, 0b00, op11_8, op7_4, (outs),
1611           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, nohash_imm:$lane),
1612           IIC_VST2ln, "vst2", Dt, "\\{$Vd[$lane], $src2[$lane]\\}, $Rn",
1613           "", []> {
1614   let Rm = 0b1111;
1615   let Inst{4}   = Rn{4};
1616   let DecoderMethod = "DecodeVST2LN";
1617 }
1618
1619 def VST2LNd8  : VST2LN<0b0001, {?,?,?,?}, "8"> {
1620   let Inst{7-5} = lane{2-0};
1621 }
1622 def VST2LNd16 : VST2LN<0b0101, {?,?,0,?}, "16"> {
1623   let Inst{7-6} = lane{1-0};
1624 }
1625 def VST2LNd32 : VST2LN<0b1001, {?,0,0,?}, "32"> {
1626   let Inst{7}   = lane{0};
1627 }
1628
1629 def VST2LNd8Pseudo  : VSTQLNPseudo<IIC_VST2ln>;
1630 def VST2LNd16Pseudo : VSTQLNPseudo<IIC_VST2ln>;
1631 def VST2LNd32Pseudo : VSTQLNPseudo<IIC_VST2ln>;
1632
1633 // ...with double-spaced registers:
1634 def VST2LNq16 : VST2LN<0b0101, {?,?,1,?}, "16"> {
1635   let Inst{7-6} = lane{1-0};
1636   let Inst{4}   = Rn{4};
1637 }
1638 def VST2LNq32 : VST2LN<0b1001, {?,1,0,?}, "32"> {
1639   let Inst{7}   = lane{0};
1640   let Inst{4}   = Rn{4};
1641 }
1642
1643 def VST2LNq16Pseudo : VSTQQLNPseudo<IIC_VST2ln>;
1644 def VST2LNq32Pseudo : VSTQQLNPseudo<IIC_VST2ln>;
1645
1646 // ...with address register writeback:
1647 class VST2LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
1648   : NLdStLn<1, 0b00, op11_8, op7_4, (outs GPR:$wb),
1649           (ins addrmode6:$addr, am6offset:$offset,
1650            DPR:$src1, DPR:$src2, nohash_imm:$lane), IIC_VST2lnu, "vst2", Dt,
1651           "\\{$src1[$lane], $src2[$lane]\\}, $addr$offset",
1652           "$addr.addr = $wb", []> {
1653   let Inst{4}   = Rn{4};
1654   let DecoderMethod = "DecodeVST2LN";
1655 }
1656
1657 def VST2LNd8_UPD  : VST2LNWB<0b0001, {?,?,?,?}, "8"> {
1658   let Inst{7-5} = lane{2-0};
1659 }
1660 def VST2LNd16_UPD : VST2LNWB<0b0101, {?,?,0,?}, "16"> {
1661   let Inst{7-6} = lane{1-0};
1662 }
1663 def VST2LNd32_UPD : VST2LNWB<0b1001, {?,0,0,?}, "32"> {
1664   let Inst{7}   = lane{0};
1665 }
1666
1667 def VST2LNd8Pseudo_UPD  : VSTQLNWBPseudo<IIC_VST2lnu>;
1668 def VST2LNd16Pseudo_UPD : VSTQLNWBPseudo<IIC_VST2lnu>;
1669 def VST2LNd32Pseudo_UPD : VSTQLNWBPseudo<IIC_VST2lnu>;
1670
1671 def VST2LNq16_UPD : VST2LNWB<0b0101, {?,?,1,?}, "16"> {
1672   let Inst{7-6} = lane{1-0};
1673 }
1674 def VST2LNq32_UPD : VST2LNWB<0b1001, {?,1,0,?}, "32"> {
1675   let Inst{7}   = lane{0};
1676 }
1677
1678 def VST2LNq16Pseudo_UPD : VSTQQLNWBPseudo<IIC_VST2lnu>;
1679 def VST2LNq32Pseudo_UPD : VSTQQLNWBPseudo<IIC_VST2lnu>;
1680
1681 //   VST3LN   : Vector Store (single 3-element structure from one lane)
1682 class VST3LN<bits<4> op11_8, bits<4> op7_4, string Dt>
1683   : NLdStLn<1, 0b00, op11_8, op7_4, (outs),
1684           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3,
1685            nohash_imm:$lane), IIC_VST3ln, "vst3", Dt,
1686           "\\{$Vd[$lane], $src2[$lane], $src3[$lane]\\}, $Rn", "", []> {
1687   let Rm = 0b1111;
1688   let DecoderMethod = "DecodeVST3LN";
1689 }
1690
1691 def VST3LNd8  : VST3LN<0b0010, {?,?,?,0}, "8"> {
1692   let Inst{7-5} = lane{2-0};
1693 }
1694 def VST3LNd16 : VST3LN<0b0110, {?,?,0,0}, "16"> {
1695   let Inst{7-6} = lane{1-0};
1696 }
1697 def VST3LNd32 : VST3LN<0b1010, {?,0,0,0}, "32"> {
1698   let Inst{7}   = lane{0};
1699 }
1700
1701 def VST3LNd8Pseudo  : VSTQQLNPseudo<IIC_VST3ln>;
1702 def VST3LNd16Pseudo : VSTQQLNPseudo<IIC_VST3ln>;
1703 def VST3LNd32Pseudo : VSTQQLNPseudo<IIC_VST3ln>;
1704
1705 // ...with double-spaced registers:
1706 def VST3LNq16 : VST3LN<0b0110, {?,?,1,0}, "16"> {
1707   let Inst{7-6} = lane{1-0};
1708 }
1709 def VST3LNq32 : VST3LN<0b1010, {?,1,0,0}, "32"> {
1710   let Inst{7}   = lane{0};
1711 }
1712
1713 def VST3LNq16Pseudo : VSTQQQQLNPseudo<IIC_VST3ln>;
1714 def VST3LNq32Pseudo : VSTQQQQLNPseudo<IIC_VST3ln>;
1715
1716 // ...with address register writeback:
1717 class VST3LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
1718   : NLdStLn<1, 0b00, op11_8, op7_4, (outs GPR:$wb),
1719           (ins addrmode6:$Rn, am6offset:$Rm,
1720            DPR:$Vd, DPR:$src2, DPR:$src3, nohash_imm:$lane),
1721           IIC_VST3lnu, "vst3", Dt,
1722           "\\{$Vd[$lane], $src2[$lane], $src3[$lane]\\}, $Rn$Rm",
1723           "$Rn.addr = $wb", []> {
1724   let DecoderMethod = "DecodeVST3LN";
1725 }
1726
1727 def VST3LNd8_UPD  : VST3LNWB<0b0010, {?,?,?,0}, "8"> {
1728   let Inst{7-5} = lane{2-0};
1729 }
1730 def VST3LNd16_UPD : VST3LNWB<0b0110, {?,?,0,0}, "16"> {
1731   let Inst{7-6} = lane{1-0};
1732 }
1733 def VST3LNd32_UPD : VST3LNWB<0b1010, {?,0,0,0}, "32"> {
1734   let Inst{7}   = lane{0};
1735 }
1736
1737 def VST3LNd8Pseudo_UPD  : VSTQQLNWBPseudo<IIC_VST3lnu>;
1738 def VST3LNd16Pseudo_UPD : VSTQQLNWBPseudo<IIC_VST3lnu>;
1739 def VST3LNd32Pseudo_UPD : VSTQQLNWBPseudo<IIC_VST3lnu>;
1740
1741 def VST3LNq16_UPD : VST3LNWB<0b0110, {?,?,1,0}, "16"> {
1742   let Inst{7-6} = lane{1-0};
1743 }
1744 def VST3LNq32_UPD : VST3LNWB<0b1010, {?,1,0,0}, "32"> {
1745   let Inst{7}   = lane{0};
1746 }
1747
1748 def VST3LNq16Pseudo_UPD : VSTQQQQLNWBPseudo<IIC_VST3lnu>;
1749 def VST3LNq32Pseudo_UPD : VSTQQQQLNWBPseudo<IIC_VST3lnu>;
1750
1751 //   VST4LN   : Vector Store (single 4-element structure from one lane)
1752 class VST4LN<bits<4> op11_8, bits<4> op7_4, string Dt>
1753   : NLdStLn<1, 0b00, op11_8, op7_4, (outs),
1754           (ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4,
1755            nohash_imm:$lane), IIC_VST4ln, "vst4", Dt,
1756           "\\{$Vd[$lane], $src2[$lane], $src3[$lane], $src4[$lane]\\}, $Rn",
1757           "", []> {
1758   let Rm = 0b1111;
1759   let Inst{4} = Rn{4};
1760   let DecoderMethod = "DecodeVST4LN";
1761 }
1762
1763 def VST4LNd8  : VST4LN<0b0011, {?,?,?,?}, "8"> {
1764   let Inst{7-5} = lane{2-0};
1765 }
1766 def VST4LNd16 : VST4LN<0b0111, {?,?,0,?}, "16"> {
1767   let Inst{7-6} = lane{1-0};
1768 }
1769 def VST4LNd32 : VST4LN<0b1011, {?,0,?,?}, "32"> {
1770   let Inst{7}   = lane{0};
1771   let Inst{5} = Rn{5};
1772 }
1773
1774 def VST4LNd8Pseudo  : VSTQQLNPseudo<IIC_VST4ln>;
1775 def VST4LNd16Pseudo : VSTQQLNPseudo<IIC_VST4ln>;
1776 def VST4LNd32Pseudo : VSTQQLNPseudo<IIC_VST4ln>;
1777
1778 // ...with double-spaced registers:
1779 def VST4LNq16 : VST4LN<0b0111, {?,?,1,?}, "16"> {
1780   let Inst{7-6} = lane{1-0};
1781 }
1782 def VST4LNq32 : VST4LN<0b1011, {?,1,?,?}, "32"> {
1783   let Inst{7}   = lane{0};
1784   let Inst{5} = Rn{5};
1785 }
1786
1787 def VST4LNq16Pseudo : VSTQQQQLNPseudo<IIC_VST4ln>;
1788 def VST4LNq32Pseudo : VSTQQQQLNPseudo<IIC_VST4ln>;
1789
1790 // ...with address register writeback:
1791 class VST4LNWB<bits<4> op11_8, bits<4> op7_4, string Dt>
1792   : NLdStLn<1, 0b00, op11_8, op7_4, (outs GPR:$wb),
1793           (ins addrmode6:$Rn, am6offset:$Rm,
1794            DPR:$Vd, DPR:$src2, DPR:$src3, DPR:$src4, nohash_imm:$lane),
1795           IIC_VST4lnu, "vst4", Dt,
1796   "\\{$Vd[$lane], $src2[$lane], $src3[$lane], $src4[$lane]\\}, $Rn$Rm",
1797           "$Rn.addr = $wb", []> {
1798   let Inst{4} = Rn{4};
1799   let DecoderMethod = "DecodeVST4LN";
1800 }
1801
1802 def VST4LNd8_UPD  : VST4LNWB<0b0011, {?,?,?,?}, "8"> {
1803   let Inst{7-5} = lane{2-0};
1804 }
1805 def VST4LNd16_UPD : VST4LNWB<0b0111, {?,?,0,?}, "16"> {
1806   let Inst{7-6} = lane{1-0};
1807 }
1808 def VST4LNd32_UPD : VST4LNWB<0b1011, {?,0,?,?}, "32"> {
1809   let Inst{7}   = lane{0};
1810   let Inst{5} = Rn{5};
1811 }
1812
1813 def VST4LNd8Pseudo_UPD  : VSTQQLNWBPseudo<IIC_VST4lnu>;
1814 def VST4LNd16Pseudo_UPD : VSTQQLNWBPseudo<IIC_VST4lnu>;
1815 def VST4LNd32Pseudo_UPD : VSTQQLNWBPseudo<IIC_VST4lnu>;
1816
1817 def VST4LNq16_UPD : VST4LNWB<0b0111, {?,?,1,?}, "16"> {
1818   let Inst{7-6} = lane{1-0};
1819 }
1820 def VST4LNq32_UPD : VST4LNWB<0b1011, {?,1,?,?}, "32"> {
1821   let Inst{7}   = lane{0};
1822   let Inst{5} = Rn{5};
1823 }
1824
1825 def VST4LNq16Pseudo_UPD : VSTQQQQLNWBPseudo<IIC_VST4lnu>;
1826 def VST4LNq32Pseudo_UPD : VSTQQQQLNWBPseudo<IIC_VST4lnu>;
1827
1828 } // mayStore = 1, neverHasSideEffects = 1, hasExtraSrcRegAllocReq = 1
1829
1830
1831 //===----------------------------------------------------------------------===//
1832 // NEON pattern fragments
1833 //===----------------------------------------------------------------------===//
1834
1835 // Extract D sub-registers of Q registers.
1836 def DSubReg_i8_reg  : SDNodeXForm<imm, [{
1837   assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
1838   return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/8, MVT::i32);
1839 }]>;
1840 def DSubReg_i16_reg : SDNodeXForm<imm, [{
1841   assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
1842   return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/4, MVT::i32);
1843 }]>;
1844 def DSubReg_i32_reg : SDNodeXForm<imm, [{
1845   assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
1846   return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/2, MVT::i32);
1847 }]>;
1848 def DSubReg_f64_reg : SDNodeXForm<imm, [{
1849   assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
1850   return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue(), MVT::i32);
1851 }]>;
1852
1853 // Extract S sub-registers of Q/D registers.
1854 def SSubReg_f32_reg : SDNodeXForm<imm, [{
1855   assert(ARM::ssub_3 == ARM::ssub_0+3 && "Unexpected subreg numbering");
1856   return CurDAG->getTargetConstant(ARM::ssub_0 + N->getZExtValue(), MVT::i32);
1857 }]>;
1858
1859 // Translate lane numbers from Q registers to D subregs.
1860 def SubReg_i8_lane  : SDNodeXForm<imm, [{
1861   return CurDAG->getTargetConstant(N->getZExtValue() & 7, MVT::i32);
1862 }]>;
1863 def SubReg_i16_lane : SDNodeXForm<imm, [{
1864   return CurDAG->getTargetConstant(N->getZExtValue() & 3, MVT::i32);
1865 }]>;
1866 def SubReg_i32_lane : SDNodeXForm<imm, [{
1867   return CurDAG->getTargetConstant(N->getZExtValue() & 1, MVT::i32);
1868 }]>;
1869
1870 //===----------------------------------------------------------------------===//
1871 // Instruction Classes
1872 //===----------------------------------------------------------------------===//
1873
1874 // Basic 2-register operations: double- and quad-register.
1875 class N2VD<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1876            bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,
1877            string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>
1878   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$Vd),
1879         (ins DPR:$Vm), IIC_VUNAD, OpcodeStr, Dt,"$Vd, $Vm", "",
1880         [(set DPR:$Vd, (ResTy (OpNode (OpTy DPR:$Vm))))]>;
1881 class N2VQ<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1882            bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,
1883            string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>
1884   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$Vd),
1885         (ins QPR:$Vm), IIC_VUNAQ, OpcodeStr, Dt,"$Vd, $Vm", "",
1886         [(set QPR:$Vd, (ResTy (OpNode (OpTy QPR:$Vm))))]>;
1887
1888 // Basic 2-register intrinsics, both double- and quad-register.
1889 class N2VDInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1890               bits<2> op17_16, bits<5> op11_7, bit op4,
1891               InstrItinClass itin, string OpcodeStr, string Dt,
1892               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
1893   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$Vd),
1894         (ins DPR:$Vm), itin, OpcodeStr, Dt, "$Vd, $Vm", "",
1895         [(set DPR:$Vd, (ResTy (IntOp (OpTy DPR:$Vm))))]>;
1896 class N2VQInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1897               bits<2> op17_16, bits<5> op11_7, bit op4,
1898               InstrItinClass itin, string OpcodeStr, string Dt,
1899               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
1900   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$Vd),
1901         (ins QPR:$Vm), itin, OpcodeStr, Dt, "$Vd, $Vm", "",
1902         [(set QPR:$Vd, (ResTy (IntOp (OpTy QPR:$Vm))))]>;
1903
1904 // Narrow 2-register operations.
1905 class N2VN<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1906            bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,
1907            InstrItinClass itin, string OpcodeStr, string Dt,
1908            ValueType TyD, ValueType TyQ, SDNode OpNode>
1909   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs DPR:$Vd),
1910         (ins QPR:$Vm), itin, OpcodeStr, Dt, "$Vd, $Vm", "",
1911         [(set DPR:$Vd, (TyD (OpNode (TyQ QPR:$Vm))))]>;
1912
1913 // Narrow 2-register intrinsics.
1914 class N2VNInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1915               bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,
1916               InstrItinClass itin, string OpcodeStr, string Dt,
1917               ValueType TyD, ValueType TyQ, Intrinsic IntOp>
1918   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs DPR:$Vd),
1919         (ins QPR:$Vm), itin, OpcodeStr, Dt, "$Vd, $Vm", "",
1920         [(set DPR:$Vd, (TyD (IntOp (TyQ QPR:$Vm))))]>;
1921
1922 // Long 2-register operations (currently only used for VMOVL).
1923 class N2VL<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1924            bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,
1925            InstrItinClass itin, string OpcodeStr, string Dt,
1926            ValueType TyQ, ValueType TyD, SDNode OpNode>
1927   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs QPR:$Vd),
1928         (ins DPR:$Vm), itin, OpcodeStr, Dt, "$Vd, $Vm", "",
1929         [(set QPR:$Vd, (TyQ (OpNode (TyD DPR:$Vm))))]>;
1930
1931 // Long 2-register intrinsics.
1932 class N2VLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1933               bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,
1934               InstrItinClass itin, string OpcodeStr, string Dt,
1935               ValueType TyQ, ValueType TyD, Intrinsic IntOp>
1936   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs QPR:$Vd),
1937         (ins DPR:$Vm), itin, OpcodeStr, Dt, "$Vd, $Vm", "",
1938         [(set QPR:$Vd, (TyQ (IntOp (TyD DPR:$Vm))))]>;
1939
1940 // 2-register shuffles (VTRN/VZIP/VUZP), both double- and quad-register.
1941 class N2VDShuffle<bits<2> op19_18, bits<5> op11_7, string OpcodeStr, string Dt>
1942   : N2V<0b11, 0b11, op19_18, 0b10, op11_7, 0, 0, (outs DPR:$Vd, DPR:$Vm),
1943         (ins DPR:$src1, DPR:$src2), IIC_VPERMD,
1944         OpcodeStr, Dt, "$Vd, $Vm",
1945         "$src1 = $Vd, $src2 = $Vm", []>;
1946 class N2VQShuffle<bits<2> op19_18, bits<5> op11_7,
1947                   InstrItinClass itin, string OpcodeStr, string Dt>
1948   : N2V<0b11, 0b11, op19_18, 0b10, op11_7, 1, 0, (outs QPR:$Vd, QPR:$Vm),
1949         (ins QPR:$src1, QPR:$src2), itin, OpcodeStr, Dt, "$Vd, $Vm",
1950         "$src1 = $Vd, $src2 = $Vm", []>;
1951
1952 // Basic 3-register operations: double- and quad-register.
1953 class N3VD<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
1954            InstrItinClass itin, string OpcodeStr, string Dt,
1955            ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
1956   : N3V<op24, op23, op21_20, op11_8, 0, op4,
1957         (outs DPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
1958         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
1959         [(set DPR:$Vd, (ResTy (OpNode (OpTy DPR:$Vn), (OpTy DPR:$Vm))))]> {
1960   let isCommutable = Commutable;
1961 }
1962 // Same as N3VD but no data type.
1963 class N3VDX<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
1964            InstrItinClass itin, string OpcodeStr,
1965            ValueType ResTy, ValueType OpTy,
1966            SDNode OpNode, bit Commutable>
1967   : N3VX<op24, op23, op21_20, op11_8, 0, op4,
1968          (outs DPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
1969          OpcodeStr, "$Vd, $Vn, $Vm", "",
1970          [(set DPR:$Vd, (ResTy (OpNode (OpTy DPR:$Vn), (OpTy DPR:$Vm))))]>{
1971   let isCommutable = Commutable;
1972 }
1973
1974 class N3VDSL<bits<2> op21_20, bits<4> op11_8,
1975              InstrItinClass itin, string OpcodeStr, string Dt,
1976              ValueType Ty, SDNode ShOp>
1977   : N3VLane32<0, 1, op21_20, op11_8, 1, 0,
1978         (outs DPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
1979         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
1980         [(set (Ty DPR:$Vd),
1981               (Ty (ShOp (Ty DPR:$Vn),
1982                         (Ty (NEONvduplane (Ty DPR_VFP2:$Vm),imm:$lane)))))]> {
1983   let isCommutable = 0;
1984 }
1985 class N3VDSL16<bits<2> op21_20, bits<4> op11_8,
1986                string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
1987   : N3VLane16<0, 1, op21_20, op11_8, 1, 0,
1988         (outs DPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
1989         NVMulSLFrm, IIC_VMULi16D, OpcodeStr, Dt,"$Vd, $Vn, $Vm$lane","",
1990         [(set (Ty DPR:$Vd),
1991               (Ty (ShOp (Ty DPR:$Vn),
1992                         (Ty (NEONvduplane (Ty DPR_8:$Vm), imm:$lane)))))]> {
1993   let isCommutable = 0;
1994 }
1995
1996 class N3VQ<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
1997            InstrItinClass itin, string OpcodeStr, string Dt,
1998            ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
1999   : N3V<op24, op23, op21_20, op11_8, 1, op4,
2000         (outs QPR:$Vd), (ins QPR:$Vn, QPR:$Vm), N3RegFrm, itin,
2001         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2002         [(set QPR:$Vd, (ResTy (OpNode (OpTy QPR:$Vn), (OpTy QPR:$Vm))))]> {
2003   let isCommutable = Commutable;
2004 }
2005 class N3VQX<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2006            InstrItinClass itin, string OpcodeStr,
2007            ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
2008   : N3VX<op24, op23, op21_20, op11_8, 1, op4,
2009          (outs QPR:$Vd), (ins QPR:$Vn, QPR:$Vm), N3RegFrm, itin,
2010          OpcodeStr, "$Vd, $Vn, $Vm", "",
2011          [(set QPR:$Vd, (ResTy (OpNode (OpTy QPR:$Vn), (OpTy QPR:$Vm))))]>{
2012   let isCommutable = Commutable;
2013 }
2014 class N3VQSL<bits<2> op21_20, bits<4> op11_8,
2015              InstrItinClass itin, string OpcodeStr, string Dt,
2016              ValueType ResTy, ValueType OpTy, SDNode ShOp>
2017   : N3VLane32<1, 1, op21_20, op11_8, 1, 0,
2018         (outs QPR:$Vd), (ins QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2019         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2020         [(set (ResTy QPR:$Vd),
2021               (ResTy (ShOp (ResTy QPR:$Vn),
2022                            (ResTy (NEONvduplane (OpTy DPR_VFP2:$Vm),
2023                                                 imm:$lane)))))]> {
2024   let isCommutable = 0;
2025 }
2026 class N3VQSL16<bits<2> op21_20, bits<4> op11_8, string OpcodeStr, string Dt,
2027                ValueType ResTy, ValueType OpTy, SDNode ShOp>
2028   : N3VLane16<1, 1, op21_20, op11_8, 1, 0,
2029         (outs QPR:$Vd), (ins QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2030         NVMulSLFrm, IIC_VMULi16Q, OpcodeStr, Dt,"$Vd, $Vn, $Vm$lane", "",
2031         [(set (ResTy QPR:$Vd),
2032               (ResTy (ShOp (ResTy QPR:$Vn),
2033                            (ResTy (NEONvduplane (OpTy DPR_8:$Vm),
2034                                                 imm:$lane)))))]> {
2035   let isCommutable = 0;
2036 }
2037
2038 // Basic 3-register intrinsics, both double- and quad-register.
2039 class N3VDInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2040               Format f, InstrItinClass itin, string OpcodeStr, string Dt,
2041               ValueType ResTy, ValueType OpTy, Intrinsic IntOp, bit Commutable>
2042   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2043         (outs DPR:$Vd), (ins DPR:$Vn, DPR:$Vm), f, itin,
2044         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2045         [(set DPR:$Vd, (ResTy (IntOp (OpTy DPR:$Vn), (OpTy DPR:$Vm))))]> {
2046   let isCommutable = Commutable;
2047 }
2048 class N3VDIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2049                 string OpcodeStr, string Dt, ValueType Ty, Intrinsic IntOp>
2050   : N3VLane32<0, 1, op21_20, op11_8, 1, 0,
2051         (outs DPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2052         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2053         [(set (Ty DPR:$Vd),
2054               (Ty (IntOp (Ty DPR:$Vn),
2055                          (Ty (NEONvduplane (Ty DPR_VFP2:$Vm),
2056                                            imm:$lane)))))]> {
2057   let isCommutable = 0;
2058 }
2059 class N3VDIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2060                   string OpcodeStr, string Dt, ValueType Ty, Intrinsic IntOp>
2061   : N3VLane16<0, 1, op21_20, op11_8, 1, 0,
2062         (outs DPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2063         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2064         [(set (Ty DPR:$Vd),
2065               (Ty (IntOp (Ty DPR:$Vn),
2066                          (Ty (NEONvduplane (Ty DPR_8:$Vm), imm:$lane)))))]> {
2067   let isCommutable = 0;
2068 }
2069 class N3VDIntSh<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2070               Format f, InstrItinClass itin, string OpcodeStr, string Dt,
2071               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2072   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2073         (outs DPR:$Vd), (ins DPR:$Vm, DPR:$Vn), f, itin,
2074         OpcodeStr, Dt, "$Vd, $Vm, $Vn", "",
2075         [(set DPR:$Vd, (ResTy (IntOp (OpTy DPR:$Vm), (OpTy DPR:$Vn))))]> {
2076   let isCommutable = 0;
2077 }
2078
2079 class N3VQInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2080               Format f, InstrItinClass itin, string OpcodeStr, string Dt,
2081               ValueType ResTy, ValueType OpTy, Intrinsic IntOp, bit Commutable>
2082   : N3V<op24, op23, op21_20, op11_8, 1, op4,
2083         (outs QPR:$Vd), (ins QPR:$Vn, QPR:$Vm), f, itin,
2084         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2085         [(set QPR:$Vd, (ResTy (IntOp (OpTy QPR:$Vn), (OpTy QPR:$Vm))))]> {
2086   let isCommutable = Commutable;
2087 }
2088 class N3VQIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2089                 string OpcodeStr, string Dt,
2090                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2091   : N3VLane32<1, 1, op21_20, op11_8, 1, 0,
2092         (outs QPR:$Vd), (ins QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2093         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2094         [(set (ResTy QPR:$Vd),
2095               (ResTy (IntOp (ResTy QPR:$Vn),
2096                             (ResTy (NEONvduplane (OpTy DPR_VFP2:$Vm),
2097                                                  imm:$lane)))))]> {
2098   let isCommutable = 0;
2099 }
2100 class N3VQIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2101                   string OpcodeStr, string Dt,
2102                   ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2103   : N3VLane16<1, 1, op21_20, op11_8, 1, 0,
2104         (outs QPR:$Vd), (ins QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2105         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2106         [(set (ResTy QPR:$Vd),
2107               (ResTy (IntOp (ResTy QPR:$Vn),
2108                             (ResTy (NEONvduplane (OpTy DPR_8:$Vm),
2109                                                  imm:$lane)))))]> {
2110   let isCommutable = 0;
2111 }
2112 class N3VQIntSh<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2113               Format f, InstrItinClass itin, string OpcodeStr, string Dt,
2114               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2115   : N3V<op24, op23, op21_20, op11_8, 1, op4,
2116         (outs QPR:$Vd), (ins QPR:$Vm, QPR:$Vn), f, itin,
2117         OpcodeStr, Dt, "$Vd, $Vm, $Vn", "",
2118         [(set QPR:$Vd, (ResTy (IntOp (OpTy QPR:$Vm), (OpTy QPR:$Vn))))]> {
2119   let isCommutable = 0;
2120 }
2121
2122 // Multiply-Add/Sub operations: double- and quad-register.
2123 class N3VDMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2124                 InstrItinClass itin, string OpcodeStr, string Dt,
2125                 ValueType Ty, SDPatternOperator MulOp, SDPatternOperator OpNode>
2126   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2127         (outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2128         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2129         [(set DPR:$Vd, (Ty (OpNode DPR:$src1,
2130                              (Ty (MulOp DPR:$Vn, DPR:$Vm)))))]>;
2131
2132 class N3VDMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2133                   string OpcodeStr, string Dt,
2134                   ValueType Ty, SDPatternOperator MulOp, SDPatternOperator ShOp>
2135   : N3VLane32<0, 1, op21_20, op11_8, 1, 0,
2136         (outs DPR:$Vd),
2137         (ins DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2138         NVMulSLFrm, itin,
2139         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2140         [(set (Ty DPR:$Vd),
2141               (Ty (ShOp (Ty DPR:$src1),
2142                         (Ty (MulOp DPR:$Vn,
2143                                    (Ty (NEONvduplane (Ty DPR_VFP2:$Vm),
2144                                                      imm:$lane)))))))]>;
2145 class N3VDMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2146                     string OpcodeStr, string Dt,
2147                     ValueType Ty, SDNode MulOp, SDNode ShOp>
2148   : N3VLane16<0, 1, op21_20, op11_8, 1, 0,
2149         (outs DPR:$Vd),
2150         (ins DPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2151         NVMulSLFrm, itin,
2152         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2153         [(set (Ty DPR:$Vd),
2154               (Ty (ShOp (Ty DPR:$src1),
2155                         (Ty (MulOp DPR:$Vn,
2156                                    (Ty (NEONvduplane (Ty DPR_8:$Vm),
2157                                                      imm:$lane)))))))]>;
2158
2159 class N3VQMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2160                 InstrItinClass itin, string OpcodeStr, string Dt, ValueType Ty,
2161                 SDPatternOperator MulOp, SDPatternOperator OpNode>
2162   : N3V<op24, op23, op21_20, op11_8, 1, op4,
2163         (outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm), N3RegFrm, itin,
2164         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2165         [(set QPR:$Vd, (Ty (OpNode QPR:$src1,
2166                              (Ty (MulOp QPR:$Vn, QPR:$Vm)))))]>;
2167 class N3VQMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2168                   string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
2169                   SDPatternOperator MulOp, SDPatternOperator ShOp>
2170   : N3VLane32<1, 1, op21_20, op11_8, 1, 0,
2171         (outs QPR:$Vd),
2172         (ins QPR:$src1, QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2173         NVMulSLFrm, itin,
2174         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2175         [(set (ResTy QPR:$Vd),
2176               (ResTy (ShOp (ResTy QPR:$src1),
2177                            (ResTy (MulOp QPR:$Vn,
2178                                    (ResTy (NEONvduplane (OpTy DPR_VFP2:$Vm),
2179                                                         imm:$lane)))))))]>;
2180 class N3VQMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2181                     string OpcodeStr, string Dt,
2182                     ValueType ResTy, ValueType OpTy,
2183                     SDNode MulOp, SDNode ShOp>
2184   : N3VLane16<1, 1, op21_20, op11_8, 1, 0,
2185         (outs QPR:$Vd),
2186         (ins QPR:$src1, QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2187         NVMulSLFrm, itin,
2188         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2189         [(set (ResTy QPR:$Vd),
2190               (ResTy (ShOp (ResTy QPR:$src1),
2191                            (ResTy (MulOp QPR:$Vn,
2192                                    (ResTy (NEONvduplane (OpTy DPR_8:$Vm),
2193                                                         imm:$lane)))))))]>;
2194
2195 // Neon Intrinsic-Op instructions (VABA): double- and quad-register.
2196 class N3VDIntOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2197                 InstrItinClass itin, string OpcodeStr, string Dt,
2198                 ValueType Ty, Intrinsic IntOp, SDNode OpNode>
2199   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2200         (outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2201         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2202         [(set DPR:$Vd, (Ty (OpNode DPR:$src1,
2203                              (Ty (IntOp (Ty DPR:$Vn), (Ty DPR:$Vm))))))]>;
2204 class N3VQIntOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2205                 InstrItinClass itin, string OpcodeStr, string Dt,
2206                 ValueType Ty, Intrinsic IntOp, SDNode OpNode>
2207   : N3V<op24, op23, op21_20, op11_8, 1, op4,
2208         (outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm), N3RegFrm, itin,
2209         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2210         [(set QPR:$Vd, (Ty (OpNode QPR:$src1,
2211                              (Ty (IntOp (Ty QPR:$Vn), (Ty QPR:$Vm))))))]>;
2212
2213 // Neon 3-argument intrinsics, both double- and quad-register.
2214 // The destination register is also used as the first source operand register.
2215 class N3VDInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2216                InstrItinClass itin, string OpcodeStr, string Dt,
2217                ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2218   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2219         (outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2220         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2221         [(set DPR:$Vd, (ResTy (IntOp (OpTy DPR:$src1),
2222                                       (OpTy DPR:$Vn), (OpTy DPR:$Vm))))]>;
2223 class N3VQInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2224                InstrItinClass itin, string OpcodeStr, string Dt,
2225                ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2226   : N3V<op24, op23, op21_20, op11_8, 1, op4,
2227         (outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm), N3RegFrm, itin,
2228         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2229         [(set QPR:$Vd, (ResTy (IntOp (OpTy QPR:$src1),
2230                                       (OpTy QPR:$Vn), (OpTy QPR:$Vm))))]>;
2231
2232 // Long Multiply-Add/Sub operations.
2233 class N3VLMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2234                 InstrItinClass itin, string OpcodeStr, string Dt,
2235                 ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>
2236   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2237         (outs QPR:$Vd), (ins QPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2238         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2239         [(set QPR:$Vd, (OpNode (TyQ QPR:$src1),
2240                                 (TyQ (MulOp (TyD DPR:$Vn),
2241                                             (TyD DPR:$Vm)))))]>;
2242 class N3VLMulOpSL<bit op24, bits<2> op21_20, bits<4> op11_8,
2243                   InstrItinClass itin, string OpcodeStr, string Dt,
2244                   ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>
2245   : N3VLane32<op24, 1, op21_20, op11_8, 1, 0, (outs QPR:$Vd),
2246         (ins QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2247         NVMulSLFrm, itin,
2248         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2249         [(set QPR:$Vd,
2250           (OpNode (TyQ QPR:$src1),
2251                   (TyQ (MulOp (TyD DPR:$Vn),
2252                               (TyD (NEONvduplane (TyD DPR_VFP2:$Vm),
2253                                                  imm:$lane))))))]>;
2254 class N3VLMulOpSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
2255                     InstrItinClass itin, string OpcodeStr, string Dt,
2256                     ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>
2257   : N3VLane16<op24, 1, op21_20, op11_8, 1, 0, (outs QPR:$Vd),
2258         (ins QPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2259         NVMulSLFrm, itin,
2260         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2261         [(set QPR:$Vd,
2262           (OpNode (TyQ QPR:$src1),
2263                   (TyQ (MulOp (TyD DPR:$Vn),
2264                               (TyD (NEONvduplane (TyD DPR_8:$Vm),
2265                                                  imm:$lane))))))]>;
2266
2267 // Long Intrinsic-Op vector operations with explicit extend (VABAL).
2268 class N3VLIntExtOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2269                    InstrItinClass itin, string OpcodeStr, string Dt,
2270                    ValueType TyQ, ValueType TyD, Intrinsic IntOp, SDNode ExtOp,
2271                    SDNode OpNode>
2272   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2273         (outs QPR:$Vd), (ins QPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2274         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2275         [(set QPR:$Vd, (OpNode (TyQ QPR:$src1),
2276                                 (TyQ (ExtOp (TyD (IntOp (TyD DPR:$Vn),
2277                                                         (TyD DPR:$Vm)))))))]>;
2278
2279 // Neon Long 3-argument intrinsic.  The destination register is
2280 // a quad-register and is also used as the first source operand register.
2281 class N3VLInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2282                InstrItinClass itin, string OpcodeStr, string Dt,
2283                ValueType TyQ, ValueType TyD, Intrinsic IntOp>
2284   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2285         (outs QPR:$Vd), (ins QPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2286         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
2287         [(set QPR:$Vd,
2288           (TyQ (IntOp (TyQ QPR:$src1), (TyD DPR:$Vn), (TyD DPR:$Vm))))]>;
2289 class N3VLInt3SL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2290                  string OpcodeStr, string Dt,
2291                  ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2292   : N3VLane32<op24, 1, op21_20, op11_8, 1, 0,
2293         (outs QPR:$Vd),
2294         (ins QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2295         NVMulSLFrm, itin,
2296         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2297         [(set (ResTy QPR:$Vd),
2298               (ResTy (IntOp (ResTy QPR:$src1),
2299                             (OpTy DPR:$Vn),
2300                             (OpTy (NEONvduplane (OpTy DPR_VFP2:$Vm),
2301                                                 imm:$lane)))))]>;
2302 class N3VLInt3SL16<bit op24, bits<2> op21_20, bits<4> op11_8,
2303                    InstrItinClass itin, string OpcodeStr, string Dt,
2304                    ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2305   : N3VLane16<op24, 1, op21_20, op11_8, 1, 0,
2306         (outs QPR:$Vd),
2307         (ins QPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2308         NVMulSLFrm, itin,
2309         OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
2310         [(set (ResTy QPR:$Vd),
2311               (ResTy (IntOp (ResTy QPR:$src1),
2312                             (OpTy DPR:$Vn),
2313                             (OpTy (NEONvduplane (OpTy DPR_8:$Vm),
2314                                                 imm:$lane)))))]>;
2315
2316 // Narrowing 3-register intrinsics.
2317 class N3VNInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2318               string OpcodeStr, string Dt, ValueType TyD, ValueType TyQ,
2319               Intrinsic IntOp, bit Commutable>
2320   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2321         (outs DPR:$Vd), (ins QPR:$Vn, QPR:$Vm), N3RegFrm, IIC_VBINi4D,
2322         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2323         [(set DPR:$Vd, (TyD (IntOp (TyQ QPR:$Vn), (TyQ QPR:$Vm))))]> {
2324   let isCommutable = Commutable;
2325 }
2326
2327 // Long 3-register operations.
2328 class N3VL<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2329            InstrItinClass itin, string OpcodeStr, string Dt,
2330            ValueType TyQ, ValueType TyD, SDNode OpNode, bit Commutable>
2331   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2332         (outs QPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2333         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2334         [(set QPR:$Vd, (TyQ (OpNode (TyD DPR:$Vn), (TyD DPR:$Vm))))]> {
2335   let isCommutable = Commutable;
2336 }
2337 class N3VLSL<bit op24, bits<2> op21_20, bits<4> op11_8,
2338              InstrItinClass itin, string OpcodeStr, string Dt,
2339              ValueType TyQ, ValueType TyD, SDNode OpNode>
2340   : N3VLane32<op24, 1, op21_20, op11_8, 1, 0,
2341         (outs QPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2342         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2343         [(set QPR:$Vd,
2344           (TyQ (OpNode (TyD DPR:$Vn),
2345                        (TyD (NEONvduplane (TyD DPR_VFP2:$Vm),imm:$lane)))))]>;
2346 class N3VLSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
2347                InstrItinClass itin, string OpcodeStr, string Dt,
2348                ValueType TyQ, ValueType TyD, SDNode OpNode>
2349   : N3VLane16<op24, 1, op21_20, op11_8, 1, 0,
2350         (outs QPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2351         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2352         [(set QPR:$Vd,
2353           (TyQ (OpNode (TyD DPR:$Vn),
2354                        (TyD (NEONvduplane (TyD DPR_8:$Vm), imm:$lane)))))]>;
2355
2356 // Long 3-register operations with explicitly extended operands.
2357 class N3VLExt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2358               InstrItinClass itin, string OpcodeStr, string Dt,
2359               ValueType TyQ, ValueType TyD, SDNode OpNode, SDNode ExtOp,
2360               bit Commutable>
2361   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2362         (outs QPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2363         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2364         [(set QPR:$Vd, (OpNode (TyQ (ExtOp (TyD DPR:$Vn))),
2365                                 (TyQ (ExtOp (TyD DPR:$Vm)))))]> {
2366   let isCommutable = Commutable;
2367 }
2368
2369 // Long 3-register intrinsics with explicit extend (VABDL).
2370 class N3VLIntExt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2371                  InstrItinClass itin, string OpcodeStr, string Dt,
2372                  ValueType TyQ, ValueType TyD, Intrinsic IntOp, SDNode ExtOp,
2373                  bit Commutable>
2374   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2375         (outs QPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2376         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2377         [(set QPR:$Vd, (TyQ (ExtOp (TyD (IntOp (TyD DPR:$Vn),
2378                                                 (TyD DPR:$Vm))))))]> {
2379   let isCommutable = Commutable;
2380 }
2381
2382 // Long 3-register intrinsics.
2383 class N3VLInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2384               InstrItinClass itin, string OpcodeStr, string Dt,
2385               ValueType TyQ, ValueType TyD, Intrinsic IntOp, bit Commutable>
2386   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2387         (outs QPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
2388         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2389         [(set QPR:$Vd, (TyQ (IntOp (TyD DPR:$Vn), (TyD DPR:$Vm))))]> {
2390   let isCommutable = Commutable;
2391 }
2392 class N3VLIntSL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
2393                 string OpcodeStr, string Dt,
2394                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2395   : N3VLane32<op24, 1, op21_20, op11_8, 1, 0,
2396         (outs QPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
2397         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2398         [(set (ResTy QPR:$Vd),
2399               (ResTy (IntOp (OpTy DPR:$Vn),
2400                             (OpTy (NEONvduplane (OpTy DPR_VFP2:$Vm),
2401                                                 imm:$lane)))))]>;
2402 class N3VLIntSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
2403                   InstrItinClass itin, string OpcodeStr, string Dt,
2404                   ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2405   : N3VLane16<op24, 1, op21_20, op11_8, 1, 0,
2406         (outs QPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
2407         NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
2408         [(set (ResTy QPR:$Vd),
2409               (ResTy (IntOp (OpTy DPR:$Vn),
2410                             (OpTy (NEONvduplane (OpTy DPR_8:$Vm),
2411                                                 imm:$lane)))))]>;
2412
2413 // Wide 3-register operations.
2414 class N3VW<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
2415            string OpcodeStr, string Dt, ValueType TyQ, ValueType TyD,
2416            SDNode OpNode, SDNode ExtOp, bit Commutable>
2417   : N3V<op24, op23, op21_20, op11_8, 0, op4,
2418         (outs QPR:$Vd), (ins QPR:$Vn, DPR:$Vm), N3RegFrm, IIC_VSUBiD,
2419         OpcodeStr, Dt, "$Vd, $Vn, $Vm", "",
2420         [(set QPR:$Vd, (OpNode (TyQ QPR:$Vn),
2421                                 (TyQ (ExtOp (TyD DPR:$Vm)))))]> {
2422   let isCommutable = Commutable;
2423 }
2424
2425 // Pairwise long 2-register intrinsics, both double- and quad-register.
2426 class N2VDPLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
2427                 bits<2> op17_16, bits<5> op11_7, bit op4,
2428                 string OpcodeStr, string Dt,
2429                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2430   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$Vd),
2431         (ins DPR:$Vm), IIC_VSHLiD, OpcodeStr, Dt, "$Vd, $Vm", "",
2432         [(set DPR:$Vd, (ResTy (IntOp (OpTy DPR:$Vm))))]>;
2433 class N2VQPLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
2434                 bits<2> op17_16, bits<5> op11_7, bit op4,
2435                 string OpcodeStr, string Dt,
2436                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2437   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$Vd),
2438         (ins QPR:$Vm), IIC_VSHLiD, OpcodeStr, Dt, "$Vd, $Vm", "",
2439         [(set QPR:$Vd, (ResTy (IntOp (OpTy QPR:$Vm))))]>;
2440
2441 // Pairwise long 2-register accumulate intrinsics,
2442 // both double- and quad-register.
2443 // The destination register is also used as the first source operand register.
2444 class N2VDPLInt2<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
2445                  bits<2> op17_16, bits<5> op11_7, bit op4,
2446                  string OpcodeStr, string Dt,
2447                  ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2448   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4,
2449         (outs DPR:$Vd), (ins DPR:$src1, DPR:$Vm), IIC_VPALiD,
2450         OpcodeStr, Dt, "$Vd, $Vm", "$src1 = $Vd",
2451         [(set DPR:$Vd, (ResTy (IntOp (ResTy DPR:$src1), (OpTy DPR:$Vm))))]>;
2452 class N2VQPLInt2<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
2453                  bits<2> op17_16, bits<5> op11_7, bit op4,
2454                  string OpcodeStr, string Dt,
2455                  ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
2456   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4,
2457         (outs QPR:$Vd), (ins QPR:$src1, QPR:$Vm), IIC_VPALiQ,
2458         OpcodeStr, Dt, "$Vd, $Vm", "$src1 = $Vd",
2459         [(set QPR:$Vd, (ResTy (IntOp (ResTy QPR:$src1), (OpTy QPR:$Vm))))]>;
2460
2461 // Shift by immediate,
2462 // both double- and quad-register.
2463 class N2VDSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2464              Format f, InstrItinClass itin, Operand ImmTy,
2465              string OpcodeStr, string Dt, ValueType Ty, SDNode OpNode>
2466   : N2VImm<op24, op23, op11_8, op7, 0, op4,
2467            (outs DPR:$Vd), (ins DPR:$Vm, ImmTy:$SIMM), f, itin,
2468            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "",
2469            [(set DPR:$Vd, (Ty (OpNode (Ty DPR:$Vm), (i32 imm:$SIMM))))]>;
2470 class N2VQSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2471              Format f, InstrItinClass itin, Operand ImmTy,
2472              string OpcodeStr, string Dt, ValueType Ty, SDNode OpNode>
2473   : N2VImm<op24, op23, op11_8, op7, 1, op4,
2474            (outs QPR:$Vd), (ins QPR:$Vm, ImmTy:$SIMM), f, itin,
2475            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "",
2476            [(set QPR:$Vd, (Ty (OpNode (Ty QPR:$Vm), (i32 imm:$SIMM))))]>;
2477
2478 // Long shift by immediate.
2479 class N2VLSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6, bit op4,
2480              string OpcodeStr, string Dt,
2481              ValueType ResTy, ValueType OpTy, SDNode OpNode>
2482   : N2VImm<op24, op23, op11_8, op7, op6, op4,
2483            (outs QPR:$Vd), (ins DPR:$Vm, i32imm:$SIMM), N2RegVShLFrm,
2484            IIC_VSHLiD, OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "",
2485            [(set QPR:$Vd, (ResTy (OpNode (OpTy DPR:$Vm),
2486                                           (i32 imm:$SIMM))))]>;
2487
2488 // Narrow shift by immediate.
2489 class N2VNSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6, bit op4,
2490              InstrItinClass itin, string OpcodeStr, string Dt,
2491              ValueType ResTy, ValueType OpTy, Operand ImmTy, SDNode OpNode>
2492   : N2VImm<op24, op23, op11_8, op7, op6, op4,
2493            (outs DPR:$Vd), (ins QPR:$Vm, ImmTy:$SIMM), N2RegVShRFrm, itin,
2494            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "",
2495            [(set DPR:$Vd, (ResTy (OpNode (OpTy QPR:$Vm),
2496                                           (i32 imm:$SIMM))))]>;
2497
2498 // Shift right by immediate and accumulate,
2499 // both double- and quad-register.
2500 class N2VDShAdd<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2501                 Operand ImmTy, string OpcodeStr, string Dt,
2502                 ValueType Ty, SDNode ShOp>
2503   : N2VImm<op24, op23, op11_8, op7, 0, op4, (outs DPR:$Vd),
2504            (ins DPR:$src1, DPR:$Vm, ImmTy:$SIMM), N2RegVShRFrm, IIC_VPALiD,
2505            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "$src1 = $Vd",
2506            [(set DPR:$Vd, (Ty (add DPR:$src1,
2507                                 (Ty (ShOp DPR:$Vm, (i32 imm:$SIMM))))))]>;
2508 class N2VQShAdd<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2509                 Operand ImmTy, string OpcodeStr, string Dt,
2510                 ValueType Ty, SDNode ShOp>
2511   : N2VImm<op24, op23, op11_8, op7, 1, op4, (outs QPR:$Vd),
2512            (ins QPR:$src1, QPR:$Vm, ImmTy:$SIMM), N2RegVShRFrm, IIC_VPALiD,
2513            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "$src1 = $Vd",
2514            [(set QPR:$Vd, (Ty (add QPR:$src1,
2515                                 (Ty (ShOp QPR:$Vm, (i32 imm:$SIMM))))))]>;
2516
2517 // Shift by immediate and insert,
2518 // both double- and quad-register.
2519 class N2VDShIns<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2520                 Operand ImmTy, Format f, string OpcodeStr, string Dt,
2521                 ValueType Ty,SDNode ShOp>
2522   : N2VImm<op24, op23, op11_8, op7, 0, op4, (outs DPR:$Vd),
2523            (ins DPR:$src1, DPR:$Vm, ImmTy:$SIMM), f, IIC_VSHLiD,
2524            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "$src1 = $Vd",
2525            [(set DPR:$Vd, (Ty (ShOp DPR:$src1, DPR:$Vm, (i32 imm:$SIMM))))]>;
2526 class N2VQShIns<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2527                 Operand ImmTy, Format f, string OpcodeStr, string Dt,
2528                 ValueType Ty,SDNode ShOp>
2529   : N2VImm<op24, op23, op11_8, op7, 1, op4, (outs QPR:$Vd),
2530            (ins QPR:$src1, QPR:$Vm, ImmTy:$SIMM), f, IIC_VSHLiQ,
2531            OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "$src1 = $Vd",
2532            [(set QPR:$Vd, (Ty (ShOp QPR:$src1, QPR:$Vm, (i32 imm:$SIMM))))]>;
2533
2534 // Convert, with fractional bits immediate,
2535 // both double- and quad-register.
2536 class N2VCvtD<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2537               string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
2538               Intrinsic IntOp>
2539   : N2VImm<op24, op23, op11_8, op7, 0, op4,
2540            (outs DPR:$Vd), (ins DPR:$Vm, neon_vcvt_imm32:$SIMM), NVCVTFrm,
2541            IIC_VUNAD, OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "",
2542            [(set DPR:$Vd, (ResTy (IntOp (OpTy DPR:$Vm), (i32 imm:$SIMM))))]>;
2543 class N2VCvtQ<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
2544               string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
2545               Intrinsic IntOp>
2546   : N2VImm<op24, op23, op11_8, op7, 1, op4,
2547            (outs QPR:$Vd), (ins QPR:$Vm, neon_vcvt_imm32:$SIMM), NVCVTFrm,
2548            IIC_VUNAQ, OpcodeStr, Dt, "$Vd, $Vm, $SIMM", "",
2549            [(set QPR:$Vd, (ResTy (IntOp (OpTy QPR:$Vm), (i32 imm:$SIMM))))]>;
2550
2551 //===----------------------------------------------------------------------===//
2552 // Multiclasses
2553 //===----------------------------------------------------------------------===//
2554
2555 // Abbreviations used in multiclass suffixes:
2556 //   Q = quarter int (8 bit) elements
2557 //   H = half int (16 bit) elements
2558 //   S = single int (32 bit) elements
2559 //   D = double int (64 bit) elements
2560
2561 // Neon 2-register vector operations and intrinsics.
2562
2563 // Neon 2-register comparisons.
2564 //   source operand element sizes of 8, 16 and 32 bits:
2565 multiclass N2V_QHS_cmp<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
2566                        bits<5> op11_7, bit op4, string opc, string Dt,
2567                        string asm, SDNode OpNode> {
2568   // 64-bit vector types.
2569   def v8i8  : N2V<op24_23, op21_20, 0b00, op17_16, op11_7, 0, op4,
2570                   (outs DPR:$Vd), (ins DPR:$Vm), NoItinerary,
2571                   opc, !strconcat(Dt, "8"), asm, "",
2572                   [(set DPR:$Vd, (v8i8 (OpNode (v8i8 DPR:$Vm))))]>;
2573   def v4i16 : N2V<op24_23, op21_20, 0b01, op17_16, op11_7, 0, op4,
2574                   (outs DPR:$Vd), (ins DPR:$Vm), NoItinerary,
2575                   opc, !strconcat(Dt, "16"), asm, "",
2576                   [(set DPR:$Vd, (v4i16 (OpNode (v4i16 DPR:$Vm))))]>;
2577   def v2i32 : N2V<op24_23, op21_20, 0b10, op17_16, op11_7, 0, op4,
2578                   (outs DPR:$Vd), (ins DPR:$Vm), NoItinerary,
2579                   opc, !strconcat(Dt, "32"), asm, "",
2580                   [(set DPR:$Vd, (v2i32 (OpNode (v2i32 DPR:$Vm))))]>;
2581   def v2f32 : N2V<op24_23, op21_20, 0b10, op17_16, op11_7, 0, op4,
2582                   (outs DPR:$Vd), (ins DPR:$Vm), NoItinerary,
2583                   opc, "f32", asm, "",
2584                   [(set DPR:$Vd, (v2i32 (OpNode (v2f32 DPR:$Vm))))]> {
2585     let Inst{10} = 1; // overwrite F = 1
2586   }
2587
2588   // 128-bit vector types.
2589   def v16i8 : N2V<op24_23, op21_20, 0b00, op17_16, op11_7, 1, op4,
2590                   (outs QPR:$Vd), (ins QPR:$Vm), NoItinerary,
2591                   opc, !strconcat(Dt, "8"), asm, "",
2592                   [(set QPR:$Vd, (v16i8 (OpNode (v16i8 QPR:$Vm))))]>;
2593   def v8i16 : N2V<op24_23, op21_20, 0b01, op17_16, op11_7, 1, op4,
2594                   (outs QPR:$Vd), (ins QPR:$Vm), NoItinerary,
2595                   opc, !strconcat(Dt, "16"), asm, "",
2596                   [(set QPR:$Vd, (v8i16 (OpNode (v8i16 QPR:$Vm))))]>;
2597   def v4i32 : N2V<op24_23, op21_20, 0b10, op17_16, op11_7, 1, op4,
2598                   (outs QPR:$Vd), (ins QPR:$Vm), NoItinerary,
2599                   opc, !strconcat(Dt, "32"), asm, "",
2600                   [(set QPR:$Vd, (v4i32 (OpNode (v4i32 QPR:$Vm))))]>;
2601   def v4f32 : N2V<op24_23, op21_20, 0b10, op17_16, op11_7, 1, op4,
2602                   (outs QPR:$Vd), (ins QPR:$Vm), NoItinerary,
2603                   opc, "f32", asm, "",
2604                   [(set QPR:$Vd, (v4i32 (OpNode (v4f32 QPR:$Vm))))]> {
2605     let Inst{10} = 1; // overwrite F = 1
2606   }
2607 }
2608
2609
2610 // Neon 2-register vector intrinsics,
2611 //   element sizes of 8, 16 and 32 bits:
2612 multiclass N2VInt_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
2613                       bits<5> op11_7, bit op4,
2614                       InstrItinClass itinD, InstrItinClass itinQ,
2615                       string OpcodeStr, string Dt, Intrinsic IntOp> {
2616   // 64-bit vector types.
2617   def v8i8  : N2VDInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
2618                       itinD, OpcodeStr, !strconcat(Dt, "8"), v8i8, v8i8, IntOp>;
2619   def v4i16 : N2VDInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
2620                       itinD, OpcodeStr, !strconcat(Dt, "16"),v4i16,v4i16,IntOp>;
2621   def v2i32 : N2VDInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
2622                       itinD, OpcodeStr, !strconcat(Dt, "32"),v2i32,v2i32,IntOp>;
2623
2624   // 128-bit vector types.
2625   def v16i8 : N2VQInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
2626                       itinQ, OpcodeStr, !strconcat(Dt, "8"), v16i8,v16i8,IntOp>;
2627   def v8i16 : N2VQInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
2628                       itinQ, OpcodeStr, !strconcat(Dt, "16"),v8i16,v8i16,IntOp>;
2629   def v4i32 : N2VQInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
2630                       itinQ, OpcodeStr, !strconcat(Dt, "32"),v4i32,v4i32,IntOp>;
2631 }
2632
2633
2634 // Neon Narrowing 2-register vector operations,
2635 //   source operand element sizes of 16, 32 and 64 bits:
2636 multiclass N2VN_HSD<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
2637                     bits<5> op11_7, bit op6, bit op4,
2638                     InstrItinClass itin, string OpcodeStr, string Dt,
2639                     SDNode OpNode> {
2640   def v8i8  : N2VN<op24_23, op21_20, 0b00, op17_16, op11_7, op6, op4,
2641                    itin, OpcodeStr, !strconcat(Dt, "16"),
2642                    v8i8, v8i16, OpNode>;
2643   def v4i16 : N2VN<op24_23, op21_20, 0b01, op17_16, op11_7, op6, op4,
2644                    itin, OpcodeStr, !strconcat(Dt, "32"),
2645                    v4i16, v4i32, OpNode>;
2646   def v2i32 : N2VN<op24_23, op21_20, 0b10, op17_16, op11_7, op6, op4,
2647                    itin, OpcodeStr, !strconcat(Dt, "64"),
2648                    v2i32, v2i64, OpNode>;
2649 }
2650
2651 // Neon Narrowing 2-register vector intrinsics,
2652 //   source operand element sizes of 16, 32 and 64 bits:
2653 multiclass N2VNInt_HSD<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
2654                        bits<5> op11_7, bit op6, bit op4,
2655                        InstrItinClass itin, string OpcodeStr, string Dt,
2656                        Intrinsic IntOp> {
2657   def v8i8  : N2VNInt<op24_23, op21_20, 0b00, op17_16, op11_7, op6, op4,
2658                       itin, OpcodeStr, !strconcat(Dt, "16"),
2659                       v8i8, v8i16, IntOp>;
2660   def v4i16 : N2VNInt<op24_23, op21_20, 0b01, op17_16, op11_7, op6, op4,
2661                       itin, OpcodeStr, !strconcat(Dt, "32"),
2662                       v4i16, v4i32, IntOp>;
2663   def v2i32 : N2VNInt<op24_23, op21_20, 0b10, op17_16, op11_7, op6, op4,
2664                       itin, OpcodeStr, !strconcat(Dt, "64"),
2665                       v2i32, v2i64, IntOp>;
2666 }
2667
2668
2669 // Neon Lengthening 2-register vector intrinsic (currently specific to VMOVL).
2670 //   source operand element sizes of 16, 32 and 64 bits:
2671 multiclass N2VL_QHS<bits<2> op24_23, bits<5> op11_7, bit op6, bit op4,
2672                     string OpcodeStr, string Dt, SDNode OpNode> {
2673   def v8i16 : N2VL<op24_23, 0b00, 0b10, 0b00, op11_7, op6, op4, IIC_VQUNAiD,
2674                    OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8, OpNode>;
2675   def v4i32 : N2VL<op24_23, 0b01, 0b00, 0b00, op11_7, op6, op4, IIC_VQUNAiD,
2676                    OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, OpNode>;
2677   def v2i64 : N2VL<op24_23, 0b10, 0b00, 0b00, op11_7, op6, op4, IIC_VQUNAiD,
2678                    OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, OpNode>;
2679 }
2680
2681
2682 // Neon 3-register vector operations.
2683
2684 // First with only element sizes of 8, 16 and 32 bits:
2685 multiclass N3V_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2686                    InstrItinClass itinD16, InstrItinClass itinD32,
2687                    InstrItinClass itinQ16, InstrItinClass itinQ32,
2688                    string OpcodeStr, string Dt,
2689                    SDNode OpNode, bit Commutable = 0> {
2690   // 64-bit vector types.
2691   def v8i8  : N3VD<op24, op23, 0b00, op11_8, op4, itinD16,
2692                    OpcodeStr, !strconcat(Dt, "8"),
2693                    v8i8, v8i8, OpNode, Commutable>;
2694   def v4i16 : N3VD<op24, op23, 0b01, op11_8, op4, itinD16,
2695                    OpcodeStr, !strconcat(Dt, "16"),
2696                    v4i16, v4i16, OpNode, Commutable>;
2697   def v2i32 : N3VD<op24, op23, 0b10, op11_8, op4, itinD32,
2698                    OpcodeStr, !strconcat(Dt, "32"),
2699                    v2i32, v2i32, OpNode, Commutable>;
2700
2701   // 128-bit vector types.
2702   def v16i8 : N3VQ<op24, op23, 0b00, op11_8, op4, itinQ16,
2703                    OpcodeStr, !strconcat(Dt, "8"),
2704                    v16i8, v16i8, OpNode, Commutable>;
2705   def v8i16 : N3VQ<op24, op23, 0b01, op11_8, op4, itinQ16,
2706                    OpcodeStr, !strconcat(Dt, "16"),
2707                    v8i16, v8i16, OpNode, Commutable>;
2708   def v4i32 : N3VQ<op24, op23, 0b10, op11_8, op4, itinQ32,
2709                    OpcodeStr, !strconcat(Dt, "32"),
2710                    v4i32, v4i32, OpNode, Commutable>;
2711 }
2712
2713 multiclass N3VSL_HS<bits<4> op11_8, string OpcodeStr, string Dt, SDNode ShOp> {
2714   def v4i16 : N3VDSL16<0b01, op11_8, OpcodeStr, !strconcat(Dt, "16"),
2715                        v4i16, ShOp>;
2716   def v2i32 : N3VDSL<0b10, op11_8, IIC_VMULi32D, OpcodeStr, !strconcat(Dt,"32"),
2717                      v2i32, ShOp>;
2718   def v8i16 : N3VQSL16<0b01, op11_8, OpcodeStr, !strconcat(Dt, "16"),
2719                        v8i16, v4i16, ShOp>;
2720   def v4i32 : N3VQSL<0b10, op11_8, IIC_VMULi32Q, OpcodeStr, !strconcat(Dt,"32"),
2721                      v4i32, v2i32, ShOp>;
2722 }
2723
2724 // ....then also with element size 64 bits:
2725 multiclass N3V_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
2726                     InstrItinClass itinD, InstrItinClass itinQ,
2727                     string OpcodeStr, string Dt,
2728                     SDNode OpNode, bit Commutable = 0>
2729   : N3V_QHS<op24, op23, op11_8, op4, itinD, itinD, itinQ, itinQ,
2730             OpcodeStr, Dt, OpNode, Commutable> {
2731   def v1i64 : N3VD<op24, op23, 0b11, op11_8, op4, itinD,
2732                    OpcodeStr, !strconcat(Dt, "64"),
2733                    v1i64, v1i64, OpNode, Commutable>;
2734   def v2i64 : N3VQ<op24, op23, 0b11, op11_8, op4, itinQ,
2735                    OpcodeStr, !strconcat(Dt, "64"),
2736                    v2i64, v2i64, OpNode, Commutable>;
2737 }
2738
2739
2740 // Neon 3-register vector intrinsics.
2741
2742 // First with only element sizes of 16 and 32 bits:
2743 multiclass N3VInt_HS<bit op24, bit op23, bits<4> op11_8, bit op4, Format f,
2744                      InstrItinClass itinD16, InstrItinClass itinD32,
2745                      InstrItinClass itinQ16, InstrItinClass itinQ32,
2746                      string OpcodeStr, string Dt,
2747                      Intrinsic IntOp, bit Commutable = 0> {
2748   // 64-bit vector types.
2749   def v4i16 : N3VDInt<op24, op23, 0b01, op11_8, op4, f, itinD16,
2750                       OpcodeStr, !strconcat(Dt, "16"),
2751                       v4i16, v4i16, IntOp, Commutable>;
2752   def v2i32 : N3VDInt<op24, op23, 0b10, op11_8, op4, f, itinD32,
2753                       OpcodeStr, !strconcat(Dt, "32"),
2754                       v2i32, v2i32, IntOp, Commutable>;
2755
2756   // 128-bit vector types.
2757   def v8i16 : N3VQInt<op24, op23, 0b01, op11_8, op4, f, itinQ16,
2758                       OpcodeStr, !strconcat(Dt, "16"),
2759                       v8i16, v8i16, IntOp, Commutable>;
2760   def v4i32 : N3VQInt<op24, op23, 0b10, op11_8, op4, f, itinQ32,
2761                       OpcodeStr, !strconcat(Dt, "32"),
2762                       v4i32, v4i32, IntOp, Commutable>;
2763 }
2764 multiclass N3VInt_HSSh<bit op24, bit op23, bits<4> op11_8, bit op4, Format f,
2765                      InstrItinClass itinD16, InstrItinClass itinD32,
2766                      InstrItinClass itinQ16, InstrItinClass itinQ32,
2767                      string OpcodeStr, string Dt,
2768                      Intrinsic IntOp> {
2769   // 64-bit vector types.
2770   def v4i16 : N3VDIntSh<op24, op23, 0b01, op11_8, op4, f, itinD16,
2771                       OpcodeStr, !strconcat(Dt, "16"),
2772                       v4i16, v4i16, IntOp>;
2773   def v2i32 : N3VDIntSh<op24, op23, 0b10, op11_8, op4, f, itinD32,
2774                       OpcodeStr, !strconcat(Dt, "32"),
2775                       v2i32, v2i32, IntOp>;
2776
2777   // 128-bit vector types.
2778   def v8i16 : N3VQIntSh<op24, op23, 0b01, op11_8, op4, f, itinQ16,
2779                       OpcodeStr, !strconcat(Dt, "16"),
2780                       v8i16, v8i16, IntOp>;
2781   def v4i32 : N3VQIntSh<op24, op23, 0b10, op11_8, op4, f, itinQ32,
2782                       OpcodeStr, !strconcat(Dt, "32"),
2783                       v4i32, v4i32, IntOp>;
2784 }
2785
2786 multiclass N3VIntSL_HS<bits<4> op11_8,
2787                        InstrItinClass itinD16, InstrItinClass itinD32,
2788                        InstrItinClass itinQ16, InstrItinClass itinQ32,
2789                        string OpcodeStr, string Dt, Intrinsic IntOp> {
2790   def v4i16 : N3VDIntSL16<0b01, op11_8, itinD16,
2791                           OpcodeStr, !strconcat(Dt, "16"), v4i16, IntOp>;
2792   def v2i32 : N3VDIntSL<0b10, op11_8, itinD32,
2793                         OpcodeStr, !strconcat(Dt, "32"), v2i32, IntOp>;
2794   def v8i16 : N3VQIntSL16<0b01, op11_8, itinQ16,
2795                           OpcodeStr, !strconcat(Dt, "16"), v8i16, v4i16, IntOp>;
2796   def v4i32 : N3VQIntSL<0b10, op11_8, itinQ32,
2797                         OpcodeStr, !strconcat(Dt, "32"), v4i32, v2i32, IntOp>;
2798 }
2799
2800 // ....then also with element size of 8 bits:
2801 multiclass N3VInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4, Format f,
2802                       InstrItinClass itinD16, InstrItinClass itinD32,
2803                       InstrItinClass itinQ16, InstrItinClass itinQ32,
2804                       string OpcodeStr, string Dt,
2805                       Intrinsic IntOp, bit Commutable = 0>
2806   : N3VInt_HS<op24, op23, op11_8, op4, f, itinD16, itinD32, itinQ16, itinQ32,
2807               OpcodeStr, Dt, IntOp, Commutable> {
2808   def v8i8  : N3VDInt<op24, op23, 0b00, op11_8, op4, f, itinD16,
2809                       OpcodeStr, !strconcat(Dt, "8"),
2810                       v8i8, v8i8, IntOp, Commutable>;
2811   def v16i8 : N3VQInt<op24, op23, 0b00, op11_8, op4, f, itinQ16,
2812                       OpcodeStr, !strconcat(Dt, "8"),
2813                       v16i8, v16i8, IntOp, Commutable>;
2814 }
2815 multiclass N3VInt_QHSSh<bit op24, bit op23, bits<4> op11_8, bit op4, Format f,
2816                       InstrItinClass itinD16, InstrItinClass itinD32,
2817                       InstrItinClass itinQ16, InstrItinClass itinQ32,
2818                       string OpcodeStr, string Dt,
2819                       Intrinsic IntOp>
2820   : N3VInt_HSSh<op24, op23, op11_8, op4, f, itinD16, itinD32, itinQ16, itinQ32,
2821               OpcodeStr, Dt, IntOp> {
2822   def v8i8  : N3VDIntSh<op24, op23, 0b00, op11_8, op4, f, itinD16,
2823                       OpcodeStr, !strconcat(Dt, "8"),
2824                       v8i8, v8i8, IntOp>;
2825   def v16i8 : N3VQIntSh<op24, op23, 0b00, op11_8, op4, f, itinQ16,
2826                       OpcodeStr, !strconcat(Dt, "8"),
2827                       v16i8, v16i8, IntOp>;
2828 }
2829
2830
2831 // ....then also with element size of 64 bits:
2832 multiclass N3VInt_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4, Format f,
2833                        InstrItinClass itinD16, InstrItinClass itinD32,
2834                        InstrItinClass itinQ16, InstrItinClass itinQ32,
2835                        string OpcodeStr, string Dt,
2836                        Intrinsic IntOp, bit Commutable = 0>
2837   : N3VInt_QHS<op24, op23, op11_8, op4, f, itinD16, itinD32, itinQ16, itinQ32,
2838                OpcodeStr, Dt, IntOp, Commutable> {
2839   def v1i64 : N3VDInt<op24, op23, 0b11, op11_8, op4, f, itinD32,
2840                       OpcodeStr, !strconcat(Dt, "64"),
2841                       v1i64, v1i64, IntOp, Commutable>;
2842   def v2i64 : N3VQInt<op24, op23, 0b11, op11_8, op4, f, itinQ32,
2843                       OpcodeStr, !strconcat(Dt, "64"),
2844                       v2i64, v2i64, IntOp, Commutable>;
2845 }
2846 multiclass N3VInt_QHSDSh<bit op24, bit op23, bits<4> op11_8, bit op4, Format f,
2847                        InstrItinClass itinD16, InstrItinClass itinD32,
2848                        InstrItinClass itinQ16, InstrItinClass itinQ32,
2849                        string OpcodeStr, string Dt,
2850                        Intrinsic IntOp>
2851   : N3VInt_QHSSh<op24, op23, op11_8, op4, f, itinD16, itinD32, itinQ16, itinQ32,
2852                OpcodeStr, Dt, IntOp> {
2853   def v1i64 : N3VDIntSh<op24, op23, 0b11, op11_8, op4, f, itinD32,
2854                       OpcodeStr, !strconcat(Dt, "64"),
2855                       v1i64, v1i64, IntOp>;
2856   def v2i64 : N3VQIntSh<op24, op23, 0b11, op11_8, op4, f, itinQ32,
2857                       OpcodeStr, !strconcat(Dt, "64"),
2858                       v2i64, v2i64, IntOp>;
2859 }
2860
2861 // Neon Narrowing 3-register vector intrinsics,
2862 //   source operand element sizes of 16, 32 and 64 bits:
2863 multiclass N3VNInt_HSD<bit op24, bit op23, bits<4> op11_8, bit op4,
2864                        string OpcodeStr, string Dt,
2865                        Intrinsic IntOp, bit Commutable = 0> {
2866   def v8i8  : N3VNInt<op24, op23, 0b00, op11_8, op4,
2867                       OpcodeStr, !strconcat(Dt, "16"),
2868                       v8i8, v8i16, IntOp, Commutable>;
2869   def v4i16 : N3VNInt<op24, op23, 0b01, op11_8, op4,
2870                       OpcodeStr, !strconcat(Dt, "32"),
2871                       v4i16, v4i32, IntOp, Commutable>;
2872   def v2i32 : N3VNInt<op24, op23, 0b10, op11_8, op4,
2873                       OpcodeStr, !strconcat(Dt, "64"),
2874                       v2i32, v2i64, IntOp, Commutable>;
2875 }
2876
2877
2878 // Neon Long 3-register vector operations.
2879
2880 multiclass N3VL_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2881                     InstrItinClass itin16, InstrItinClass itin32,
2882                     string OpcodeStr, string Dt,
2883                     SDNode OpNode, bit Commutable = 0> {
2884   def v8i16 : N3VL<op24, op23, 0b00, op11_8, op4, itin16,
2885                    OpcodeStr, !strconcat(Dt, "8"),
2886                    v8i16, v8i8, OpNode, Commutable>;
2887   def v4i32 : N3VL<op24, op23, 0b01, op11_8, op4, itin16,
2888                    OpcodeStr, !strconcat(Dt, "16"),
2889                    v4i32, v4i16, OpNode, Commutable>;
2890   def v2i64 : N3VL<op24, op23, 0b10, op11_8, op4, itin32,
2891                    OpcodeStr, !strconcat(Dt, "32"),
2892                    v2i64, v2i32, OpNode, Commutable>;
2893 }
2894
2895 multiclass N3VLSL_HS<bit op24, bits<4> op11_8,
2896                      InstrItinClass itin, string OpcodeStr, string Dt,
2897                      SDNode OpNode> {
2898   def v4i16 : N3VLSL16<op24, 0b01, op11_8, itin, OpcodeStr,
2899                        !strconcat(Dt, "16"), v4i32, v4i16, OpNode>;
2900   def v2i32 : N3VLSL<op24, 0b10, op11_8, itin, OpcodeStr,
2901                      !strconcat(Dt, "32"), v2i64, v2i32, OpNode>;
2902 }
2903
2904 multiclass N3VLExt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2905                        InstrItinClass itin16, InstrItinClass itin32,
2906                        string OpcodeStr, string Dt,
2907                        SDNode OpNode, SDNode ExtOp, bit Commutable = 0> {
2908   def v8i16 : N3VLExt<op24, op23, 0b00, op11_8, op4, itin16,
2909                       OpcodeStr, !strconcat(Dt, "8"),
2910                       v8i16, v8i8, OpNode, ExtOp, Commutable>;
2911   def v4i32 : N3VLExt<op24, op23, 0b01, op11_8, op4, itin16,
2912                       OpcodeStr, !strconcat(Dt, "16"),
2913                       v4i32, v4i16, OpNode, ExtOp, Commutable>;
2914   def v2i64 : N3VLExt<op24, op23, 0b10, op11_8, op4, itin32,
2915                       OpcodeStr, !strconcat(Dt, "32"),
2916                       v2i64, v2i32, OpNode, ExtOp, Commutable>;
2917 }
2918
2919 // Neon Long 3-register vector intrinsics.
2920
2921 // First with only element sizes of 16 and 32 bits:
2922 multiclass N3VLInt_HS<bit op24, bit op23, bits<4> op11_8, bit op4,
2923                       InstrItinClass itin16, InstrItinClass itin32,
2924                       string OpcodeStr, string Dt,
2925                       Intrinsic IntOp, bit Commutable = 0> {
2926   def v4i32 : N3VLInt<op24, op23, 0b01, op11_8, op4, itin16,
2927                       OpcodeStr, !strconcat(Dt, "16"),
2928                       v4i32, v4i16, IntOp, Commutable>;
2929   def v2i64 : N3VLInt<op24, op23, 0b10, op11_8, op4, itin32,
2930                       OpcodeStr, !strconcat(Dt, "32"),
2931                       v2i64, v2i32, IntOp, Commutable>;
2932 }
2933
2934 multiclass N3VLIntSL_HS<bit op24, bits<4> op11_8,
2935                         InstrItinClass itin, string OpcodeStr, string Dt,
2936                         Intrinsic IntOp> {
2937   def v4i16 : N3VLIntSL16<op24, 0b01, op11_8, itin,
2938                           OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, IntOp>;
2939   def v2i32 : N3VLIntSL<op24, 0b10, op11_8, itin,
2940                         OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
2941 }
2942
2943 // ....then also with element size of 8 bits:
2944 multiclass N3VLInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2945                        InstrItinClass itin16, InstrItinClass itin32,
2946                        string OpcodeStr, string Dt,
2947                        Intrinsic IntOp, bit Commutable = 0>
2948   : N3VLInt_HS<op24, op23, op11_8, op4, itin16, itin32, OpcodeStr, Dt,
2949                IntOp, Commutable> {
2950   def v8i16 : N3VLInt<op24, op23, 0b00, op11_8, op4, itin16,
2951                       OpcodeStr, !strconcat(Dt, "8"),
2952                       v8i16, v8i8, IntOp, Commutable>;
2953 }
2954
2955 // ....with explicit extend (VABDL).
2956 multiclass N3VLIntExt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2957                        InstrItinClass itin, string OpcodeStr, string Dt,
2958                        Intrinsic IntOp, SDNode ExtOp, bit Commutable = 0> {
2959   def v8i16 : N3VLIntExt<op24, op23, 0b00, op11_8, op4, itin,
2960                          OpcodeStr, !strconcat(Dt, "8"),
2961                          v8i16, v8i8, IntOp, ExtOp, Commutable>;
2962   def v4i32 : N3VLIntExt<op24, op23, 0b01, op11_8, op4, itin,
2963                          OpcodeStr, !strconcat(Dt, "16"),
2964                          v4i32, v4i16, IntOp, ExtOp, Commutable>;
2965   def v2i64 : N3VLIntExt<op24, op23, 0b10, op11_8, op4, itin,
2966                          OpcodeStr, !strconcat(Dt, "32"),
2967                          v2i64, v2i32, IntOp, ExtOp, Commutable>;
2968 }
2969
2970
2971 // Neon Wide 3-register vector intrinsics,
2972 //   source operand element sizes of 8, 16 and 32 bits:
2973 multiclass N3VW_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2974                     string OpcodeStr, string Dt,
2975                     SDNode OpNode, SDNode ExtOp, bit Commutable = 0> {
2976   def v8i16 : N3VW<op24, op23, 0b00, op11_8, op4,
2977                    OpcodeStr, !strconcat(Dt, "8"),
2978                    v8i16, v8i8, OpNode, ExtOp, Commutable>;
2979   def v4i32 : N3VW<op24, op23, 0b01, op11_8, op4,
2980                    OpcodeStr, !strconcat(Dt, "16"),
2981                    v4i32, v4i16, OpNode, ExtOp, Commutable>;
2982   def v2i64 : N3VW<op24, op23, 0b10, op11_8, op4,
2983                    OpcodeStr, !strconcat(Dt, "32"),
2984                    v2i64, v2i32, OpNode, ExtOp, Commutable>;
2985 }
2986
2987
2988 // Neon Multiply-Op vector operations,
2989 //   element sizes of 8, 16 and 32 bits:
2990 multiclass N3VMulOp_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
2991                         InstrItinClass itinD16, InstrItinClass itinD32,
2992                         InstrItinClass itinQ16, InstrItinClass itinQ32,
2993                         string OpcodeStr, string Dt, SDNode OpNode> {
2994   // 64-bit vector types.
2995   def v8i8  : N3VDMulOp<op24, op23, 0b00, op11_8, op4, itinD16,
2996                         OpcodeStr, !strconcat(Dt, "8"), v8i8, mul, OpNode>;
2997   def v4i16 : N3VDMulOp<op24, op23, 0b01, op11_8, op4, itinD16,
2998                         OpcodeStr, !strconcat(Dt, "16"), v4i16, mul, OpNode>;
2999   def v2i32 : N3VDMulOp<op24, op23, 0b10, op11_8, op4, itinD32,
3000                         OpcodeStr, !strconcat(Dt, "32"), v2i32, mul, OpNode>;
3001
3002   // 128-bit vector types.
3003   def v16i8 : N3VQMulOp<op24, op23, 0b00, op11_8, op4, itinQ16,
3004                         OpcodeStr, !strconcat(Dt, "8"), v16i8, mul, OpNode>;
3005   def v8i16 : N3VQMulOp<op24, op23, 0b01, op11_8, op4, itinQ16,
3006                         OpcodeStr, !strconcat(Dt, "16"), v8i16, mul, OpNode>;
3007   def v4i32 : N3VQMulOp<op24, op23, 0b10, op11_8, op4, itinQ32,
3008                         OpcodeStr, !strconcat(Dt, "32"), v4i32, mul, OpNode>;
3009 }
3010
3011 multiclass N3VMulOpSL_HS<bits<4> op11_8,
3012                          InstrItinClass itinD16, InstrItinClass itinD32,
3013                          InstrItinClass itinQ16, InstrItinClass itinQ32,
3014                          string OpcodeStr, string Dt, SDNode ShOp> {
3015   def v4i16 : N3VDMulOpSL16<0b01, op11_8, itinD16,
3016                             OpcodeStr, !strconcat(Dt, "16"), v4i16, mul, ShOp>;
3017   def v2i32 : N3VDMulOpSL<0b10, op11_8, itinD32,
3018                           OpcodeStr, !strconcat(Dt, "32"), v2i32, mul, ShOp>;
3019   def v8i16 : N3VQMulOpSL16<0b01, op11_8, itinQ16,
3020                             OpcodeStr, !strconcat(Dt, "16"), v8i16, v4i16,
3021                             mul, ShOp>;
3022   def v4i32 : N3VQMulOpSL<0b10, op11_8, itinQ32,
3023                           OpcodeStr, !strconcat(Dt, "32"), v4i32, v2i32,
3024                           mul, ShOp>;
3025 }
3026
3027 // Neon Intrinsic-Op vector operations,
3028 //   element sizes of 8, 16 and 32 bits:
3029 multiclass N3VIntOp_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
3030                         InstrItinClass itinD, InstrItinClass itinQ,
3031                         string OpcodeStr, string Dt, Intrinsic IntOp,
3032                         SDNode OpNode> {
3033   // 64-bit vector types.
3034   def v8i8  : N3VDIntOp<op24, op23, 0b00, op11_8, op4, itinD,
3035                         OpcodeStr, !strconcat(Dt, "8"), v8i8, IntOp, OpNode>;
3036   def v4i16 : N3VDIntOp<op24, op23, 0b01, op11_8, op4, itinD,
3037                         OpcodeStr, !strconcat(Dt, "16"), v4i16, IntOp, OpNode>;
3038   def v2i32 : N3VDIntOp<op24, op23, 0b10, op11_8, op4, itinD,
3039                         OpcodeStr, !strconcat(Dt, "32"), v2i32, IntOp, OpNode>;
3040
3041   // 128-bit vector types.
3042   def v16i8 : N3VQIntOp<op24, op23, 0b00, op11_8, op4, itinQ,
3043                         OpcodeStr, !strconcat(Dt, "8"), v16i8, IntOp, OpNode>;
3044   def v8i16 : N3VQIntOp<op24, op23, 0b01, op11_8, op4, itinQ,
3045                         OpcodeStr, !strconcat(Dt, "16"), v8i16, IntOp, OpNode>;
3046   def v4i32 : N3VQIntOp<op24, op23, 0b10, op11_8, op4, itinQ,
3047                         OpcodeStr, !strconcat(Dt, "32"), v4i32, IntOp, OpNode>;
3048 }
3049
3050 // Neon 3-argument intrinsics,
3051 //   element sizes of 8, 16 and 32 bits:
3052 multiclass N3VInt3_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
3053                        InstrItinClass itinD, InstrItinClass itinQ,
3054                        string OpcodeStr, string Dt, Intrinsic IntOp> {
3055   // 64-bit vector types.
3056   def v8i8  : N3VDInt3<op24, op23, 0b00, op11_8, op4, itinD,
3057                        OpcodeStr, !strconcat(Dt, "8"), v8i8, v8i8, IntOp>;
3058   def v4i16 : N3VDInt3<op24, op23, 0b01, op11_8, op4, itinD,
3059                        OpcodeStr, !strconcat(Dt, "16"), v4i16, v4i16, IntOp>;
3060   def v2i32 : N3VDInt3<op24, op23, 0b10, op11_8, op4, itinD,
3061                        OpcodeStr, !strconcat(Dt, "32"), v2i32, v2i32, IntOp>;
3062
3063   // 128-bit vector types.
3064   def v16i8 : N3VQInt3<op24, op23, 0b00, op11_8, op4, itinQ,
3065                        OpcodeStr, !strconcat(Dt, "8"), v16i8, v16i8, IntOp>;
3066   def v8i16 : N3VQInt3<op24, op23, 0b01, op11_8, op4, itinQ,
3067                        OpcodeStr, !strconcat(Dt, "16"), v8i16, v8i16, IntOp>;
3068   def v4i32 : N3VQInt3<op24, op23, 0b10, op11_8, op4, itinQ,
3069                        OpcodeStr, !strconcat(Dt, "32"), v4i32, v4i32, IntOp>;
3070 }
3071
3072
3073 // Neon Long Multiply-Op vector operations,
3074 //   element sizes of 8, 16 and 32 bits:
3075 multiclass N3VLMulOp_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
3076                          InstrItinClass itin16, InstrItinClass itin32,
3077                          string OpcodeStr, string Dt, SDNode MulOp,
3078                          SDNode OpNode> {
3079   def v8i16 : N3VLMulOp<op24, op23, 0b00, op11_8, op4, itin16, OpcodeStr,
3080                         !strconcat(Dt, "8"), v8i16, v8i8, MulOp, OpNode>;
3081   def v4i32 : N3VLMulOp<op24, op23, 0b01, op11_8, op4, itin16, OpcodeStr,
3082                         !strconcat(Dt, "16"), v4i32, v4i16, MulOp, OpNode>;
3083   def v2i64 : N3VLMulOp<op24, op23, 0b10, op11_8, op4, itin32, OpcodeStr,
3084                         !strconcat(Dt, "32"), v2i64, v2i32, MulOp, OpNode>;
3085 }
3086
3087 multiclass N3VLMulOpSL_HS<bit op24, bits<4> op11_8, string OpcodeStr,
3088                           string Dt, SDNode MulOp, SDNode OpNode> {
3089   def v4i16 : N3VLMulOpSL16<op24, 0b01, op11_8, IIC_VMACi16D, OpcodeStr,
3090                             !strconcat(Dt,"16"), v4i32, v4i16, MulOp, OpNode>;
3091   def v2i32 : N3VLMulOpSL<op24, 0b10, op11_8, IIC_VMACi32D, OpcodeStr,
3092                           !strconcat(Dt, "32"), v2i64, v2i32, MulOp, OpNode>;
3093 }
3094
3095
3096 // Neon Long 3-argument intrinsics.
3097
3098 // First with only element sizes of 16 and 32 bits:
3099 multiclass N3VLInt3_HS<bit op24, bit op23, bits<4> op11_8, bit op4,
3100                        InstrItinClass itin16, InstrItinClass itin32,
3101                        string OpcodeStr, string Dt, Intrinsic IntOp> {
3102   def v4i32 : N3VLInt3<op24, op23, 0b01, op11_8, op4, itin16,
3103                        OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, IntOp>;
3104   def v2i64 : N3VLInt3<op24, op23, 0b10, op11_8, op4, itin32,
3105                        OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
3106 }
3107
3108 multiclass N3VLInt3SL_HS<bit op24, bits<4> op11_8,
3109                          string OpcodeStr, string Dt, Intrinsic IntOp> {
3110   def v4i16 : N3VLInt3SL16<op24, 0b01, op11_8, IIC_VMACi16D,
3111                            OpcodeStr, !strconcat(Dt,"16"), v4i32, v4i16, IntOp>;
3112   def v2i32 : N3VLInt3SL<op24, 0b10, op11_8, IIC_VMACi32D,
3113                          OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
3114 }
3115
3116 // ....then also with element size of 8 bits:
3117 multiclass N3VLInt3_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
3118                         InstrItinClass itin16, InstrItinClass itin32,
3119                         string OpcodeStr, string Dt, Intrinsic IntOp>
3120   : N3VLInt3_HS<op24, op23, op11_8, op4, itin16, itin32, OpcodeStr, Dt, IntOp> {
3121   def v8i16 : N3VLInt3<op24, op23, 0b00, op11_8, op4, itin16,
3122                        OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8, IntOp>;
3123 }
3124
3125 // ....with explicit extend (VABAL).
3126 multiclass N3VLIntExtOp_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
3127                             InstrItinClass itin, string OpcodeStr, string Dt,
3128                             Intrinsic IntOp, SDNode ExtOp, SDNode OpNode> {
3129   def v8i16 : N3VLIntExtOp<op24, op23, 0b00, op11_8, op4, itin,
3130                            OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8,
3131                            IntOp, ExtOp, OpNode>;
3132   def v4i32 : N3VLIntExtOp<op24, op23, 0b01, op11_8, op4, itin,
3133                            OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16,
3134                            IntOp, ExtOp, OpNode>;
3135   def v2i64 : N3VLIntExtOp<op24, op23, 0b10, op11_8, op4, itin,
3136                            OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32,
3137                            IntOp, ExtOp, OpNode>;
3138 }
3139
3140
3141 // Neon Pairwise long 2-register intrinsics,
3142 //   element sizes of 8, 16 and 32 bits:
3143 multiclass N2VPLInt_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
3144                         bits<5> op11_7, bit op4,
3145                         string OpcodeStr, string Dt, Intrinsic IntOp> {
3146   // 64-bit vector types.
3147   def v8i8  : N2VDPLInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
3148                         OpcodeStr, !strconcat(Dt, "8"), v4i16, v8i8, IntOp>;
3149   def v4i16 : N2VDPLInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
3150                         OpcodeStr, !strconcat(Dt, "16"), v2i32, v4i16, IntOp>;
3151   def v2i32 : N2VDPLInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
3152                         OpcodeStr, !strconcat(Dt, "32"), v1i64, v2i32, IntOp>;
3153
3154   // 128-bit vector types.
3155   def v16i8 : N2VQPLInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
3156                         OpcodeStr, !strconcat(Dt, "8"), v8i16, v16i8, IntOp>;
3157   def v8i16 : N2VQPLInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
3158                         OpcodeStr, !strconcat(Dt, "16"), v4i32, v8i16, IntOp>;
3159   def v4i32 : N2VQPLInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
3160                         OpcodeStr, !strconcat(Dt, "32"), v2i64, v4i32, IntOp>;
3161 }
3162
3163
3164 // Neon Pairwise long 2-register accumulate intrinsics,
3165 //   element sizes of 8, 16 and 32 bits:
3166 multiclass N2VPLInt2_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
3167                          bits<5> op11_7, bit op4,
3168                          string OpcodeStr, string Dt, Intrinsic IntOp> {
3169   // 64-bit vector types.
3170   def v8i8  : N2VDPLInt2<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
3171                          OpcodeStr, !strconcat(Dt, "8"), v4i16, v8i8, IntOp>;
3172   def v4i16 : N2VDPLInt2<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
3173                          OpcodeStr, !strconcat(Dt, "16"), v2i32, v4i16, IntOp>;
3174   def v2i32 : N2VDPLInt2<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
3175                          OpcodeStr, !strconcat(Dt, "32"), v1i64, v2i32, IntOp>;
3176
3177   // 128-bit vector types.
3178   def v16i8 : N2VQPLInt2<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
3179                          OpcodeStr, !strconcat(Dt, "8"), v8i16, v16i8, IntOp>;
3180   def v8i16 : N2VQPLInt2<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
3181                          OpcodeStr, !strconcat(Dt, "16"), v4i32, v8i16, IntOp>;
3182   def v4i32 : N2VQPLInt2<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
3183                          OpcodeStr, !strconcat(Dt, "32"), v2i64, v4i32, IntOp>;
3184 }
3185
3186
3187 // Neon 2-register vector shift by immediate,
3188 //   with f of either N2RegVShLFrm or N2RegVShRFrm
3189 //   element sizes of 8, 16, 32 and 64 bits:
3190 multiclass N2VShL_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
3191                        InstrItinClass itin, string OpcodeStr, string Dt,
3192                        SDNode OpNode> {
3193   // 64-bit vector types.
3194   def v8i8  : N2VDSh<op24, op23, op11_8, 0, op4, N2RegVShLFrm, itin, i32imm,
3195                      OpcodeStr, !strconcat(Dt, "8"), v8i8, OpNode> {
3196     let Inst{21-19} = 0b001; // imm6 = 001xxx
3197   }
3198   def v4i16 : N2VDSh<op24, op23, op11_8, 0, op4, N2RegVShLFrm, itin, i32imm,
3199                      OpcodeStr, !strconcat(Dt, "16"), v4i16, OpNode> {
3200     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3201   }
3202   def v2i32 : N2VDSh<op24, op23, op11_8, 0, op4, N2RegVShLFrm, itin, i32imm,
3203                      OpcodeStr, !strconcat(Dt, "32"), v2i32, OpNode> {
3204     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3205   }
3206   def v1i64 : N2VDSh<op24, op23, op11_8, 1, op4, N2RegVShLFrm, itin, i32imm,
3207                      OpcodeStr, !strconcat(Dt, "64"), v1i64, OpNode>;
3208                              // imm6 = xxxxxx
3209
3210   // 128-bit vector types.
3211   def v16i8 : N2VQSh<op24, op23, op11_8, 0, op4, N2RegVShLFrm, itin, i32imm,
3212                      OpcodeStr, !strconcat(Dt, "8"), v16i8, OpNode> {
3213     let Inst{21-19} = 0b001; // imm6 = 001xxx
3214   }
3215   def v8i16 : N2VQSh<op24, op23, op11_8, 0, op4, N2RegVShLFrm, itin, i32imm,
3216                      OpcodeStr, !strconcat(Dt, "16"), v8i16, OpNode> {
3217     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3218   }
3219   def v4i32 : N2VQSh<op24, op23, op11_8, 0, op4, N2RegVShLFrm, itin, i32imm,
3220                      OpcodeStr, !strconcat(Dt, "32"), v4i32, OpNode> {
3221     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3222   }
3223   def v2i64 : N2VQSh<op24, op23, op11_8, 1, op4, N2RegVShLFrm, itin, i32imm,
3224                      OpcodeStr, !strconcat(Dt, "64"), v2i64, OpNode>;
3225                              // imm6 = xxxxxx
3226 }
3227 multiclass N2VShR_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
3228                        InstrItinClass itin, string OpcodeStr, string Dt,
3229                        SDNode OpNode> {
3230   // 64-bit vector types.
3231   def v8i8  : N2VDSh<op24, op23, op11_8, 0, op4, N2RegVShRFrm, itin, shr_imm8,
3232                      OpcodeStr, !strconcat(Dt, "8"), v8i8, OpNode> {
3233     let Inst{21-19} = 0b001; // imm6 = 001xxx
3234   }
3235   def v4i16 : N2VDSh<op24, op23, op11_8, 0, op4, N2RegVShRFrm, itin, shr_imm16,
3236                      OpcodeStr, !strconcat(Dt, "16"), v4i16, OpNode> {
3237     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3238   }
3239   def v2i32 : N2VDSh<op24, op23, op11_8, 0, op4, N2RegVShRFrm, itin, shr_imm32,
3240                      OpcodeStr, !strconcat(Dt, "32"), v2i32, OpNode> {
3241     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3242   }
3243   def v1i64 : N2VDSh<op24, op23, op11_8, 1, op4, N2RegVShRFrm, itin, shr_imm64,
3244                      OpcodeStr, !strconcat(Dt, "64"), v1i64, OpNode>;
3245                              // imm6 = xxxxxx
3246
3247   // 128-bit vector types.
3248   def v16i8 : N2VQSh<op24, op23, op11_8, 0, op4, N2RegVShRFrm, itin, shr_imm8,
3249                      OpcodeStr, !strconcat(Dt, "8"), v16i8, OpNode> {
3250     let Inst{21-19} = 0b001; // imm6 = 001xxx
3251   }
3252   def v8i16 : N2VQSh<op24, op23, op11_8, 0, op4, N2RegVShRFrm, itin, shr_imm16,
3253                      OpcodeStr, !strconcat(Dt, "16"), v8i16, OpNode> {
3254     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3255   }
3256   def v4i32 : N2VQSh<op24, op23, op11_8, 0, op4, N2RegVShRFrm, itin, shr_imm32,
3257                      OpcodeStr, !strconcat(Dt, "32"), v4i32, OpNode> {
3258     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3259   }
3260   def v2i64 : N2VQSh<op24, op23, op11_8, 1, op4, N2RegVShRFrm, itin, shr_imm64,
3261                      OpcodeStr, !strconcat(Dt, "64"), v2i64, OpNode>;
3262                              // imm6 = xxxxxx
3263 }
3264
3265 // Neon Shift-Accumulate vector operations,
3266 //   element sizes of 8, 16, 32 and 64 bits:
3267 multiclass N2VShAdd_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
3268                          string OpcodeStr, string Dt, SDNode ShOp> {
3269   // 64-bit vector types.
3270   def v8i8  : N2VDShAdd<op24, op23, op11_8, 0, op4, shr_imm8,
3271                         OpcodeStr, !strconcat(Dt, "8"), v8i8, ShOp> {
3272     let Inst{21-19} = 0b001; // imm6 = 001xxx
3273   }
3274   def v4i16 : N2VDShAdd<op24, op23, op11_8, 0, op4, shr_imm16,
3275                         OpcodeStr, !strconcat(Dt, "16"), v4i16, ShOp> {
3276     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3277   }
3278   def v2i32 : N2VDShAdd<op24, op23, op11_8, 0, op4, shr_imm32,
3279                         OpcodeStr, !strconcat(Dt, "32"), v2i32, ShOp> {
3280     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3281   }
3282   def v1i64 : N2VDShAdd<op24, op23, op11_8, 1, op4, shr_imm64,
3283                         OpcodeStr, !strconcat(Dt, "64"), v1i64, ShOp>;
3284                              // imm6 = xxxxxx
3285
3286   // 128-bit vector types.
3287   def v16i8 : N2VQShAdd<op24, op23, op11_8, 0, op4, shr_imm8,
3288                         OpcodeStr, !strconcat(Dt, "8"), v16i8, ShOp> {
3289     let Inst{21-19} = 0b001; // imm6 = 001xxx
3290   }
3291   def v8i16 : N2VQShAdd<op24, op23, op11_8, 0, op4, shr_imm16,
3292                         OpcodeStr, !strconcat(Dt, "16"), v8i16, ShOp> {
3293     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3294   }
3295   def v4i32 : N2VQShAdd<op24, op23, op11_8, 0, op4, shr_imm32,
3296                         OpcodeStr, !strconcat(Dt, "32"), v4i32, ShOp> {
3297     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3298   }
3299   def v2i64 : N2VQShAdd<op24, op23, op11_8, 1, op4, shr_imm64,
3300                         OpcodeStr, !strconcat(Dt, "64"), v2i64, ShOp>;
3301                              // imm6 = xxxxxx
3302 }
3303
3304 // Neon Shift-Insert vector operations,
3305 //   with f of either N2RegVShLFrm or N2RegVShRFrm
3306 //   element sizes of 8, 16, 32 and 64 bits:
3307 multiclass N2VShInsL_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
3308                           string OpcodeStr> {
3309   // 64-bit vector types.
3310   def v8i8  : N2VDShIns<op24, op23, op11_8, 0, op4, i32imm,
3311                         N2RegVShLFrm, OpcodeStr, "8", v8i8, NEONvsli> {
3312     let Inst{21-19} = 0b001; // imm6 = 001xxx
3313   }
3314   def v4i16 : N2VDShIns<op24, op23, op11_8, 0, op4, i32imm,
3315                         N2RegVShLFrm, OpcodeStr, "16", v4i16, NEONvsli> {
3316     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3317   }
3318   def v2i32 : N2VDShIns<op24, op23, op11_8, 0, op4, i32imm,
3319                         N2RegVShLFrm, OpcodeStr, "32", v2i32, NEONvsli> {
3320     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3321   }
3322   def v1i64 : N2VDShIns<op24, op23, op11_8, 1, op4, i32imm,
3323                         N2RegVShLFrm, OpcodeStr, "64", v1i64, NEONvsli>;
3324                              // imm6 = xxxxxx
3325
3326   // 128-bit vector types.
3327   def v16i8 : N2VQShIns<op24, op23, op11_8, 0, op4, i32imm,
3328                         N2RegVShLFrm, OpcodeStr, "8", v16i8, NEONvsli> {
3329     let Inst{21-19} = 0b001; // imm6 = 001xxx
3330   }
3331   def v8i16 : N2VQShIns<op24, op23, op11_8, 0, op4, i32imm,
3332                         N2RegVShLFrm, OpcodeStr, "16", v8i16, NEONvsli> {
3333     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3334   }
3335   def v4i32 : N2VQShIns<op24, op23, op11_8, 0, op4, i32imm,
3336                         N2RegVShLFrm, OpcodeStr, "32", v4i32, NEONvsli> {
3337     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3338   }
3339   def v2i64 : N2VQShIns<op24, op23, op11_8, 1, op4, i32imm,
3340                         N2RegVShLFrm, OpcodeStr, "64", v2i64, NEONvsli>;
3341                              // imm6 = xxxxxx
3342 }
3343 multiclass N2VShInsR_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
3344                           string OpcodeStr> {
3345   // 64-bit vector types.
3346   def v8i8  : N2VDShIns<op24, op23, op11_8, 0, op4, shr_imm8,
3347                         N2RegVShRFrm, OpcodeStr, "8", v8i8, NEONvsri> {
3348     let Inst{21-19} = 0b001; // imm6 = 001xxx
3349   }
3350   def v4i16 : N2VDShIns<op24, op23, op11_8, 0, op4, shr_imm16,
3351                         N2RegVShRFrm, OpcodeStr, "16", v4i16, NEONvsri> {
3352     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3353   }
3354   def v2i32 : N2VDShIns<op24, op23, op11_8, 0, op4, shr_imm32,
3355                         N2RegVShRFrm, OpcodeStr, "32", v2i32, NEONvsri> {
3356     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3357   }
3358   def v1i64 : N2VDShIns<op24, op23, op11_8, 1, op4, shr_imm64,
3359                         N2RegVShRFrm, OpcodeStr, "64", v1i64, NEONvsri>;
3360                              // imm6 = xxxxxx
3361
3362   // 128-bit vector types.
3363   def v16i8 : N2VQShIns<op24, op23, op11_8, 0, op4, shr_imm8,
3364                         N2RegVShRFrm, OpcodeStr, "8", v16i8, NEONvsri> {
3365     let Inst{21-19} = 0b001; // imm6 = 001xxx
3366   }
3367   def v8i16 : N2VQShIns<op24, op23, op11_8, 0, op4, shr_imm16,
3368                         N2RegVShRFrm, OpcodeStr, "16", v8i16, NEONvsri> {
3369     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3370   }
3371   def v4i32 : N2VQShIns<op24, op23, op11_8, 0, op4, shr_imm32,
3372                         N2RegVShRFrm, OpcodeStr, "32", v4i32, NEONvsri> {
3373     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3374   }
3375   def v2i64 : N2VQShIns<op24, op23, op11_8, 1, op4, shr_imm64,
3376                         N2RegVShRFrm, OpcodeStr, "64", v2i64, NEONvsri>;
3377                              // imm6 = xxxxxx
3378 }
3379
3380 // Neon Shift Long operations,
3381 //   element sizes of 8, 16, 32 bits:
3382 multiclass N2VLSh_QHS<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6,
3383                       bit op4, string OpcodeStr, string Dt, SDNode OpNode> {
3384   def v8i16 : N2VLSh<op24, op23, op11_8, op7, op6, op4,
3385                  OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8, OpNode> {
3386     let Inst{21-19} = 0b001; // imm6 = 001xxx
3387   }
3388   def v4i32 : N2VLSh<op24, op23, op11_8, op7, op6, op4,
3389                   OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, OpNode> {
3390     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3391   }
3392   def v2i64 : N2VLSh<op24, op23, op11_8, op7, op6, op4,
3393                   OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, OpNode> {
3394     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3395   }
3396 }
3397
3398 // Neon Shift Narrow operations,
3399 //   element sizes of 16, 32, 64 bits:
3400 multiclass N2VNSh_HSD<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6,
3401                       bit op4, InstrItinClass itin, string OpcodeStr, string Dt,
3402                       SDNode OpNode> {
3403   def v8i8 : N2VNSh<op24, op23, op11_8, op7, op6, op4, itin,
3404                     OpcodeStr, !strconcat(Dt, "16"),
3405                     v8i8, v8i16, shr_imm8, OpNode> {
3406     let Inst{21-19} = 0b001; // imm6 = 001xxx
3407   }
3408   def v4i16 : N2VNSh<op24, op23, op11_8, op7, op6, op4, itin,
3409                      OpcodeStr, !strconcat(Dt, "32"),
3410                      v4i16, v4i32, shr_imm16, OpNode> {
3411     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
3412   }
3413   def v2i32 : N2VNSh<op24, op23, op11_8, op7, op6, op4, itin,
3414                      OpcodeStr, !strconcat(Dt, "64"),
3415                      v2i32, v2i64, shr_imm32, OpNode> {
3416     let Inst{21} = 0b1;      // imm6 = 1xxxxx
3417   }
3418 }
3419
3420 //===----------------------------------------------------------------------===//
3421 // Instruction Definitions.
3422 //===----------------------------------------------------------------------===//
3423
3424 // Vector Add Operations.
3425
3426 //   VADD     : Vector Add (integer and floating-point)
3427 defm VADD     : N3V_QHSD<0, 0, 0b1000, 0, IIC_VBINiD, IIC_VBINiQ, "vadd", "i",
3428                          add, 1>;
3429 def  VADDfd   : N3VD<0, 0, 0b00, 0b1101, 0, IIC_VBIND, "vadd", "f32",
3430                      v2f32, v2f32, fadd, 1>;
3431 def  VADDfq   : N3VQ<0, 0, 0b00, 0b1101, 0, IIC_VBINQ, "vadd", "f32",
3432                      v4f32, v4f32, fadd, 1>;
3433 //   VADDL    : Vector Add Long (Q = D + D)
3434 defm VADDLs   : N3VLExt_QHS<0,1,0b0000,0, IIC_VSHLiD, IIC_VSHLiD,
3435                             "vaddl", "s", add, sext, 1>;
3436 defm VADDLu   : N3VLExt_QHS<1,1,0b0000,0, IIC_VSHLiD, IIC_VSHLiD,
3437                             "vaddl", "u", add, zext, 1>;
3438 //   VADDW    : Vector Add Wide (Q = Q + D)
3439 defm VADDWs   : N3VW_QHS<0,1,0b0001,0, "vaddw", "s", add, sext, 0>;
3440 defm VADDWu   : N3VW_QHS<1,1,0b0001,0, "vaddw", "u", add, zext, 0>;
3441 //   VHADD    : Vector Halving Add
3442 defm VHADDs   : N3VInt_QHS<0, 0, 0b0000, 0, N3RegFrm,
3443                            IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q, IIC_VBINi4Q,
3444                            "vhadd", "s", int_arm_neon_vhadds, 1>;
3445 defm VHADDu   : N3VInt_QHS<1, 0, 0b0000, 0, N3RegFrm,
3446                            IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q, IIC_VBINi4Q,
3447                            "vhadd", "u", int_arm_neon_vhaddu, 1>;
3448 //   VRHADD   : Vector Rounding Halving Add
3449 defm VRHADDs  : N3VInt_QHS<0, 0, 0b0001, 0, N3RegFrm,
3450                            IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q, IIC_VBINi4Q,
3451                            "vrhadd", "s", int_arm_neon_vrhadds, 1>;
3452 defm VRHADDu  : N3VInt_QHS<1, 0, 0b0001, 0, N3RegFrm,
3453                            IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q, IIC_VBINi4Q,
3454                            "vrhadd", "u", int_arm_neon_vrhaddu, 1>;
3455 //   VQADD    : Vector Saturating Add
3456 defm VQADDs   : N3VInt_QHSD<0, 0, 0b0000, 1, N3RegFrm,
3457                             IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q, IIC_VBINi4Q,
3458                             "vqadd", "s", int_arm_neon_vqadds, 1>;
3459 defm VQADDu   : N3VInt_QHSD<1, 0, 0b0000, 1, N3RegFrm,
3460                             IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q, IIC_VBINi4Q,
3461                             "vqadd", "u", int_arm_neon_vqaddu, 1>;
3462 //   VADDHN   : Vector Add and Narrow Returning High Half (D = Q + Q)
3463 defm VADDHN   : N3VNInt_HSD<0,1,0b0100,0, "vaddhn", "i",
3464                             int_arm_neon_vaddhn, 1>;
3465 //   VRADDHN  : Vector Rounding Add and Narrow Returning High Half (D = Q + Q)
3466 defm VRADDHN  : N3VNInt_HSD<1,1,0b0100,0, "vraddhn", "i",
3467                             int_arm_neon_vraddhn, 1>;
3468
3469 // Vector Multiply Operations.
3470
3471 //   VMUL     : Vector Multiply (integer, polynomial and floating-point)
3472 defm VMUL     : N3V_QHS<0, 0, 0b1001, 1, IIC_VMULi16D, IIC_VMULi32D,
3473                         IIC_VMULi16Q, IIC_VMULi32Q, "vmul", "i", mul, 1>;
3474 def  VMULpd   : N3VDInt<1, 0, 0b00, 0b1001, 1, N3RegFrm, IIC_VMULi16D, "vmul",
3475                         "p8", v8i8, v8i8, int_arm_neon_vmulp, 1>;
3476 def  VMULpq   : N3VQInt<1, 0, 0b00, 0b1001, 1, N3RegFrm, IIC_VMULi16Q, "vmul",
3477                         "p8", v16i8, v16i8, int_arm_neon_vmulp, 1>;
3478 def  VMULfd   : N3VD<1, 0, 0b00, 0b1101, 1, IIC_VFMULD, "vmul", "f32",
3479                      v2f32, v2f32, fmul, 1>;
3480 def  VMULfq   : N3VQ<1, 0, 0b00, 0b1101, 1, IIC_VFMULQ, "vmul", "f32",
3481                      v4f32, v4f32, fmul, 1>;
3482 defm VMULsl   : N3VSL_HS<0b1000, "vmul", "i", mul>;
3483 def  VMULslfd : N3VDSL<0b10, 0b1001, IIC_VBIND, "vmul", "f32", v2f32, fmul>;
3484 def  VMULslfq : N3VQSL<0b10, 0b1001, IIC_VBINQ, "vmul", "f32", v4f32,
3485                        v2f32, fmul>;
3486
3487 def : Pat<(v8i16 (mul (v8i16 QPR:$src1),
3488                       (v8i16 (NEONvduplane (v8i16 QPR:$src2), imm:$lane)))),
3489           (v8i16 (VMULslv8i16 (v8i16 QPR:$src1),
3490                               (v4i16 (EXTRACT_SUBREG QPR:$src2,
3491                                       (DSubReg_i16_reg imm:$lane))),
3492                               (SubReg_i16_lane imm:$lane)))>;
3493 def : Pat<(v4i32 (mul (v4i32 QPR:$src1),
3494                       (v4i32 (NEONvduplane (v4i32 QPR:$src2), imm:$lane)))),
3495           (v4i32 (VMULslv4i32 (v4i32 QPR:$src1),
3496                               (v2i32 (EXTRACT_SUBREG QPR:$src2,
3497                                       (DSubReg_i32_reg imm:$lane))),
3498                               (SubReg_i32_lane imm:$lane)))>;
3499 def : Pat<(v4f32 (fmul (v4f32 QPR:$src1),
3500                        (v4f32 (NEONvduplane (v4f32 QPR:$src2), imm:$lane)))),
3501           (v4f32 (VMULslfq (v4f32 QPR:$src1),
3502                            (v2f32 (EXTRACT_SUBREG QPR:$src2,
3503                                    (DSubReg_i32_reg imm:$lane))),
3504                            (SubReg_i32_lane imm:$lane)))>;
3505
3506 //   VQDMULH  : Vector Saturating Doubling Multiply Returning High Half
3507 defm VQDMULH  : N3VInt_HS<0, 0, 0b1011, 0, N3RegFrm, IIC_VMULi16D, IIC_VMULi32D,
3508                           IIC_VMULi16Q, IIC_VMULi32Q,
3509                           "vqdmulh", "s", int_arm_neon_vqdmulh, 1>;
3510 defm VQDMULHsl: N3VIntSL_HS<0b1100, IIC_VMULi16D, IIC_VMULi32D,
3511                             IIC_VMULi16Q, IIC_VMULi32Q,
3512                             "vqdmulh", "s",  int_arm_neon_vqdmulh>;
3513 def : Pat<(v8i16 (int_arm_neon_vqdmulh (v8i16 QPR:$src1),
3514                                        (v8i16 (NEONvduplane (v8i16 QPR:$src2),
3515                                                             imm:$lane)))),
3516           (v8i16 (VQDMULHslv8i16 (v8i16 QPR:$src1),
3517                                  (v4i16 (EXTRACT_SUBREG QPR:$src2,
3518                                          (DSubReg_i16_reg imm:$lane))),
3519                                  (SubReg_i16_lane imm:$lane)))>;
3520 def : Pat<(v4i32 (int_arm_neon_vqdmulh (v4i32 QPR:$src1),
3521                                        (v4i32 (NEONvduplane (v4i32 QPR:$src2),
3522                                                             imm:$lane)))),
3523           (v4i32 (VQDMULHslv4i32 (v4i32 QPR:$src1),
3524                                  (v2i32 (EXTRACT_SUBREG QPR:$src2,
3525                                          (DSubReg_i32_reg imm:$lane))),
3526                                  (SubReg_i32_lane imm:$lane)))>;
3527
3528 //   VQRDMULH : Vector Rounding Saturating Doubling Multiply Returning High Half
3529 defm VQRDMULH   : N3VInt_HS<1, 0, 0b1011, 0, N3RegFrm,
3530                             IIC_VMULi16D,IIC_VMULi32D,IIC_VMULi16Q,IIC_VMULi32Q,
3531                             "vqrdmulh", "s", int_arm_neon_vqrdmulh, 1>;
3532 defm VQRDMULHsl : N3VIntSL_HS<0b1101, IIC_VMULi16D, IIC_VMULi32D,
3533                               IIC_VMULi16Q, IIC_VMULi32Q,
3534                               "vqrdmulh", "s",  int_arm_neon_vqrdmulh>;
3535 def : Pat<(v8i16 (int_arm_neon_vqrdmulh (v8i16 QPR:$src1),
3536                                         (v8i16 (NEONvduplane (v8i16 QPR:$src2),
3537                                                              imm:$lane)))),
3538           (v8i16 (VQRDMULHslv8i16 (v8i16 QPR:$src1),
3539                                   (v4i16 (EXTRACT_SUBREG QPR:$src2,
3540                                           (DSubReg_i16_reg imm:$lane))),
3541                                   (SubReg_i16_lane imm:$lane)))>;
3542 def : Pat<(v4i32 (int_arm_neon_vqrdmulh (v4i32 QPR:$src1),
3543                                         (v4i32 (NEONvduplane (v4i32 QPR:$src2),
3544                                                              imm:$lane)))),
3545           (v4i32 (VQRDMULHslv4i32 (v4i32 QPR:$src1),
3546                                   (v2i32 (EXTRACT_SUBREG QPR:$src2,
3547                                           (DSubReg_i32_reg imm:$lane))),
3548                                   (SubReg_i32_lane imm:$lane)))>;
3549
3550 //   VMULL    : Vector Multiply Long (integer and polynomial) (Q = D * D)
3551 defm VMULLs   : N3VL_QHS<0,1,0b1100,0, IIC_VMULi16D, IIC_VMULi32D,
3552                          "vmull", "s", NEONvmulls, 1>;
3553 defm VMULLu   : N3VL_QHS<1,1,0b1100,0, IIC_VMULi16D, IIC_VMULi32D,
3554                          "vmull", "u", NEONvmullu, 1>;
3555 def  VMULLp   : N3VLInt<0, 1, 0b00, 0b1110, 0, IIC_VMULi16D, "vmull", "p8",
3556                         v8i16, v8i8, int_arm_neon_vmullp, 1>;
3557 defm VMULLsls : N3VLSL_HS<0, 0b1010, IIC_VMULi16D, "vmull", "s", NEONvmulls>;
3558 defm VMULLslu : N3VLSL_HS<1, 0b1010, IIC_VMULi16D, "vmull", "u", NEONvmullu>;
3559
3560 //   VQDMULL  : Vector Saturating Doubling Multiply Long (Q = D * D)
3561 defm VQDMULL  : N3VLInt_HS<0,1,0b1101,0, IIC_VMULi16D, IIC_VMULi32D,
3562                            "vqdmull", "s", int_arm_neon_vqdmull, 1>;
3563 defm VQDMULLsl: N3VLIntSL_HS<0, 0b1011, IIC_VMULi16D,
3564                              "vqdmull", "s", int_arm_neon_vqdmull>;
3565
3566 // Vector Multiply-Accumulate and Multiply-Subtract Operations.
3567
3568 //   VMLA     : Vector Multiply Accumulate (integer and floating-point)
3569 defm VMLA     : N3VMulOp_QHS<0, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
3570                              IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;
3571 def  VMLAfd   : N3VDMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACD, "vmla", "f32",
3572                           v2f32, fmul_su, fadd_mlx>,
3573                 Requires<[HasNEON, UseFPVMLx]>;
3574 def  VMLAfq   : N3VQMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACQ, "vmla", "f32",
3575                           v4f32, fmul_su, fadd_mlx>,
3576                 Requires<[HasNEON, UseFPVMLx]>;
3577 defm VMLAsl   : N3VMulOpSL_HS<0b0000, IIC_VMACi16D, IIC_VMACi32D,
3578                               IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;
3579 def  VMLAslfd : N3VDMulOpSL<0b10, 0b0001, IIC_VMACD, "vmla", "f32",
3580                             v2f32, fmul_su, fadd_mlx>,
3581                 Requires<[HasNEON, UseFPVMLx]>;
3582 def  VMLAslfq : N3VQMulOpSL<0b10, 0b0001, IIC_VMACQ, "vmla", "f32",
3583                             v4f32, v2f32, fmul_su, fadd_mlx>,
3584                 Requires<[HasNEON, UseFPVMLx]>;
3585
3586 def : Pat<(v8i16 (add (v8i16 QPR:$src1),
3587                   (mul (v8i16 QPR:$src2),
3588                        (v8i16 (NEONvduplane (v8i16 QPR:$src3), imm:$lane))))),
3589           (v8i16 (VMLAslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),
3590                               (v4i16 (EXTRACT_SUBREG QPR:$src3,
3591                                       (DSubReg_i16_reg imm:$lane))),
3592                               (SubReg_i16_lane imm:$lane)))>;
3593
3594 def : Pat<(v4i32 (add (v4i32 QPR:$src1),
3595                   (mul (v4i32 QPR:$src2),
3596                        (v4i32 (NEONvduplane (v4i32 QPR:$src3), imm:$lane))))),
3597           (v4i32 (VMLAslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),
3598                               (v2i32 (EXTRACT_SUBREG QPR:$src3,
3599                                       (DSubReg_i32_reg imm:$lane))),
3600                               (SubReg_i32_lane imm:$lane)))>;
3601
3602 def : Pat<(v4f32 (fadd_mlx (v4f32 QPR:$src1),
3603                   (fmul_su (v4f32 QPR:$src2),
3604                         (v4f32 (NEONvduplane (v4f32 QPR:$src3), imm:$lane))))),
3605           (v4f32 (VMLAslfq (v4f32 QPR:$src1),
3606                            (v4f32 QPR:$src2),
3607                            (v2f32 (EXTRACT_SUBREG QPR:$src3,
3608                                    (DSubReg_i32_reg imm:$lane))),
3609                            (SubReg_i32_lane imm:$lane)))>,
3610           Requires<[HasNEON, UseFPVMLx]>;
3611
3612 //   VMLAL    : Vector Multiply Accumulate Long (Q += D * D)
3613 defm VMLALs   : N3VLMulOp_QHS<0,1,0b1000,0, IIC_VMACi16D, IIC_VMACi32D,
3614                               "vmlal", "s", NEONvmulls, add>;
3615 defm VMLALu   : N3VLMulOp_QHS<1,1,0b1000,0, IIC_VMACi16D, IIC_VMACi32D,
3616                               "vmlal", "u", NEONvmullu, add>;
3617
3618 defm VMLALsls : N3VLMulOpSL_HS<0, 0b0010, "vmlal", "s", NEONvmulls, add>;
3619 defm VMLALslu : N3VLMulOpSL_HS<1, 0b0010, "vmlal", "u", NEONvmullu, add>;
3620
3621 //   VQDMLAL  : Vector Saturating Doubling Multiply Accumulate Long (Q += D * D)
3622 defm VQDMLAL  : N3VLInt3_HS<0, 1, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
3623                             "vqdmlal", "s", int_arm_neon_vqdmlal>;
3624 defm VQDMLALsl: N3VLInt3SL_HS<0, 0b0011, "vqdmlal", "s", int_arm_neon_vqdmlal>;
3625
3626 //   VMLS     : Vector Multiply Subtract (integer and floating-point)
3627 defm VMLS     : N3VMulOp_QHS<1, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
3628                              IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
3629 def  VMLSfd   : N3VDMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACD, "vmls", "f32",
3630                           v2f32, fmul_su, fsub_mlx>,
3631                 Requires<[HasNEON, UseFPVMLx]>;
3632 def  VMLSfq   : N3VQMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACQ, "vmls", "f32",
3633                           v4f32, fmul_su, fsub_mlx>,
3634                 Requires<[HasNEON, UseFPVMLx]>;
3635 defm VMLSsl   : N3VMulOpSL_HS<0b0100, IIC_VMACi16D, IIC_VMACi32D,
3636                               IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
3637 def  VMLSslfd : N3VDMulOpSL<0b10, 0b0101, IIC_VMACD, "vmls", "f32",
3638                             v2f32, fmul_su, fsub_mlx>,
3639                 Requires<[HasNEON, UseFPVMLx]>;
3640 def  VMLSslfq : N3VQMulOpSL<0b10, 0b0101, IIC_VMACQ, "vmls", "f32",
3641                             v4f32, v2f32, fmul_su, fsub_mlx>,
3642                 Requires<[HasNEON, UseFPVMLx]>;
3643
3644 def : Pat<(v8i16 (sub (v8i16 QPR:$src1),
3645                   (mul (v8i16 QPR:$src2),
3646                        (v8i16 (NEONvduplane (v8i16 QPR:$src3), imm:$lane))))),
3647           (v8i16 (VMLSslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),
3648                               (v4i16 (EXTRACT_SUBREG QPR:$src3,
3649                                       (DSubReg_i16_reg imm:$lane))),
3650                               (SubReg_i16_lane imm:$lane)))>;
3651
3652 def : Pat<(v4i32 (sub (v4i32 QPR:$src1),
3653                   (mul (v4i32 QPR:$src2),
3654                      (v4i32 (NEONvduplane (v4i32 QPR:$src3), imm:$lane))))),
3655           (v4i32 (VMLSslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),
3656                               (v2i32 (EXTRACT_SUBREG QPR:$src3,
3657                                       (DSubReg_i32_reg imm:$lane))),
3658                               (SubReg_i32_lane imm:$lane)))>;
3659
3660 def : Pat<(v4f32 (fsub_mlx (v4f32 QPR:$src1),
3661                   (fmul_su (v4f32 QPR:$src2),
3662                         (v4f32 (NEONvduplane (v4f32 QPR:$src3), imm:$lane))))),
3663           (v4f32 (VMLSslfq (v4f32 QPR:$src1), (v4f32 QPR:$src2),
3664                            (v2f32 (EXTRACT_SUBREG QPR:$src3,
3665                                    (DSubReg_i32_reg imm:$lane))),
3666                            (SubReg_i32_lane imm:$lane)))>,
3667           Requires<[HasNEON, UseFPVMLx]>;
3668
3669 //   VMLSL    : Vector Multiply Subtract Long (Q -= D * D)
3670 defm VMLSLs   : N3VLMulOp_QHS<0,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,
3671                               "vmlsl", "s", NEONvmulls, sub>;
3672 defm VMLSLu   : N3VLMulOp_QHS<1,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,
3673                               "vmlsl", "u", NEONvmullu, sub>;
3674
3675 defm VMLSLsls : N3VLMulOpSL_HS<0, 0b0110, "vmlsl", "s", NEONvmulls, sub>;
3676 defm VMLSLslu : N3VLMulOpSL_HS<1, 0b0110, "vmlsl", "u", NEONvmullu, sub>;
3677
3678 //   VQDMLSL  : Vector Saturating Doubling Multiply Subtract Long (Q -= D * D)
3679 defm VQDMLSL  : N3VLInt3_HS<0, 1, 0b1011, 0, IIC_VMACi16D, IIC_VMACi32D,
3680                             "vqdmlsl", "s", int_arm_neon_vqdmlsl>;
3681 defm VQDMLSLsl: N3VLInt3SL_HS<0, 0b111, "vqdmlsl", "s", int_arm_neon_vqdmlsl>;
3682
3683 // Vector Subtract Operations.
3684
3685 //   VSUB     : Vector Subtract (integer and floating-point)
3686 defm VSUB     : N3V_QHSD<1, 0, 0b1000, 0, IIC_VSUBiD, IIC_VSUBiQ,
3687                          "vsub", "i", sub, 0>;
3688 def  VSUBfd   : N3VD<0, 0, 0b10, 0b1101, 0, IIC_VBIND, "vsub", "f32",
3689                      v2f32, v2f32, fsub, 0>;
3690 def  VSUBfq   : N3VQ<0, 0, 0b10, 0b1101, 0, IIC_VBINQ, "vsub", "f32",
3691                      v4f32, v4f32, fsub, 0>;
3692 //   VSUBL    : Vector Subtract Long (Q = D - D)
3693 defm VSUBLs   : N3VLExt_QHS<0,1,0b0010,0, IIC_VSHLiD, IIC_VSHLiD,
3694                             "vsubl", "s", sub, sext, 0>;
3695 defm VSUBLu   : N3VLExt_QHS<1,1,0b0010,0, IIC_VSHLiD, IIC_VSHLiD,
3696                             "vsubl", "u", sub, zext, 0>;
3697 //   VSUBW    : Vector Subtract Wide (Q = Q - D)
3698 defm VSUBWs   : N3VW_QHS<0,1,0b0011,0, "vsubw", "s", sub, sext, 0>;
3699 defm VSUBWu   : N3VW_QHS<1,1,0b0011,0, "vsubw", "u", sub, zext, 0>;
3700 //   VHSUB    : Vector Halving Subtract
3701 defm VHSUBs   : N3VInt_QHS<0, 0, 0b0010, 0, N3RegFrm,
3702                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
3703                            "vhsub", "s", int_arm_neon_vhsubs, 0>;
3704 defm VHSUBu   : N3VInt_QHS<1, 0, 0b0010, 0, N3RegFrm,
3705                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
3706                            "vhsub", "u", int_arm_neon_vhsubu, 0>;
3707 //   VQSUB    : Vector Saturing Subtract
3708 defm VQSUBs   : N3VInt_QHSD<0, 0, 0b0010, 1, N3RegFrm,
3709                             IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
3710                             "vqsub", "s", int_arm_neon_vqsubs, 0>;
3711 defm VQSUBu   : N3VInt_QHSD<1, 0, 0b0010, 1, N3RegFrm,
3712                             IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
3713                             "vqsub", "u", int_arm_neon_vqsubu, 0>;
3714 //   VSUBHN   : Vector Subtract and Narrow Returning High Half (D = Q - Q)
3715 defm VSUBHN   : N3VNInt_HSD<0,1,0b0110,0, "vsubhn", "i",
3716                             int_arm_neon_vsubhn, 0>;
3717 //   VRSUBHN  : Vector Rounding Subtract and Narrow Returning High Half (D=Q-Q)
3718 defm VRSUBHN  : N3VNInt_HSD<1,1,0b0110,0, "vrsubhn", "i",
3719                             int_arm_neon_vrsubhn, 0>;
3720
3721 // Vector Comparisons.
3722
3723 //   VCEQ     : Vector Compare Equal
3724 defm VCEQ     : N3V_QHS<1, 0, 0b1000, 1, IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q,
3725                         IIC_VSUBi4Q, "vceq", "i", NEONvceq, 1>;
3726 def  VCEQfd   : N3VD<0,0,0b00,0b1110,0, IIC_VBIND, "vceq", "f32", v2i32, v2f32,
3727                      NEONvceq, 1>;
3728 def  VCEQfq   : N3VQ<0,0,0b00,0b1110,0, IIC_VBINQ, "vceq", "f32", v4i32, v4f32,
3729                      NEONvceq, 1>;
3730
3731 defm VCEQz    : N2V_QHS_cmp<0b11, 0b11, 0b01, 0b00010, 0, "vceq", "i",
3732                             "$Vd, $Vm, #0", NEONvceqz>;
3733
3734 //   VCGE     : Vector Compare Greater Than or Equal
3735 defm VCGEs    : N3V_QHS<0, 0, 0b0011, 1, IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q,
3736                         IIC_VSUBi4Q, "vcge", "s", NEONvcge, 0>;
3737 defm VCGEu    : N3V_QHS<1, 0, 0b0011, 1, IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q,
3738                         IIC_VSUBi4Q, "vcge", "u", NEONvcgeu, 0>;
3739 def  VCGEfd   : N3VD<1,0,0b00,0b1110,0, IIC_VBIND, "vcge", "f32", v2i32, v2f32,
3740                      NEONvcge, 0>;
3741 def  VCGEfq   : N3VQ<1,0,0b00,0b1110,0, IIC_VBINQ, "vcge", "f32", v4i32, v4f32,
3742                      NEONvcge, 0>;
3743
3744 defm VCGEz    : N2V_QHS_cmp<0b11, 0b11, 0b01, 0b00001, 0, "vcge", "s",
3745                             "$Vd, $Vm, #0", NEONvcgez>;
3746 defm VCLEz    : N2V_QHS_cmp<0b11, 0b11, 0b01, 0b00011, 0, "vcle", "s",
3747                             "$Vd, $Vm, #0", NEONvclez>;
3748
3749 //   VCGT     : Vector Compare Greater Than
3750 defm VCGTs    : N3V_QHS<0, 0, 0b0011, 0, IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q,
3751                         IIC_VSUBi4Q, "vcgt", "s", NEONvcgt, 0>;
3752 defm VCGTu    : N3V_QHS<1, 0, 0b0011, 0, IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q,
3753                         IIC_VSUBi4Q, "vcgt", "u", NEONvcgtu, 0>;
3754 def  VCGTfd   : N3VD<1,0,0b10,0b1110,0, IIC_VBIND, "vcgt", "f32", v2i32, v2f32,
3755                      NEONvcgt, 0>;
3756 def  VCGTfq   : N3VQ<1,0,0b10,0b1110,0, IIC_VBINQ, "vcgt", "f32", v4i32, v4f32,
3757                      NEONvcgt, 0>;
3758
3759 defm VCGTz    : N2V_QHS_cmp<0b11, 0b11, 0b01, 0b00000, 0, "vcgt", "s",
3760                             "$Vd, $Vm, #0", NEONvcgtz>;
3761 defm VCLTz    : N2V_QHS_cmp<0b11, 0b11, 0b01, 0b00100, 0, "vclt", "s",
3762                             "$Vd, $Vm, #0", NEONvcltz>;
3763
3764 //   VACGE    : Vector Absolute Compare Greater Than or Equal (aka VCAGE)
3765 def  VACGEd   : N3VDInt<1, 0, 0b00, 0b1110, 1, N3RegFrm, IIC_VBIND, "vacge",
3766                         "f32", v2i32, v2f32, int_arm_neon_vacged, 0>;
3767 def  VACGEq   : N3VQInt<1, 0, 0b00, 0b1110, 1, N3RegFrm, IIC_VBINQ, "vacge",
3768                         "f32", v4i32, v4f32, int_arm_neon_vacgeq, 0>;
3769 //   VACGT    : Vector Absolute Compare Greater Than (aka VCAGT)
3770 def  VACGTd   : N3VDInt<1, 0, 0b10, 0b1110, 1, N3RegFrm, IIC_VBIND, "vacgt",
3771                         "f32", v2i32, v2f32, int_arm_neon_vacgtd, 0>;
3772 def  VACGTq   : N3VQInt<1, 0, 0b10, 0b1110, 1, N3RegFrm, IIC_VBINQ, "vacgt",
3773                         "f32", v4i32, v4f32, int_arm_neon_vacgtq, 0>;
3774 //   VTST     : Vector Test Bits
3775 defm VTST     : N3V_QHS<0, 0, 0b1000, 1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
3776                         IIC_VBINi4Q, "vtst", "", NEONvtst, 1>;
3777
3778 // Vector Bitwise Operations.
3779
3780 def vnotd : PatFrag<(ops node:$in),
3781                     (xor node:$in, (bitconvert (v8i8 NEONimmAllOnesV)))>;
3782 def vnotq : PatFrag<(ops node:$in),
3783                     (xor node:$in, (bitconvert (v16i8 NEONimmAllOnesV)))>;
3784
3785
3786 //   VAND     : Vector Bitwise AND
3787 def  VANDd    : N3VDX<0, 0, 0b00, 0b0001, 1, IIC_VBINiD, "vand",
3788                       v2i32, v2i32, and, 1>;
3789 def  VANDq    : N3VQX<0, 0, 0b00, 0b0001, 1, IIC_VBINiQ, "vand",
3790                       v4i32, v4i32, and, 1>;
3791
3792 //   VEOR     : Vector Bitwise Exclusive OR
3793 def  VEORd    : N3VDX<1, 0, 0b00, 0b0001, 1, IIC_VBINiD, "veor",
3794                       v2i32, v2i32, xor, 1>;
3795 def  VEORq    : N3VQX<1, 0, 0b00, 0b0001, 1, IIC_VBINiQ, "veor",
3796                       v4i32, v4i32, xor, 1>;
3797
3798 //   VORR     : Vector Bitwise OR
3799 def  VORRd    : N3VDX<0, 0, 0b10, 0b0001, 1, IIC_VBINiD, "vorr",
3800                       v2i32, v2i32, or, 1>;
3801 def  VORRq    : N3VQX<0, 0, 0b10, 0b0001, 1, IIC_VBINiQ, "vorr",
3802                       v4i32, v4i32, or, 1>;
3803
3804 def VORRiv4i16 : N1ModImm<1, 0b000, {1,0,?,1}, 0, 0, 0, 1,
3805                           (outs DPR:$Vd), (ins nImmSplatI16:$SIMM, DPR:$src),
3806                           IIC_VMOVImm,
3807                           "vorr", "i16", "$Vd, $SIMM", "$src = $Vd",
3808                           [(set DPR:$Vd,
3809                             (v4i16 (NEONvorrImm DPR:$src, timm:$SIMM)))]> {
3810   let Inst{9} = SIMM{9};
3811 }
3812
3813 def VORRiv2i32 : N1ModImm<1, 0b000, {0,?,?,1}, 0, 0, 0, 1,
3814                           (outs DPR:$Vd), (ins nImmSplatI32:$SIMM, DPR:$src),
3815                           IIC_VMOVImm,
3816                           "vorr", "i32", "$Vd, $SIMM", "$src = $Vd",
3817                           [(set DPR:$Vd,
3818                             (v2i32 (NEONvorrImm DPR:$src, timm:$SIMM)))]> {
3819   let Inst{10-9} = SIMM{10-9};
3820 }
3821
3822 def VORRiv8i16 : N1ModImm<1, 0b000, {1,0,?,1}, 0, 1, 0, 1,
3823                           (outs QPR:$Vd), (ins nImmSplatI16:$SIMM, QPR:$src),
3824                           IIC_VMOVImm,
3825                           "vorr", "i16", "$Vd, $SIMM", "$src = $Vd",
3826                           [(set QPR:$Vd,
3827                             (v8i16 (NEONvorrImm QPR:$src, timm:$SIMM)))]> {
3828   let Inst{9} = SIMM{9};
3829 }
3830
3831 def VORRiv4i32 : N1ModImm<1, 0b000, {0,?,?,1}, 0, 1, 0, 1,
3832                           (outs QPR:$Vd), (ins nImmSplatI32:$SIMM, QPR:$src),
3833                           IIC_VMOVImm,
3834                           "vorr", "i32", "$Vd, $SIMM", "$src = $Vd",
3835                           [(set QPR:$Vd,
3836                             (v4i32 (NEONvorrImm QPR:$src, timm:$SIMM)))]> {
3837   let Inst{10-9} = SIMM{10-9};
3838 }
3839
3840
3841 //   VBIC     : Vector Bitwise Bit Clear (AND NOT)
3842 def  VBICd    : N3VX<0, 0, 0b01, 0b0001, 0, 1, (outs DPR:$Vd),
3843                      (ins DPR:$Vn, DPR:$Vm), N3RegFrm, IIC_VBINiD,
3844                      "vbic", "$Vd, $Vn, $Vm", "",
3845                      [(set DPR:$Vd, (v2i32 (and DPR:$Vn,
3846                                                  (vnotd DPR:$Vm))))]>;
3847 def  VBICq    : N3VX<0, 0, 0b01, 0b0001, 1, 1, (outs QPR:$Vd),
3848                      (ins QPR:$Vn, QPR:$Vm), N3RegFrm, IIC_VBINiQ,
3849                      "vbic", "$Vd, $Vn, $Vm", "",
3850                      [(set QPR:$Vd, (v4i32 (and QPR:$Vn,
3851                                                  (vnotq QPR:$Vm))))]>;
3852
3853 def VBICiv4i16 : N1ModImm<1, 0b000, {1,0,?,1}, 0, 0, 1, 1,
3854                           (outs DPR:$Vd), (ins nImmSplatI16:$SIMM, DPR:$src),
3855                           IIC_VMOVImm,
3856                           "vbic", "i16", "$Vd, $SIMM", "$src = $Vd",
3857                           [(set DPR:$Vd,
3858                             (v4i16 (NEONvbicImm DPR:$src, timm:$SIMM)))]> {
3859   let Inst{9} = SIMM{9};
3860 }
3861
3862 def VBICiv2i32 : N1ModImm<1, 0b000, {0,?,?,1}, 0, 0, 1, 1,
3863                           (outs DPR:$Vd), (ins nImmSplatI32:$SIMM, DPR:$src),
3864                           IIC_VMOVImm,
3865                           "vbic", "i32", "$Vd, $SIMM", "$src = $Vd",
3866                           [(set DPR:$Vd,
3867                             (v2i32 (NEONvbicImm DPR:$src, timm:$SIMM)))]> {
3868   let Inst{10-9} = SIMM{10-9};
3869 }
3870
3871 def VBICiv8i16 : N1ModImm<1, 0b000, {1,0,?,1}, 0, 1, 1, 1,
3872                           (outs QPR:$Vd), (ins nImmSplatI16:$SIMM, QPR:$src),
3873                           IIC_VMOVImm,
3874                           "vbic", "i16", "$Vd, $SIMM", "$src = $Vd",
3875                           [(set QPR:$Vd,
3876                             (v8i16 (NEONvbicImm QPR:$src, timm:$SIMM)))]> {
3877   let Inst{9} = SIMM{9};
3878 }
3879
3880 def VBICiv4i32 : N1ModImm<1, 0b000, {0,?,?,1}, 0, 1, 1, 1,
3881                           (outs QPR:$Vd), (ins nImmSplatI32:$SIMM, QPR:$src),
3882                           IIC_VMOVImm,
3883                           "vbic", "i32", "$Vd, $SIMM", "$src = $Vd",
3884                           [(set QPR:$Vd,
3885                             (v4i32 (NEONvbicImm QPR:$src, timm:$SIMM)))]> {
3886   let Inst{10-9} = SIMM{10-9};
3887 }
3888
3889 //   VORN     : Vector Bitwise OR NOT
3890 def  VORNd    : N3VX<0, 0, 0b11, 0b0001, 0, 1, (outs DPR:$Vd),
3891                      (ins DPR:$Vn, DPR:$Vm), N3RegFrm, IIC_VBINiD,
3892                      "vorn", "$Vd, $Vn, $Vm", "",
3893                      [(set DPR:$Vd, (v2i32 (or DPR:$Vn,
3894                                                 (vnotd DPR:$Vm))))]>;
3895 def  VORNq    : N3VX<0, 0, 0b11, 0b0001, 1, 1, (outs QPR:$Vd),
3896                      (ins QPR:$Vn, QPR:$Vm), N3RegFrm, IIC_VBINiQ,
3897                      "vorn", "$Vd, $Vn, $Vm", "",
3898                      [(set QPR:$Vd, (v4i32 (or QPR:$Vn,
3899                                                 (vnotq QPR:$Vm))))]>;
3900
3901 //   VMVN     : Vector Bitwise NOT (Immediate)
3902
3903 let isReMaterializable = 1 in {
3904
3905 def VMVNv4i16 : N1ModImm<1, 0b000, {1,0,?,0}, 0, 0, 1, 1, (outs DPR:$Vd),
3906                          (ins nImmSplatI16:$SIMM), IIC_VMOVImm,
3907                          "vmvn", "i16", "$Vd, $SIMM", "",
3908                          [(set DPR:$Vd, (v4i16 (NEONvmvnImm timm:$SIMM)))]> {
3909   let Inst{9} = SIMM{9};
3910 }
3911
3912 def VMVNv8i16 : N1ModImm<1, 0b000, {1,0,?,0}, 0, 1, 1, 1, (outs QPR:$Vd),
3913                          (ins nImmSplatI16:$SIMM), IIC_VMOVImm,
3914                          "vmvn", "i16", "$Vd, $SIMM", "",
3915                          [(set QPR:$Vd, (v8i16 (NEONvmvnImm timm:$SIMM)))]> {
3916   let Inst{9} = SIMM{9};
3917 }
3918
3919 def VMVNv2i32 : N1ModImm<1, 0b000, {?,?,?,?}, 0, 0, 1, 1, (outs DPR:$Vd),
3920                          (ins nImmVMOVI32:$SIMM), IIC_VMOVImm,
3921                          "vmvn", "i32", "$Vd, $SIMM", "",
3922                          [(set DPR:$Vd, (v2i32 (NEONvmvnImm timm:$SIMM)))]> {
3923   let Inst{11-8} = SIMM{11-8};
3924 }
3925
3926 def VMVNv4i32 : N1ModImm<1, 0b000, {?,?,?,?}, 0, 1, 1, 1, (outs QPR:$Vd),
3927                          (ins nImmVMOVI32:$SIMM), IIC_VMOVImm,
3928                          "vmvn", "i32", "$Vd, $SIMM", "",
3929                          [(set QPR:$Vd, (v4i32 (NEONvmvnImm timm:$SIMM)))]> {
3930   let Inst{11-8} = SIMM{11-8};
3931 }
3932 }
3933
3934 //   VMVN     : Vector Bitwise NOT
3935 def  VMVNd    : N2VX<0b11, 0b11, 0b00, 0b00, 0b01011, 0, 0,
3936                      (outs DPR:$Vd), (ins DPR:$Vm), IIC_VSUBiD,
3937                      "vmvn", "$Vd, $Vm", "",
3938                      [(set DPR:$Vd, (v2i32 (vnotd DPR:$Vm)))]>;
3939 def  VMVNq    : N2VX<0b11, 0b11, 0b00, 0b00, 0b01011, 1, 0,
3940                      (outs QPR:$Vd), (ins QPR:$Vm), IIC_VSUBiD,
3941                      "vmvn", "$Vd, $Vm", "",
3942                      [(set QPR:$Vd, (v4i32 (vnotq QPR:$Vm)))]>;
3943 def : Pat<(v2i32 (vnotd DPR:$src)), (VMVNd DPR:$src)>;
3944 def : Pat<(v4i32 (vnotq QPR:$src)), (VMVNq QPR:$src)>;
3945
3946 //   VBSL     : Vector Bitwise Select
3947 def  VBSLd    : N3VX<1, 0, 0b01, 0b0001, 0, 1, (outs DPR:$Vd),
3948                      (ins DPR:$src1, DPR:$Vn, DPR:$Vm),
3949                      N3RegFrm, IIC_VCNTiD,
3950                      "vbsl", "$Vd, $Vn, $Vm", "$src1 = $Vd",
3951                      [(set DPR:$Vd,
3952                            (v2i32 (NEONvbsl DPR:$src1, DPR:$Vn, DPR:$Vm)))]>;
3953
3954 def : Pat<(v2i32 (or (and DPR:$Vn, DPR:$Vd),
3955                      (and DPR:$Vm, (vnotd DPR:$Vd)))),
3956           (VBSLd DPR:$Vd, DPR:$Vn, DPR:$Vm)>;
3957
3958 def  VBSLq    : N3VX<1, 0, 0b01, 0b0001, 1, 1, (outs QPR:$Vd),
3959                      (ins QPR:$src1, QPR:$Vn, QPR:$Vm),
3960                      N3RegFrm, IIC_VCNTiQ,
3961                      "vbsl", "$Vd, $Vn, $Vm", "$src1 = $Vd",
3962                      [(set QPR:$Vd,
3963                            (v4i32 (NEONvbsl QPR:$src1, QPR:$Vn, QPR:$Vm)))]>;
3964
3965 def : Pat<(v4i32 (or (and QPR:$Vn, QPR:$Vd),
3966                      (and QPR:$Vm, (vnotq QPR:$Vd)))),
3967           (VBSLq QPR:$Vd, QPR:$Vn, QPR:$Vm)>;
3968
3969 //   VBIF     : Vector Bitwise Insert if False
3970 //              like VBSL but with: "vbif $dst, $src3, $src1", "$src2 = $dst",
3971 // FIXME: This instruction's encoding MAY NOT BE correct.
3972 def  VBIFd    : N3VX<1, 0, 0b11, 0b0001, 0, 1,
3973                      (outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm),
3974                      N3RegFrm, IIC_VBINiD,
3975                      "vbif", "$Vd, $Vn, $Vm", "$src1 = $Vd",
3976                      []>;
3977 def  VBIFq    : N3VX<1, 0, 0b11, 0b0001, 1, 1,
3978                      (outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm),
3979                      N3RegFrm, IIC_VBINiQ,
3980                      "vbif", "$Vd, $Vn, $Vm", "$src1 = $Vd",
3981                      []>;
3982
3983 //   VBIT     : Vector Bitwise Insert if True
3984 //              like VBSL but with: "vbit $dst, $src2, $src1", "$src3 = $dst",
3985 // FIXME: This instruction's encoding MAY NOT BE correct.
3986 def  VBITd    : N3VX<1, 0, 0b10, 0b0001, 0, 1,
3987                      (outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm),
3988                      N3RegFrm, IIC_VBINiD,
3989                      "vbit", "$Vd, $Vn, $Vm", "$src1 = $Vd",
3990                      []>;
3991 def  VBITq    : N3VX<1, 0, 0b10, 0b0001, 1, 1,
3992                      (outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm),
3993                      N3RegFrm, IIC_VBINiQ,
3994                      "vbit", "$Vd, $Vn, $Vm", "$src1 = $Vd",
3995                      []>;
3996
3997 // VBIT/VBIF are not yet implemented.  The TwoAddress pass will not go looking
3998 // for equivalent operations with different register constraints; it just
3999 // inserts copies.
4000
4001 // Vector Absolute Differences.
4002
4003 //   VABD     : Vector Absolute Difference
4004 defm VABDs    : N3VInt_QHS<0, 0, 0b0111, 0, N3RegFrm,
4005                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
4006                            "vabd", "s", int_arm_neon_vabds, 1>;
4007 defm VABDu    : N3VInt_QHS<1, 0, 0b0111, 0, N3RegFrm,
4008                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
4009                            "vabd", "u", int_arm_neon_vabdu, 1>;
4010 def  VABDfd   : N3VDInt<1, 0, 0b10, 0b1101, 0, N3RegFrm, IIC_VBIND,
4011                         "vabd", "f32", v2f32, v2f32, int_arm_neon_vabds, 1>;
4012 def  VABDfq   : N3VQInt<1, 0, 0b10, 0b1101, 0, N3RegFrm, IIC_VBINQ,
4013                         "vabd", "f32", v4f32, v4f32, int_arm_neon_vabds, 1>;
4014
4015 //   VABDL    : Vector Absolute Difference Long (Q = | D - D |)
4016 defm VABDLs   : N3VLIntExt_QHS<0,1,0b0111,0, IIC_VSUBi4Q,
4017                                "vabdl", "s", int_arm_neon_vabds, zext, 1>;
4018 defm VABDLu   : N3VLIntExt_QHS<1,1,0b0111,0, IIC_VSUBi4Q,
4019                                "vabdl", "u", int_arm_neon_vabdu, zext, 1>;
4020
4021 //   VABA     : Vector Absolute Difference and Accumulate
4022 defm VABAs    : N3VIntOp_QHS<0,0,0b0111,1, IIC_VABAD, IIC_VABAQ,
4023                              "vaba", "s", int_arm_neon_vabds, add>;
4024 defm VABAu    : N3VIntOp_QHS<1,0,0b0111,1, IIC_VABAD, IIC_VABAQ,
4025                              "vaba", "u", int_arm_neon_vabdu, add>;
4026
4027 //   VABAL    : Vector Absolute Difference and Accumulate Long (Q += | D - D |)
4028 defm VABALs   : N3VLIntExtOp_QHS<0,1,0b0101,0, IIC_VABAD,
4029                                  "vabal", "s", int_arm_neon_vabds, zext, add>;
4030 defm VABALu   : N3VLIntExtOp_QHS<1,1,0b0101,0, IIC_VABAD,
4031                                  "vabal", "u", int_arm_neon_vabdu, zext, add>;
4032
4033 // Vector Maximum and Minimum.
4034
4035 //   VMAX     : Vector Maximum
4036 defm VMAXs    : N3VInt_QHS<0, 0, 0b0110, 0, N3RegFrm,
4037                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
4038                            "vmax", "s", int_arm_neon_vmaxs, 1>;
4039 defm VMAXu    : N3VInt_QHS<1, 0, 0b0110, 0, N3RegFrm,
4040                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
4041                            "vmax", "u", int_arm_neon_vmaxu, 1>;
4042 def  VMAXfd   : N3VDInt<0, 0, 0b00, 0b1111, 0, N3RegFrm, IIC_VBIND,
4043                         "vmax", "f32",
4044                         v2f32, v2f32, int_arm_neon_vmaxs, 1>;
4045 def  VMAXfq   : N3VQInt<0, 0, 0b00, 0b1111, 0, N3RegFrm, IIC_VBINQ,
4046                         "vmax", "f32",
4047                         v4f32, v4f32, int_arm_neon_vmaxs, 1>;
4048
4049 //   VMIN     : Vector Minimum
4050 defm VMINs    : N3VInt_QHS<0, 0, 0b0110, 1, N3RegFrm,
4051                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
4052                            "vmin", "s", int_arm_neon_vmins, 1>;
4053 defm VMINu    : N3VInt_QHS<1, 0, 0b0110, 1, N3RegFrm,
4054                            IIC_VSUBi4D, IIC_VSUBi4D, IIC_VSUBi4Q, IIC_VSUBi4Q,
4055                            "vmin", "u", int_arm_neon_vminu, 1>;
4056 def  VMINfd   : N3VDInt<0, 0, 0b10, 0b1111, 0, N3RegFrm, IIC_VBIND,
4057                         "vmin", "f32",
4058                         v2f32, v2f32, int_arm_neon_vmins, 1>;
4059 def  VMINfq   : N3VQInt<0, 0, 0b10, 0b1111, 0, N3RegFrm, IIC_VBINQ,
4060                         "vmin", "f32",
4061                         v4f32, v4f32, int_arm_neon_vmins, 1>;
4062
4063 // Vector Pairwise Operations.
4064
4065 //   VPADD    : Vector Pairwise Add
4066 def  VPADDi8  : N3VDInt<0, 0, 0b00, 0b1011, 1, N3RegFrm, IIC_VSHLiD,
4067                         "vpadd", "i8",
4068                         v8i8, v8i8, int_arm_neon_vpadd, 0>;
4069 def  VPADDi16 : N3VDInt<0, 0, 0b01, 0b1011, 1, N3RegFrm, IIC_VSHLiD,
4070                         "vpadd", "i16",
4071                         v4i16, v4i16, int_arm_neon_vpadd, 0>;
4072 def  VPADDi32 : N3VDInt<0, 0, 0b10, 0b1011, 1, N3RegFrm, IIC_VSHLiD,
4073                         "vpadd", "i32",
4074                         v2i32, v2i32, int_arm_neon_vpadd, 0>;
4075 def  VPADDf   : N3VDInt<1, 0, 0b00, 0b1101, 0, N3RegFrm,
4076                         IIC_VPBIND, "vpadd", "f32",
4077                         v2f32, v2f32, int_arm_neon_vpadd, 0>;
4078
4079 //   VPADDL   : Vector Pairwise Add Long
4080 defm VPADDLs  : N2VPLInt_QHS<0b11, 0b11, 0b00, 0b00100, 0, "vpaddl", "s",
4081                              int_arm_neon_vpaddls>;
4082 defm VPADDLu  : N2VPLInt_QHS<0b11, 0b11, 0b00, 0b00101, 0, "vpaddl", "u",
4083                              int_arm_neon_vpaddlu>;
4084
4085 //   VPADAL   : Vector Pairwise Add and Accumulate Long
4086 defm VPADALs  : N2VPLInt2_QHS<0b11, 0b11, 0b00, 0b01100, 0, "vpadal", "s",
4087                               int_arm_neon_vpadals>;
4088 defm VPADALu  : N2VPLInt2_QHS<0b11, 0b11, 0b00, 0b01101, 0, "vpadal", "u",
4089                               int_arm_neon_vpadalu>;
4090
4091 //   VPMAX    : Vector Pairwise Maximum
4092 def  VPMAXs8  : N3VDInt<0, 0, 0b00, 0b1010, 0, N3RegFrm, IIC_VSUBi4D, "vpmax",
4093                         "s8", v8i8, v8i8, int_arm_neon_vpmaxs, 0>;
4094 def  VPMAXs16 : N3VDInt<0, 0, 0b01, 0b1010, 0, N3RegFrm, IIC_VSUBi4D, "vpmax",
4095                         "s16", v4i16, v4i16, int_arm_neon_vpmaxs, 0>;
4096 def  VPMAXs32 : N3VDInt<0, 0, 0b10, 0b1010, 0, N3RegFrm, IIC_VSUBi4D, "vpmax",
4097                         "s32", v2i32, v2i32, int_arm_neon_vpmaxs, 0>;
4098 def  VPMAXu8  : N3VDInt<1, 0, 0b00, 0b1010, 0, N3RegFrm, IIC_VSUBi4D, "vpmax",
4099                         "u8", v8i8, v8i8, int_arm_neon_vpmaxu, 0>;
4100 def  VPMAXu16 : N3VDInt<1, 0, 0b01, 0b1010, 0, N3RegFrm, IIC_VSUBi4D, "vpmax",
4101                         "u16", v4i16, v4i16, int_arm_neon_vpmaxu, 0>;
4102 def  VPMAXu32 : N3VDInt<1, 0, 0b10, 0b1010, 0, N3RegFrm, IIC_VSUBi4D, "vpmax",
4103                         "u32", v2i32, v2i32, int_arm_neon_vpmaxu, 0>;
4104 def  VPMAXf   : N3VDInt<1, 0, 0b00, 0b1111, 0, N3RegFrm, IIC_VPBIND, "vpmax",
4105                         "f32", v2f32, v2f32, int_arm_neon_vpmaxs, 0>;
4106
4107 //   VPMIN    : Vector Pairwise Minimum
4108 def  VPMINs8  : N3VDInt<0, 0, 0b00, 0b1010, 1, N3RegFrm, IIC_VSUBi4D, "vpmin",
4109                         "s8", v8i8, v8i8, int_arm_neon_vpmins, 0>;
4110 def  VPMINs16 : N3VDInt<0, 0, 0b01, 0b1010, 1, N3RegFrm, IIC_VSUBi4D, "vpmin",
4111                         "s16", v4i16, v4i16, int_arm_neon_vpmins, 0>;
4112 def  VPMINs32 : N3VDInt<0, 0, 0b10, 0b1010, 1, N3RegFrm, IIC_VSUBi4D, "vpmin",
4113                         "s32", v2i32, v2i32, int_arm_neon_vpmins, 0>;
4114 def  VPMINu8  : N3VDInt<1, 0, 0b00, 0b1010, 1, N3RegFrm, IIC_VSUBi4D, "vpmin",
4115                         "u8", v8i8, v8i8, int_arm_neon_vpminu, 0>;
4116 def  VPMINu16 : N3VDInt<1, 0, 0b01, 0b1010, 1, N3RegFrm, IIC_VSUBi4D, "vpmin",
4117                         "u16", v4i16, v4i16, int_arm_neon_vpminu, 0>;
4118 def  VPMINu32 : N3VDInt<1, 0, 0b10, 0b1010, 1, N3RegFrm, IIC_VSUBi4D, "vpmin",
4119                         "u32", v2i32, v2i32, int_arm_neon_vpminu, 0>;
4120 def  VPMINf   : N3VDInt<1, 0, 0b10, 0b1111, 0, N3RegFrm, IIC_VPBIND, "vpmin",
4121                         "f32", v2f32, v2f32, int_arm_neon_vpmins, 0>;
4122
4123 // Vector Reciprocal and Reciprocal Square Root Estimate and Step.
4124
4125 //   VRECPE   : Vector Reciprocal Estimate
4126 def  VRECPEd  : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01000, 0,
4127                         IIC_VUNAD, "vrecpe", "u32",
4128                         v2i32, v2i32, int_arm_neon_vrecpe>;
4129 def  VRECPEq  : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01000, 0,
4130                         IIC_VUNAQ, "vrecpe", "u32",
4131                         v4i32, v4i32, int_arm_neon_vrecpe>;
4132 def  VRECPEfd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01010, 0,
4133                         IIC_VUNAD, "vrecpe", "f32",
4134                         v2f32, v2f32, int_arm_neon_vrecpe>;
4135 def  VRECPEfq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01010, 0,
4136                         IIC_VUNAQ, "vrecpe", "f32",
4137                         v4f32, v4f32, int_arm_neon_vrecpe>;
4138
4139 //   VRECPS   : Vector Reciprocal Step
4140 def  VRECPSfd : N3VDInt<0, 0, 0b00, 0b1111, 1, N3RegFrm,
4141                         IIC_VRECSD, "vrecps", "f32",
4142                         v2f32, v2f32, int_arm_neon_vrecps, 1>;
4143 def  VRECPSfq : N3VQInt<0, 0, 0b00, 0b1111, 1, N3RegFrm,
4144                         IIC_VRECSQ, "vrecps", "f32",
4145                         v4f32, v4f32, int_arm_neon_vrecps, 1>;
4146
4147 //   VRSQRTE  : Vector Reciprocal Square Root Estimate
4148 def  VRSQRTEd  : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01001, 0,
4149                          IIC_VUNAD, "vrsqrte", "u32",
4150                          v2i32, v2i32, int_arm_neon_vrsqrte>;
4151 def  VRSQRTEq  : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01001, 0,
4152                          IIC_VUNAQ, "vrsqrte", "u32",
4153                          v4i32, v4i32, int_arm_neon_vrsqrte>;
4154 def  VRSQRTEfd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01011, 0,
4155                          IIC_VUNAD, "vrsqrte", "f32",
4156                          v2f32, v2f32, int_arm_neon_vrsqrte>;
4157 def  VRSQRTEfq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01011, 0,
4158                          IIC_VUNAQ, "vrsqrte", "f32",
4159                          v4f32, v4f32, int_arm_neon_vrsqrte>;
4160
4161 //   VRSQRTS  : Vector Reciprocal Square Root Step
4162 def VRSQRTSfd : N3VDInt<0, 0, 0b10, 0b1111, 1, N3RegFrm,
4163                         IIC_VRECSD, "vrsqrts", "f32",
4164                         v2f32, v2f32, int_arm_neon_vrsqrts, 1>;
4165 def VRSQRTSfq : N3VQInt<0, 0, 0b10, 0b1111, 1, N3RegFrm,
4166                         IIC_VRECSQ, "vrsqrts", "f32",
4167                         v4f32, v4f32, int_arm_neon_vrsqrts, 1>;
4168
4169 // Vector Shifts.
4170
4171 //   VSHL     : Vector Shift
4172 defm VSHLs    : N3VInt_QHSDSh<0, 0, 0b0100, 0, N3RegVShFrm,
4173                             IIC_VSHLiD, IIC_VSHLiD, IIC_VSHLiQ, IIC_VSHLiQ,
4174                             "vshl", "s", int_arm_neon_vshifts>;
4175 defm VSHLu    : N3VInt_QHSDSh<1, 0, 0b0100, 0, N3RegVShFrm,
4176                             IIC_VSHLiD, IIC_VSHLiD, IIC_VSHLiQ, IIC_VSHLiQ,
4177                             "vshl", "u", int_arm_neon_vshiftu>;
4178
4179 //   VSHL     : Vector Shift Left (Immediate)
4180 defm VSHLi    : N2VShL_QHSD<0, 1, 0b0101, 1, IIC_VSHLiD, "vshl", "i", NEONvshl>;
4181
4182 //   VSHR     : Vector Shift Right (Immediate)
4183 defm VSHRs    : N2VShR_QHSD<0, 1, 0b0000, 1, IIC_VSHLiD, "vshr", "s",NEONvshrs>;
4184 defm VSHRu    : N2VShR_QHSD<1, 1, 0b0000, 1, IIC_VSHLiD, "vshr", "u",NEONvshru>;
4185
4186 //   VSHLL    : Vector Shift Left Long
4187 defm VSHLLs   : N2VLSh_QHS<0, 1, 0b1010, 0, 0, 1, "vshll", "s", NEONvshlls>;
4188 defm VSHLLu   : N2VLSh_QHS<1, 1, 0b1010, 0, 0, 1, "vshll", "u", NEONvshllu>;
4189
4190 //   VSHLL    : Vector Shift Left Long (with maximum shift count)
4191 class N2VLShMax<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,
4192                 bit op6, bit op4, string OpcodeStr, string Dt, ValueType ResTy,
4193                 ValueType OpTy, SDNode OpNode>
4194   : N2VLSh<op24, op23, op11_8, op7, op6, op4, OpcodeStr, Dt,
4195            ResTy, OpTy, OpNode> {
4196   let Inst{21-16} = op21_16;
4197   let DecoderMethod = "DecodeVSHLMaxInstruction";
4198 }
4199 def  VSHLLi8  : N2VLShMax<1, 1, 0b110010, 0b0011, 0, 0, 0, "vshll", "i8",
4200                           v8i16, v8i8, NEONvshlli>;
4201 def  VSHLLi16 : N2VLShMax<1, 1, 0b110110, 0b0011, 0, 0, 0, "vshll", "i16",
4202                           v4i32, v4i16, NEONvshlli>;
4203 def  VSHLLi32 : N2VLShMax<1, 1, 0b111010, 0b0011, 0, 0, 0, "vshll", "i32",
4204                           v2i64, v2i32, NEONvshlli>;
4205
4206 //   VSHRN    : Vector Shift Right and Narrow
4207 defm VSHRN    : N2VNSh_HSD<0,1,0b1000,0,0,1, IIC_VSHLiD, "vshrn", "i",
4208                            NEONvshrn>;
4209
4210 //   VRSHL    : Vector Rounding Shift
4211 defm VRSHLs   : N3VInt_QHSDSh<0, 0, 0b0101, 0, N3RegVShFrm,
4212                             IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q, IIC_VSHLi4Q,
4213                             "vrshl", "s", int_arm_neon_vrshifts>;
4214 defm VRSHLu   : N3VInt_QHSDSh<1, 0, 0b0101, 0, N3RegVShFrm,
4215                             IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q, IIC_VSHLi4Q,
4216                             "vrshl", "u", int_arm_neon_vrshiftu>;
4217 //   VRSHR    : Vector Rounding Shift Right
4218 defm VRSHRs   : N2VShR_QHSD<0,1,0b0010,1, IIC_VSHLi4D, "vrshr", "s",NEONvrshrs>;
4219 defm VRSHRu   : N2VShR_QHSD<1,1,0b0010,1, IIC_VSHLi4D, "vrshr", "u",NEONvrshru>;
4220
4221 //   VRSHRN   : Vector Rounding Shift Right and Narrow
4222 defm VRSHRN   : N2VNSh_HSD<0, 1, 0b1000, 0, 1, 1, IIC_VSHLi4D, "vrshrn", "i",
4223                            NEONvrshrn>;
4224
4225 //   VQSHL    : Vector Saturating Shift
4226 defm VQSHLs   : N3VInt_QHSDSh<0, 0, 0b0100, 1, N3RegVShFrm,
4227                             IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q, IIC_VSHLi4Q,
4228                             "vqshl", "s", int_arm_neon_vqshifts>;
4229 defm VQSHLu   : N3VInt_QHSDSh<1, 0, 0b0100, 1, N3RegVShFrm,
4230                             IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q, IIC_VSHLi4Q,
4231                             "vqshl", "u", int_arm_neon_vqshiftu>;
4232 //   VQSHL    : Vector Saturating Shift Left (Immediate)
4233 defm VQSHLsi  : N2VShL_QHSD<0,1,0b0111,1, IIC_VSHLi4D, "vqshl", "s",NEONvqshls>;
4234 defm VQSHLui  : N2VShL_QHSD<1,1,0b0111,1, IIC_VSHLi4D, "vqshl", "u",NEONvqshlu>;
4235
4236 //   VQSHLU   : Vector Saturating Shift Left (Immediate, Unsigned)
4237 defm VQSHLsu  : N2VShL_QHSD<1,1,0b0110,1, IIC_VSHLi4D,"vqshlu","s",NEONvqshlsu>;
4238
4239 //   VQSHRN   : Vector Saturating Shift Right and Narrow
4240 defm VQSHRNs  : N2VNSh_HSD<0, 1, 0b1001, 0, 0, 1, IIC_VSHLi4D, "vqshrn", "s",
4241                            NEONvqshrns>;
4242 defm VQSHRNu  : N2VNSh_HSD<1, 1, 0b1001, 0, 0, 1, IIC_VSHLi4D, "vqshrn", "u",
4243                            NEONvqshrnu>;
4244
4245 //   VQSHRUN  : Vector Saturating Shift Right and Narrow (Unsigned)
4246 defm VQSHRUN  : N2VNSh_HSD<1, 1, 0b1000, 0, 0, 1, IIC_VSHLi4D, "vqshrun", "s",
4247                            NEONvqshrnsu>;
4248
4249 //   VQRSHL   : Vector Saturating Rounding Shift
4250 defm VQRSHLs  : N3VInt_QHSDSh<0, 0, 0b0101, 1, N3RegVShFrm,
4251                             IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q, IIC_VSHLi4Q,
4252                             "vqrshl", "s", int_arm_neon_vqrshifts>;
4253 defm VQRSHLu  : N3VInt_QHSDSh<1, 0, 0b0101, 1, N3RegVShFrm,
4254                             IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q, IIC_VSHLi4Q,
4255                             "vqrshl", "u", int_arm_neon_vqrshiftu>;
4256
4257 //   VQRSHRN  : Vector Saturating Rounding Shift Right and Narrow
4258 defm VQRSHRNs : N2VNSh_HSD<0, 1, 0b1001, 0, 1, 1, IIC_VSHLi4D, "vqrshrn", "s",
4259                            NEONvqrshrns>;
4260 defm VQRSHRNu : N2VNSh_HSD<1, 1, 0b1001, 0, 1, 1, IIC_VSHLi4D, "vqrshrn", "u",
4261                            NEONvqrshrnu>;
4262
4263 //   VQRSHRUN : Vector Saturating Rounding Shift Right and Narrow (Unsigned)
4264 defm VQRSHRUN : N2VNSh_HSD<1, 1, 0b1000, 0, 1, 1, IIC_VSHLi4D, "vqrshrun", "s",
4265                            NEONvqrshrnsu>;
4266
4267 //   VSRA     : Vector Shift Right and Accumulate
4268 defm VSRAs    : N2VShAdd_QHSD<0, 1, 0b0001, 1, "vsra", "s", NEONvshrs>;
4269 defm VSRAu    : N2VShAdd_QHSD<1, 1, 0b0001, 1, "vsra", "u", NEONvshru>;
4270 //   VRSRA    : Vector Rounding Shift Right and Accumulate
4271 defm VRSRAs   : N2VShAdd_QHSD<0, 1, 0b0011, 1, "vrsra", "s", NEONvrshrs>;
4272 defm VRSRAu   : N2VShAdd_QHSD<1, 1, 0b0011, 1, "vrsra", "u", NEONvrshru>;
4273
4274 //   VSLI     : Vector Shift Left and Insert
4275 defm VSLI     : N2VShInsL_QHSD<1, 1, 0b0101, 1, "vsli">;
4276
4277 //   VSRI     : Vector Shift Right and Insert
4278 defm VSRI     : N2VShInsR_QHSD<1, 1, 0b0100, 1, "vsri">;
4279
4280 // Vector Absolute and Saturating Absolute.
4281
4282 //   VABS     : Vector Absolute Value
4283 defm VABS     : N2VInt_QHS<0b11, 0b11, 0b01, 0b00110, 0,
4284                            IIC_VUNAiD, IIC_VUNAiQ, "vabs", "s",
4285                            int_arm_neon_vabs>;
4286 def  VABSfd   : N2VDInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0,
4287                         IIC_VUNAD, "vabs", "f32",
4288                         v2f32, v2f32, int_arm_neon_vabs>;
4289 def  VABSfq   : N2VQInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0,
4290                         IIC_VUNAQ, "vabs", "f32",
4291                         v4f32, v4f32, int_arm_neon_vabs>;
4292
4293 //   VQABS    : Vector Saturating Absolute Value
4294 defm VQABS    : N2VInt_QHS<0b11, 0b11, 0b00, 0b01110, 0,
4295                            IIC_VQUNAiD, IIC_VQUNAiQ, "vqabs", "s",
4296                            int_arm_neon_vqabs>;
4297
4298 // Vector Negate.
4299
4300 def vnegd  : PatFrag<(ops node:$in),
4301                      (sub (bitconvert (v2i32 NEONimmAllZerosV)), node:$in)>;
4302 def vnegq  : PatFrag<(ops node:$in),
4303                      (sub (bitconvert (v4i32 NEONimmAllZerosV)), node:$in)>;
4304
4305 class VNEGD<bits<2> size, string OpcodeStr, string Dt, ValueType Ty>
4306   : N2V<0b11, 0b11, size, 0b01, 0b00111, 0, 0, (outs DPR:$Vd), (ins DPR:$Vm),
4307         IIC_VSHLiD, OpcodeStr, Dt, "$Vd, $Vm", "",
4308         [(set DPR:$Vd, (Ty (vnegd DPR:$Vm)))]>;
4309 class VNEGQ<bits<2> size, string OpcodeStr, string Dt, ValueType Ty>
4310   : N2V<0b11, 0b11, size, 0b01, 0b00111, 1, 0, (outs QPR:$Vd), (ins QPR:$Vm),
4311         IIC_VSHLiQ, OpcodeStr, Dt, "$Vd, $Vm", "",
4312         [(set QPR:$Vd, (Ty (vnegq QPR:$Vm)))]>;
4313
4314 //   VNEG     : Vector Negate (integer)
4315 def  VNEGs8d  : VNEGD<0b00, "vneg", "s8", v8i8>;
4316 def  VNEGs16d : VNEGD<0b01, "vneg", "s16", v4i16>;
4317 def  VNEGs32d : VNEGD<0b10, "vneg", "s32", v2i32>;
4318 def  VNEGs8q  : VNEGQ<0b00, "vneg", "s8", v16i8>;
4319 def  VNEGs16q : VNEGQ<0b01, "vneg", "s16", v8i16>;
4320 def  VNEGs32q : VNEGQ<0b10, "vneg", "s32", v4i32>;
4321
4322 //   VNEG     : Vector Negate (floating-point)
4323 def  VNEGfd   : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 0, 0,
4324                     (outs DPR:$Vd), (ins DPR:$Vm), IIC_VUNAD,
4325                     "vneg", "f32", "$Vd, $Vm", "",
4326                     [(set DPR:$Vd, (v2f32 (fneg DPR:$Vm)))]>;
4327 def  VNEGf32q : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 1, 0,
4328                     (outs QPR:$Vd), (ins QPR:$Vm), IIC_VUNAQ,
4329                     "vneg", "f32", "$Vd, $Vm", "",
4330                     [(set QPR:$Vd, (v4f32 (fneg QPR:$Vm)))]>;
4331
4332 def : Pat<(v8i8  (vnegd  DPR:$src)), (VNEGs8d DPR:$src)>;
4333 def : Pat<(v4i16 (vnegd  DPR:$src)), (VNEGs16d DPR:$src)>;
4334 def : Pat<(v2i32 (vnegd  DPR:$src)), (VNEGs32d DPR:$src)>;
4335 def : Pat<(v16i8 (vnegq QPR:$src)), (VNEGs8q QPR:$src)>;
4336 def : Pat<(v8i16 (vnegq QPR:$src)), (VNEGs16q QPR:$src)>;
4337 def : Pat<(v4i32 (vnegq QPR:$src)), (VNEGs32q QPR:$src)>;
4338
4339 //   VQNEG    : Vector Saturating Negate
4340 defm VQNEG    : N2VInt_QHS<0b11, 0b11, 0b00, 0b01111, 0,
4341                            IIC_VQUNAiD, IIC_VQUNAiQ, "vqneg", "s",
4342                            int_arm_neon_vqneg>;
4343
4344 // Vector Bit Counting Operations.
4345
4346 //   VCLS     : Vector Count Leading Sign Bits
4347 defm VCLS     : N2VInt_QHS<0b11, 0b11, 0b00, 0b01000, 0,
4348                            IIC_VCNTiD, IIC_VCNTiQ, "vcls", "s",
4349                            int_arm_neon_vcls>;
4350 //   VCLZ     : Vector Count Leading Zeros
4351 defm VCLZ     : N2VInt_QHS<0b11, 0b11, 0b00, 0b01001, 0,
4352                            IIC_VCNTiD, IIC_VCNTiQ, "vclz", "i",
4353                            int_arm_neon_vclz>;
4354 //   VCNT     : Vector Count One Bits
4355 def  VCNTd    : N2VDInt<0b11, 0b11, 0b00, 0b00, 0b01010, 0,
4356                         IIC_VCNTiD, "vcnt", "8",
4357                         v8i8, v8i8, int_arm_neon_vcnt>;
4358 def  VCNTq    : N2VQInt<0b11, 0b11, 0b00, 0b00, 0b01010, 0,
4359                         IIC_VCNTiQ, "vcnt", "8",
4360                         v16i8, v16i8, int_arm_neon_vcnt>;
4361
4362 // Vector Swap
4363 def  VSWPd    : N2VX<0b11, 0b11, 0b00, 0b10, 0b00000, 0, 0,
4364                      (outs DPR:$Vd), (ins DPR:$Vm), NoItinerary,
4365                      "vswp", "$Vd, $Vm", "", []>;
4366 def  VSWPq    : N2VX<0b11, 0b11, 0b00, 0b10, 0b00000, 1, 0,
4367                      (outs QPR:$Vd), (ins QPR:$Vm), NoItinerary,
4368                      "vswp", "$Vd, $Vm", "", []>;
4369
4370 // Vector Move Operations.
4371
4372 //   VMOV     : Vector Move (Register)
4373 def : InstAlias<"vmov${p} $Vd, $Vm",
4374                 (VORRd DPR:$Vd, DPR:$Vm, DPR:$Vm, pred:$p)>;
4375 def : InstAlias<"vmov${p} $Vd, $Vm",
4376                 (VORRq QPR:$Vd, QPR:$Vm, QPR:$Vm, pred:$p)>;
4377
4378 //   VMOV     : Vector Move (Immediate)
4379
4380 let isReMaterializable = 1 in {
4381 def VMOVv8i8  : N1ModImm<1, 0b000, 0b1110, 0, 0, 0, 1, (outs DPR:$Vd),
4382                          (ins nImmSplatI8:$SIMM), IIC_VMOVImm,
4383                          "vmov", "i8", "$Vd, $SIMM", "",
4384                          [(set DPR:$Vd, (v8i8 (NEONvmovImm timm:$SIMM)))]>;
4385 def VMOVv16i8 : N1ModImm<1, 0b000, 0b1110, 0, 1, 0, 1, (outs QPR:$Vd),
4386                          (ins nImmSplatI8:$SIMM), IIC_VMOVImm,
4387                          "vmov", "i8", "$Vd, $SIMM", "",
4388                          [(set QPR:$Vd, (v16i8 (NEONvmovImm timm:$SIMM)))]>;
4389
4390 def VMOVv4i16 : N1ModImm<1, 0b000, {1,0,?,0}, 0, 0, 0, 1, (outs DPR:$Vd),
4391                          (ins nImmSplatI16:$SIMM), IIC_VMOVImm,
4392                          "vmov", "i16", "$Vd, $SIMM", "",
4393                          [(set DPR:$Vd, (v4i16 (NEONvmovImm timm:$SIMM)))]> {
4394   let Inst{9} = SIMM{9};
4395 }
4396
4397 def VMOVv8i16 : N1ModImm<1, 0b000, {1,0,?,0}, 0, 1, 0, 1, (outs QPR:$Vd),
4398                          (ins nImmSplatI16:$SIMM), IIC_VMOVImm,
4399                          "vmov", "i16", "$Vd, $SIMM", "",
4400                          [(set QPR:$Vd, (v8i16 (NEONvmovImm timm:$SIMM)))]> {
4401  let Inst{9} = SIMM{9};
4402 }
4403
4404 def VMOVv2i32 : N1ModImm<1, 0b000, {?,?,?,?}, 0, 0, 0, 1, (outs DPR:$Vd),
4405                          (ins nImmVMOVI32:$SIMM), IIC_VMOVImm,
4406                          "vmov", "i32", "$Vd, $SIMM", "",
4407                          [(set DPR:$Vd, (v2i32 (NEONvmovImm timm:$SIMM)))]> {
4408   let Inst{11-8} = SIMM{11-8};
4409 }
4410
4411 def VMOVv4i32 : N1ModImm<1, 0b000, {?,?,?,?}, 0, 1, 0, 1, (outs QPR:$Vd),
4412                          (ins nImmVMOVI32:$SIMM), IIC_VMOVImm,
4413                          "vmov", "i32", "$Vd, $SIMM", "",
4414                          [(set QPR:$Vd, (v4i32 (NEONvmovImm timm:$SIMM)))]> {
4415   let Inst{11-8} = SIMM{11-8};
4416 }
4417
4418 def VMOVv1i64 : N1ModImm<1, 0b000, 0b1110, 0, 0, 1, 1, (outs DPR:$Vd),
4419                          (ins nImmSplatI64:$SIMM), IIC_VMOVImm,
4420                          "vmov", "i64", "$Vd, $SIMM", "",
4421                          [(set DPR:$Vd, (v1i64 (NEONvmovImm timm:$SIMM)))]>;
4422 def VMOVv2i64 : N1ModImm<1, 0b000, 0b1110, 0, 1, 1, 1, (outs QPR:$Vd),
4423                          (ins nImmSplatI64:$SIMM), IIC_VMOVImm,
4424                          "vmov", "i64", "$Vd, $SIMM", "",
4425                          [(set QPR:$Vd, (v2i64 (NEONvmovImm timm:$SIMM)))]>;
4426 } // isReMaterializable
4427
4428 //   VMOV     : Vector Get Lane (move scalar to ARM core register)
4429
4430 def VGETLNs8  : NVGetLane<{1,1,1,0,0,1,?,1}, 0b1011, {?,?},
4431                           (outs GPR:$R), (ins DPR:$V, VectorIndex8:$lane),
4432                           IIC_VMOVSI, "vmov", "s8", "$R, $V$lane",
4433                           [(set GPR:$R, (NEONvgetlanes (v8i8 DPR:$V),
4434                                            imm:$lane))]> {
4435   let Inst{21}  = lane{2};
4436   let Inst{6-5} = lane{1-0};
4437 }
4438 def VGETLNs16 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, {?,1},
4439                           (outs GPR:$R), (ins DPR:$V, VectorIndex16:$lane),
4440                           IIC_VMOVSI, "vmov", "s16", "$R, $V$lane",
4441                           [(set GPR:$R, (NEONvgetlanes (v4i16 DPR:$V),
4442                                            imm:$lane))]> {
4443   let Inst{21} = lane{1};
4444   let Inst{6}  = lane{0};
4445 }
4446 def VGETLNu8  : NVGetLane<{1,1,1,0,1,1,?,1}, 0b1011, {?,?},
4447                           (outs GPR:$R), (ins DPR:$V, VectorIndex8:$lane),
4448                           IIC_VMOVSI, "vmov", "u8", "$R, $V$lane",
4449                           [(set GPR:$R, (NEONvgetlaneu (v8i8 DPR:$V),
4450                                            imm:$lane))]> {
4451   let Inst{21}  = lane{2};
4452   let Inst{6-5} = lane{1-0};
4453 }
4454 def VGETLNu16 : NVGetLane<{1,1,1,0,1,0,?,1}, 0b1011, {?,1},
4455                           (outs GPR:$R), (ins DPR:$V, VectorIndex16:$lane),
4456                           IIC_VMOVSI, "vmov", "u16", "$R, $V$lane",
4457                           [(set GPR:$R, (NEONvgetlaneu (v4i16 DPR:$V),
4458                                            imm:$lane))]> {
4459   let Inst{21} = lane{1};
4460   let Inst{6}  = lane{0};
4461 }
4462 def VGETLNi32 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, 0b00,
4463                           (outs GPR:$R), (ins DPR:$V, VectorIndex32:$lane),
4464                           IIC_VMOVSI, "vmov", "32", "$R, $V$lane",
4465                           [(set GPR:$R, (extractelt (v2i32 DPR:$V),
4466                                            imm:$lane))]> {
4467   let Inst{21} = lane{0};
4468 }
4469 // def VGETLNf32: see FMRDH and FMRDL in ARMInstrVFP.td
4470 def : Pat<(NEONvgetlanes (v16i8 QPR:$src), imm:$lane),
4471           (VGETLNs8 (v8i8 (EXTRACT_SUBREG QPR:$src,
4472                            (DSubReg_i8_reg imm:$lane))),
4473                      (SubReg_i8_lane imm:$lane))>;
4474 def : Pat<(NEONvgetlanes (v8i16 QPR:$src), imm:$lane),
4475           (VGETLNs16 (v4i16 (EXTRACT_SUBREG QPR:$src,
4476                              (DSubReg_i16_reg imm:$lane))),
4477                      (SubReg_i16_lane imm:$lane))>;
4478 def : Pat<(NEONvgetlaneu (v16i8 QPR:$src), imm:$lane),
4479           (VGETLNu8 (v8i8 (EXTRACT_SUBREG QPR:$src,
4480                            (DSubReg_i8_reg imm:$lane))),
4481                      (SubReg_i8_lane imm:$lane))>;
4482 def : Pat<(NEONvgetlaneu (v8i16 QPR:$src), imm:$lane),
4483           (VGETLNu16 (v4i16 (EXTRACT_SUBREG QPR:$src,
4484                              (DSubReg_i16_reg imm:$lane))),
4485                      (SubReg_i16_lane imm:$lane))>;
4486 def : Pat<(extractelt (v4i32 QPR:$src), imm:$lane),
4487           (VGETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src,
4488                              (DSubReg_i32_reg imm:$lane))),
4489                      (SubReg_i32_lane imm:$lane))>;
4490 def : Pat<(extractelt (v2f32 DPR:$src1), imm:$src2),
4491           (EXTRACT_SUBREG (v2f32 (COPY_TO_REGCLASS (v2f32 DPR:$src1),DPR_VFP2)),
4492                           (SSubReg_f32_reg imm:$src2))>;
4493 def : Pat<(extractelt (v4f32 QPR:$src1), imm:$src2),
4494           (EXTRACT_SUBREG (v4f32 (COPY_TO_REGCLASS (v4f32 QPR:$src1),QPR_VFP2)),
4495                           (SSubReg_f32_reg imm:$src2))>;
4496 //def : Pat<(extractelt (v2i64 QPR:$src1), imm:$src2),
4497 //          (EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;
4498 def : Pat<(extractelt (v2f64 QPR:$src1), imm:$src2),
4499           (EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;
4500
4501
4502 //   VMOV     : Vector Set Lane (move ARM core register to scalar)
4503
4504 let Constraints = "$src1 = $V" in {
4505 def VSETLNi8  : NVSetLane<{1,1,1,0,0,1,?,0}, 0b1011, {?,?}, (outs DPR:$V),
4506                           (ins DPR:$src1, GPR:$R, VectorIndex8:$lane),
4507                           IIC_VMOVISL, "vmov", "8", "$V$lane, $R",
4508                           [(set DPR:$V, (vector_insert (v8i8 DPR:$src1),
4509                                            GPR:$R, imm:$lane))]> {
4510   let Inst{21}  = lane{2};
4511   let Inst{6-5} = lane{1-0};
4512 }
4513 def VSETLNi16 : NVSetLane<{1,1,1,0,0,0,?,0}, 0b1011, {?,1}, (outs DPR:$V),
4514                           (ins DPR:$src1, GPR:$R, VectorIndex16:$lane),
4515                           IIC_VMOVISL, "vmov", "16", "$V$lane, $R",
4516                           [(set DPR:$V, (vector_insert (v4i16 DPR:$src1),
4517                                            GPR:$R, imm:$lane))]> {
4518   let Inst{21} = lane{1};
4519   let Inst{6}  = lane{0};
4520 }
4521 def VSETLNi32 : NVSetLane<{1,1,1,0,0,0,?,0}, 0b1011, 0b00, (outs DPR:$V),
4522                           (ins DPR:$src1, GPR:$R, VectorIndex32:$lane),
4523                           IIC_VMOVISL, "vmov", "32", "$V$lane, $R",
4524                           [(set DPR:$V, (insertelt (v2i32 DPR:$src1),
4525                                            GPR:$R, imm:$lane))]> {
4526   let Inst{21} = lane{0};
4527 }
4528 }
4529 def : Pat<(vector_insert (v16i8 QPR:$src1), GPR:$src2, imm:$lane),
4530           (v16i8 (INSERT_SUBREG QPR:$src1,
4531                   (v8i8 (VSETLNi8 (v8i8 (EXTRACT_SUBREG QPR:$src1,
4532                                    (DSubReg_i8_reg imm:$lane))),
4533                             GPR:$src2, (SubReg_i8_lane imm:$lane))),
4534                   (DSubReg_i8_reg imm:$lane)))>;
4535 def : Pat<(vector_insert (v8i16 QPR:$src1), GPR:$src2, imm:$lane),
4536           (v8i16 (INSERT_SUBREG QPR:$src1,
4537                   (v4i16 (VSETLNi16 (v4i16 (EXTRACT_SUBREG QPR:$src1,
4538                                      (DSubReg_i16_reg imm:$lane))),
4539                              GPR:$src2, (SubReg_i16_lane imm:$lane))),
4540                   (DSubReg_i16_reg imm:$lane)))>;
4541 def : Pat<(insertelt (v4i32 QPR:$src1), GPR:$src2, imm:$lane),
4542           (v4i32 (INSERT_SUBREG QPR:$src1,
4543                   (v2i32 (VSETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src1,
4544                                      (DSubReg_i32_reg imm:$lane))),
4545                              GPR:$src2, (SubReg_i32_lane imm:$lane))),
4546                   (DSubReg_i32_reg imm:$lane)))>;
4547
4548 def : Pat<(v2f32 (insertelt DPR:$src1, SPR:$src2, imm:$src3)),
4549           (INSERT_SUBREG (v2f32 (COPY_TO_REGCLASS DPR:$src1, DPR_VFP2)),
4550                                 SPR:$src2, (SSubReg_f32_reg imm:$src3))>;
4551 def : Pat<(v4f32 (insertelt QPR:$src1, SPR:$src2, imm:$src3)),
4552           (INSERT_SUBREG (v4f32 (COPY_TO_REGCLASS QPR:$src1, QPR_VFP2)),
4553                                 SPR:$src2, (SSubReg_f32_reg imm:$src3))>;
4554
4555 //def : Pat<(v2i64 (insertelt QPR:$src1, DPR:$src2, imm:$src3)),
4556 //          (INSERT_SUBREG QPR:$src1, DPR:$src2, (DSubReg_f64_reg imm:$src3))>;
4557 def : Pat<(v2f64 (insertelt QPR:$src1, DPR:$src2, imm:$src3)),
4558           (INSERT_SUBREG QPR:$src1, DPR:$src2, (DSubReg_f64_reg imm:$src3))>;
4559
4560 def : Pat<(v2f32 (scalar_to_vector SPR:$src)),
4561           (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$src, ssub_0)>;
4562 def : Pat<(v2f64 (scalar_to_vector (f64 DPR:$src))),
4563           (INSERT_SUBREG (v2f64 (IMPLICIT_DEF)), DPR:$src, dsub_0)>;
4564 def : Pat<(v4f32 (scalar_to_vector SPR:$src)),
4565           (INSERT_SUBREG (v4f32 (IMPLICIT_DEF)), SPR:$src, ssub_0)>;
4566
4567 def : Pat<(v8i8 (scalar_to_vector GPR:$src)),
4568           (VSETLNi8  (v8i8  (IMPLICIT_DEF)), GPR:$src, (i32 0))>;
4569 def : Pat<(v4i16 (scalar_to_vector GPR:$src)),
4570           (VSETLNi16 (v4i16 (IMPLICIT_DEF)), GPR:$src, (i32 0))>;
4571 def : Pat<(v2i32 (scalar_to_vector GPR:$src)),
4572           (VSETLNi32 (v2i32 (IMPLICIT_DEF)), GPR:$src, (i32 0))>;
4573
4574 def : Pat<(v16i8 (scalar_to_vector GPR:$src)),
4575           (INSERT_SUBREG (v16i8 (IMPLICIT_DEF)),
4576                          (VSETLNi8 (v8i8 (IMPLICIT_DEF)), GPR:$src, (i32 0)),
4577                          dsub_0)>;
4578 def : Pat<(v8i16 (scalar_to_vector GPR:$src)),
4579           (INSERT_SUBREG (v8i16 (IMPLICIT_DEF)),
4580                          (VSETLNi16 (v4i16 (IMPLICIT_DEF)), GPR:$src, (i32 0)),
4581                          dsub_0)>;
4582 def : Pat<(v4i32 (scalar_to_vector GPR:$src)),
4583           (INSERT_SUBREG (v4i32 (IMPLICIT_DEF)),
4584                          (VSETLNi32 (v2i32 (IMPLICIT_DEF)), GPR:$src, (i32 0)),
4585                          dsub_0)>;
4586
4587 //   VDUP     : Vector Duplicate (from ARM core register to all elements)
4588
4589 class VDUPD<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>
4590   : NVDup<opcod1, 0b1011, opcod3, (outs DPR:$V), (ins GPR:$R),
4591           IIC_VMOVIS, "vdup", Dt, "$V, $R",
4592           [(set DPR:$V, (Ty (NEONvdup (i32 GPR:$R))))]>;
4593 class VDUPQ<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>
4594   : NVDup<opcod1, 0b1011, opcod3, (outs QPR:$V), (ins GPR:$R),
4595           IIC_VMOVIS, "vdup", Dt, "$V, $R",
4596           [(set QPR:$V, (Ty (NEONvdup (i32 GPR:$R))))]>;
4597
4598 def  VDUP8d   : VDUPD<0b11101100, 0b00, "8", v8i8>;
4599 def  VDUP16d  : VDUPD<0b11101000, 0b01, "16", v4i16>;
4600 def  VDUP32d  : VDUPD<0b11101000, 0b00, "32", v2i32>;
4601 def  VDUP8q   : VDUPQ<0b11101110, 0b00, "8", v16i8>;
4602 def  VDUP16q  : VDUPQ<0b11101010, 0b01, "16", v8i16>;
4603 def  VDUP32q  : VDUPQ<0b11101010, 0b00, "32", v4i32>;
4604
4605 def : Pat<(v2f32 (NEONvdup (f32 (bitconvert GPR:$R)))), (VDUP32d GPR:$R)>;
4606 def : Pat<(v4f32 (NEONvdup (f32 (bitconvert GPR:$R)))), (VDUP32q GPR:$R)>;
4607
4608 //   VDUP     : Vector Duplicate Lane (from scalar to all elements)
4609
4610 class VDUPLND<bits<4> op19_16, string OpcodeStr, string Dt,
4611               ValueType Ty, Operand IdxTy>
4612   : NVDupLane<op19_16, 0, (outs DPR:$Vd), (ins DPR:$Vm, IdxTy:$lane),
4613               IIC_VMOVD, OpcodeStr, Dt, "$Vd, $Vm$lane",
4614               [(set DPR:$Vd, (Ty (NEONvduplane (Ty DPR:$Vm), imm:$lane)))]>;
4615
4616 class VDUPLNQ<bits<4> op19_16, string OpcodeStr, string Dt,
4617               ValueType ResTy, ValueType OpTy, Operand IdxTy>
4618   : NVDupLane<op19_16, 1, (outs QPR:$Vd), (ins DPR:$Vm, IdxTy:$lane),
4619               IIC_VMOVQ, OpcodeStr, Dt, "$Vd, $Vm$lane",
4620               [(set QPR:$Vd, (ResTy (NEONvduplane (OpTy DPR:$Vm),
4621                                       VectorIndex32:$lane)))]>;
4622
4623 // Inst{19-16} is partially specified depending on the element size.
4624
4625 def VDUPLN8d  : VDUPLND<{?,?,?,1}, "vdup", "8", v8i8, VectorIndex8> {
4626   bits<3> lane;
4627   let Inst{19-17} = lane{2-0};
4628 }
4629 def VDUPLN16d : VDUPLND<{?,?,1,0}, "vdup", "16", v4i16, VectorIndex16> {
4630   bits<2> lane;
4631   let Inst{19-18} = lane{1-0};
4632 }
4633 def VDUPLN32d : VDUPLND<{?,1,0,0}, "vdup", "32", v2i32, VectorIndex32> {
4634   bits<1> lane;
4635   let Inst{19} = lane{0};
4636 }
4637 def VDUPLN8q  : VDUPLNQ<{?,?,?,1}, "vdup", "8", v16i8, v8i8, VectorIndex8> {
4638   bits<3> lane;
4639   let Inst{19-17} = lane{2-0};
4640 }
4641 def VDUPLN16q : VDUPLNQ<{?,?,1,0}, "vdup", "16", v8i16, v4i16, VectorIndex16> {
4642   bits<2> lane;
4643   let Inst{19-18} = lane{1-0};
4644 }
4645 def VDUPLN32q : VDUPLNQ<{?,1,0,0}, "vdup", "32", v4i32, v2i32, VectorIndex32> {
4646   bits<1> lane;
4647   let Inst{19} = lane{0};
4648 }
4649
4650 def : Pat<(v2f32 (NEONvduplane (v2f32 DPR:$Vm), imm:$lane)),
4651           (VDUPLN32d DPR:$Vm, imm:$lane)>;
4652
4653 def : Pat<(v4f32 (NEONvduplane (v2f32 DPR:$Vm), imm:$lane)),
4654           (VDUPLN32q DPR:$Vm, imm:$lane)>;
4655
4656 def : Pat<(v16i8 (NEONvduplane (v16i8 QPR:$src), imm:$lane)),
4657           (v16i8 (VDUPLN8q (v8i8 (EXTRACT_SUBREG QPR:$src,
4658                                   (DSubReg_i8_reg imm:$lane))),
4659                            (SubReg_i8_lane imm:$lane)))>;
4660 def : Pat<(v8i16 (NEONvduplane (v8i16 QPR:$src), imm:$lane)),
4661           (v8i16 (VDUPLN16q (v4i16 (EXTRACT_SUBREG QPR:$src,
4662                                     (DSubReg_i16_reg imm:$lane))),
4663                             (SubReg_i16_lane imm:$lane)))>;
4664 def : Pat<(v4i32 (NEONvduplane (v4i32 QPR:$src), imm:$lane)),
4665           (v4i32 (VDUPLN32q (v2i32 (EXTRACT_SUBREG QPR:$src,
4666                                     (DSubReg_i32_reg imm:$lane))),
4667                             (SubReg_i32_lane imm:$lane)))>;
4668 def : Pat<(v4f32 (NEONvduplane (v4f32 QPR:$src), imm:$lane)),
4669           (v4f32 (VDUPLN32q (v2f32 (EXTRACT_SUBREG QPR:$src,
4670                                    (DSubReg_i32_reg imm:$lane))),
4671                            (SubReg_i32_lane imm:$lane)))>;
4672
4673 def  VDUPfdf : PseudoNeonI<(outs DPR:$dst), (ins SPR:$src), IIC_VMOVD, "",
4674                     [(set DPR:$dst, (v2f32 (NEONvdup (f32 SPR:$src))))]>;
4675 def  VDUPfqf : PseudoNeonI<(outs QPR:$dst), (ins SPR:$src), IIC_VMOVD, "",
4676                     [(set QPR:$dst, (v4f32 (NEONvdup (f32 SPR:$src))))]>;
4677
4678 //   VMOVN    : Vector Narrowing Move
4679 defm VMOVN    : N2VN_HSD<0b11,0b11,0b10,0b00100,0,0, IIC_VMOVN,
4680                          "vmovn", "i", trunc>;
4681 //   VQMOVN   : Vector Saturating Narrowing Move
4682 defm VQMOVNs  : N2VNInt_HSD<0b11,0b11,0b10,0b00101,0,0, IIC_VQUNAiD,
4683                             "vqmovn", "s", int_arm_neon_vqmovns>;
4684 defm VQMOVNu  : N2VNInt_HSD<0b11,0b11,0b10,0b00101,1,0, IIC_VQUNAiD,
4685                             "vqmovn", "u", int_arm_neon_vqmovnu>;
4686 defm VQMOVNsu : N2VNInt_HSD<0b11,0b11,0b10,0b00100,1,0, IIC_VQUNAiD,
4687                             "vqmovun", "s", int_arm_neon_vqmovnsu>;
4688 //   VMOVL    : Vector Lengthening Move
4689 defm VMOVLs   : N2VL_QHS<0b01,0b10100,0,1, "vmovl", "s", sext>;
4690 defm VMOVLu   : N2VL_QHS<0b11,0b10100,0,1, "vmovl", "u", zext>;
4691
4692 // Vector Conversions.
4693
4694 //   VCVT     : Vector Convert Between Floating-Point and Integers
4695 def  VCVTf2sd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt", "s32.f32",
4696                      v2i32, v2f32, fp_to_sint>;
4697 def  VCVTf2ud : N2VD<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt", "u32.f32",
4698                      v2i32, v2f32, fp_to_uint>;
4699 def  VCVTs2fd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt", "f32.s32",
4700                      v2f32, v2i32, sint_to_fp>;
4701 def  VCVTu2fd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt", "f32.u32",
4702                      v2f32, v2i32, uint_to_fp>;
4703
4704 def  VCVTf2sq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt", "s32.f32",
4705                      v4i32, v4f32, fp_to_sint>;
4706 def  VCVTf2uq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt", "u32.f32",
4707                      v4i32, v4f32, fp_to_uint>;
4708 def  VCVTs2fq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt", "f32.s32",
4709                      v4f32, v4i32, sint_to_fp>;
4710 def  VCVTu2fq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt", "f32.u32",
4711                      v4f32, v4i32, uint_to_fp>;
4712
4713 //   VCVT     : Vector Convert Between Floating-Point and Fixed-Point.
4714 def VCVTf2xsd : N2VCvtD<0, 1, 0b1111, 0, 1, "vcvt", "s32.f32",
4715                         v2i32, v2f32, int_arm_neon_vcvtfp2fxs>;
4716 def VCVTf2xud : N2VCvtD<1, 1, 0b1111, 0, 1, "vcvt", "u32.f32",
4717                         v2i32, v2f32, int_arm_neon_vcvtfp2fxu>;
4718 def VCVTxs2fd : N2VCvtD<0, 1, 0b1110, 0, 1, "vcvt", "f32.s32",
4719                         v2f32, v2i32, int_arm_neon_vcvtfxs2fp>;
4720 def VCVTxu2fd : N2VCvtD<1, 1, 0b1110, 0, 1, "vcvt", "f32.u32",
4721                         v2f32, v2i32, int_arm_neon_vcvtfxu2fp>;
4722
4723 def VCVTf2xsq : N2VCvtQ<0, 1, 0b1111, 0, 1, "vcvt", "s32.f32",
4724                         v4i32, v4f32, int_arm_neon_vcvtfp2fxs>;
4725 def VCVTf2xuq : N2VCvtQ<1, 1, 0b1111, 0, 1, "vcvt", "u32.f32",
4726                         v4i32, v4f32, int_arm_neon_vcvtfp2fxu>;
4727 def VCVTxs2fq : N2VCvtQ<0, 1, 0b1110, 0, 1, "vcvt", "f32.s32",
4728                         v4f32, v4i32, int_arm_neon_vcvtfxs2fp>;
4729 def VCVTxu2fq : N2VCvtQ<1, 1, 0b1110, 0, 1, "vcvt", "f32.u32",
4730                         v4f32, v4i32, int_arm_neon_vcvtfxu2fp>;
4731
4732 //   VCVT     : Vector Convert Between Half-Precision and Single-Precision.
4733 def  VCVTf2h  : N2VNInt<0b11, 0b11, 0b01, 0b10, 0b01100, 0, 0,
4734                         IIC_VUNAQ, "vcvt", "f16.f32",
4735                         v4i16, v4f32, int_arm_neon_vcvtfp2hf>,
4736                 Requires<[HasNEON, HasFP16]>;
4737 def  VCVTh2f  : N2VLInt<0b11, 0b11, 0b01, 0b10, 0b01110, 0, 0,
4738                         IIC_VUNAQ, "vcvt", "f32.f16",
4739                         v4f32, v4i16, int_arm_neon_vcvthf2fp>,
4740                 Requires<[HasNEON, HasFP16]>;
4741
4742 // Vector Reverse.
4743
4744 //   VREV64   : Vector Reverse elements within 64-bit doublewords
4745
4746 class VREV64D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
4747   : N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 0, 0, (outs DPR:$Vd),
4748         (ins DPR:$Vm), IIC_VMOVD,
4749         OpcodeStr, Dt, "$Vd, $Vm", "",
4750         [(set DPR:$Vd, (Ty (NEONvrev64 (Ty DPR:$Vm))))]>;
4751 class VREV64Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
4752   : N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 1, 0, (outs QPR:$Vd),
4753         (ins QPR:$Vm), IIC_VMOVQ,
4754         OpcodeStr, Dt, "$Vd, $Vm", "",
4755         [(set QPR:$Vd, (Ty (NEONvrev64 (Ty QPR:$Vm))))]>;
4756
4757 def VREV64d8  : VREV64D<0b00, "vrev64", "8", v8i8>;
4758 def VREV64d16 : VREV64D<0b01, "vrev64", "16", v4i16>;
4759 def VREV64d32 : VREV64D<0b10, "vrev64", "32", v2i32>;
4760 def : Pat<(v2f32 (NEONvrev64 (v2f32 DPR:$Vm))), (VREV64d32 DPR:$Vm)>;
4761
4762 def VREV64q8  : VREV64Q<0b00, "vrev64", "8", v16i8>;
4763 def VREV64q16 : VREV64Q<0b01, "vrev64", "16", v8i16>;
4764 def VREV64q32 : VREV64Q<0b10, "vrev64", "32", v4i32>;
4765 def : Pat<(v4f32 (NEONvrev64 (v4f32 QPR:$Vm))), (VREV64q32 QPR:$Vm)>;
4766
4767 //   VREV32   : Vector Reverse elements within 32-bit words
4768
4769 class VREV32D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
4770   : N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 0, 0, (outs DPR:$Vd),
4771         (ins DPR:$Vm), IIC_VMOVD,
4772         OpcodeStr, Dt, "$Vd, $Vm", "",
4773         [(set DPR:$Vd, (Ty (NEONvrev32 (Ty DPR:$Vm))))]>;
4774 class VREV32Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
4775   : N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 1, 0, (outs QPR:$Vd),
4776         (ins QPR:$Vm), IIC_VMOVQ,
4777         OpcodeStr, Dt, "$Vd, $Vm", "",
4778         [(set QPR:$Vd, (Ty (NEONvrev32 (Ty QPR:$Vm))))]>;
4779
4780 def VREV32d8  : VREV32D<0b00, "vrev32", "8", v8i8>;
4781 def VREV32d16 : VREV32D<0b01, "vrev32", "16", v4i16>;
4782
4783 def VREV32q8  : VREV32Q<0b00, "vrev32", "8", v16i8>;
4784 def VREV32q16 : VREV32Q<0b01, "vrev32", "16", v8i16>;
4785
4786 //   VREV16   : Vector Reverse elements within 16-bit halfwords
4787
4788 class VREV16D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
4789   : N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 0, 0, (outs DPR:$Vd),
4790         (ins DPR:$Vm), IIC_VMOVD,
4791         OpcodeStr, Dt, "$Vd, $Vm", "",
4792         [(set DPR:$Vd, (Ty (NEONvrev16 (Ty DPR:$Vm))))]>;
4793 class VREV16Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
4794   : N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 1, 0, (outs QPR:$Vd),
4795         (ins QPR:$Vm), IIC_VMOVQ,
4796         OpcodeStr, Dt, "$Vd, $Vm", "",
4797         [(set QPR:$Vd, (Ty (NEONvrev16 (Ty QPR:$Vm))))]>;
4798
4799 def VREV16d8  : VREV16D<0b00, "vrev16", "8", v8i8>;
4800 def VREV16q8  : VREV16Q<0b00, "vrev16", "8", v16i8>;
4801
4802 // Other Vector Shuffles.
4803
4804 //  Aligned extractions: really just dropping registers
4805
4806 class AlignedVEXTq<ValueType DestTy, ValueType SrcTy, SDNodeXForm LaneCVT>
4807       : Pat<(DestTy (vector_extract_subvec (SrcTy QPR:$src), (i32 imm:$start))),
4808              (EXTRACT_SUBREG (SrcTy QPR:$src), (LaneCVT imm:$start))>;
4809
4810 def : AlignedVEXTq<v8i8, v16i8, DSubReg_i8_reg>;
4811
4812 def : AlignedVEXTq<v4i16, v8i16, DSubReg_i16_reg>;
4813
4814 def : AlignedVEXTq<v2i32, v4i32, DSubReg_i32_reg>;
4815
4816 def : AlignedVEXTq<v1i64, v2i64, DSubReg_f64_reg>;
4817
4818 def : AlignedVEXTq<v2f32, v4f32, DSubReg_i32_reg>;
4819
4820
4821 //   VEXT     : Vector Extract
4822
4823 class VEXTd<string OpcodeStr, string Dt, ValueType Ty>
4824   : N3V<0,1,0b11,{?,?,?,?},0,0, (outs DPR:$Vd),
4825         (ins DPR:$Vn, DPR:$Vm, i32imm:$index), NVExtFrm,
4826         IIC_VEXTD, OpcodeStr, Dt, "$Vd, $Vn, $Vm, $index", "",
4827         [(set DPR:$Vd, (Ty (NEONvext (Ty DPR:$Vn),
4828                                       (Ty DPR:$Vm), imm:$index)))]> {
4829   bits<4> index;
4830   let Inst{11-8} = index{3-0};
4831 }
4832
4833 class VEXTq<string OpcodeStr, string Dt, ValueType Ty>
4834   : N3V<0,1,0b11,{?,?,?,?},1,0, (outs QPR:$Vd),
4835         (ins QPR:$Vn, QPR:$Vm, i32imm:$index), NVExtFrm,
4836         IIC_VEXTQ, OpcodeStr, Dt, "$Vd, $Vn, $Vm, $index", "",
4837         [(set QPR:$Vd, (Ty (NEONvext (Ty QPR:$Vn),
4838                                       (Ty QPR:$Vm), imm:$index)))]> {
4839   bits<4> index;
4840   let Inst{11-8} = index{3-0};
4841 }
4842
4843 def VEXTd8  : VEXTd<"vext", "8",  v8i8> {
4844   let Inst{11-8} = index{3-0};
4845 }
4846 def VEXTd16 : VEXTd<"vext", "16", v4i16> {
4847   let Inst{11-9} = index{2-0};
4848   let Inst{8}    = 0b0;
4849 }
4850 def VEXTd32 : VEXTd<"vext", "32", v2i32> {
4851   let Inst{11-10} = index{1-0};
4852   let Inst{9-8}    = 0b00;
4853 }
4854 def : Pat<(v2f32 (NEONvext (v2f32 DPR:$Vn),
4855                            (v2f32 DPR:$Vm),
4856                            (i32 imm:$index))),
4857           (VEXTd32 DPR:$Vn, DPR:$Vm, imm:$index)>;
4858
4859 def VEXTq8  : VEXTq<"vext", "8",  v16i8> {
4860   let Inst{11-8} = index{3-0};
4861 }
4862 def VEXTq16 : VEXTq<"vext", "16", v8i16> {
4863   let Inst{11-9} = index{2-0};
4864   let Inst{8}    = 0b0;
4865 }
4866 def VEXTq32 : VEXTq<"vext", "32", v4i32> {
4867   let Inst{11-10} = index{1-0};
4868   let Inst{9-8}    = 0b00;
4869 }
4870 def : Pat<(v4f32 (NEONvext (v4f32 QPR:$Vn),
4871                            (v4f32 QPR:$Vm),
4872                            (i32 imm:$index))),
4873           (VEXTq32 QPR:$Vn, QPR:$Vm, imm:$index)>;
4874
4875 //   VTRN     : Vector Transpose
4876
4877 def  VTRNd8   : N2VDShuffle<0b00, 0b00001, "vtrn", "8">;
4878 def  VTRNd16  : N2VDShuffle<0b01, 0b00001, "vtrn", "16">;
4879 def  VTRNd32  : N2VDShuffle<0b10, 0b00001, "vtrn", "32">;
4880
4881 def  VTRNq8   : N2VQShuffle<0b00, 0b00001, IIC_VPERMQ, "vtrn", "8">;
4882 def  VTRNq16  : N2VQShuffle<0b01, 0b00001, IIC_VPERMQ, "vtrn", "16">;
4883 def  VTRNq32  : N2VQShuffle<0b10, 0b00001, IIC_VPERMQ, "vtrn", "32">;
4884
4885 //   VUZP     : Vector Unzip (Deinterleave)
4886
4887 def  VUZPd8   : N2VDShuffle<0b00, 0b00010, "vuzp", "8">;
4888 def  VUZPd16  : N2VDShuffle<0b01, 0b00010, "vuzp", "16">;
4889 def  VUZPd32  : N2VDShuffle<0b10, 0b00010, "vuzp", "32">;
4890
4891 def  VUZPq8   : N2VQShuffle<0b00, 0b00010, IIC_VPERMQ3, "vuzp", "8">;
4892 def  VUZPq16  : N2VQShuffle<0b01, 0b00010, IIC_VPERMQ3, "vuzp", "16">;
4893 def  VUZPq32  : N2VQShuffle<0b10, 0b00010, IIC_VPERMQ3, "vuzp", "32">;
4894
4895 //   VZIP     : Vector Zip (Interleave)
4896
4897 def  VZIPd8   : N2VDShuffle<0b00, 0b00011, "vzip", "8">;
4898 def  VZIPd16  : N2VDShuffle<0b01, 0b00011, "vzip", "16">;
4899 def  VZIPd32  : N2VDShuffle<0b10, 0b00011, "vzip", "32">;
4900
4901 def  VZIPq8   : N2VQShuffle<0b00, 0b00011, IIC_VPERMQ3, "vzip", "8">;
4902 def  VZIPq16  : N2VQShuffle<0b01, 0b00011, IIC_VPERMQ3, "vzip", "16">;
4903 def  VZIPq32  : N2VQShuffle<0b10, 0b00011, IIC_VPERMQ3, "vzip", "32">;
4904
4905 // Vector Table Lookup and Table Extension.
4906
4907 //   VTBL     : Vector Table Lookup
4908 let DecoderMethod = "DecodeTBLInstruction" in {
4909 def  VTBL1
4910   : N3V<1,1,0b11,0b1000,0,0, (outs DPR:$Vd),
4911         (ins VecListOneD:$Vn, DPR:$Vm), NVTBLFrm, IIC_VTB1,
4912         "vtbl", "8", "$Vd, $Vn, $Vm", "",
4913         [(set DPR:$Vd, (v8i8 (int_arm_neon_vtbl1 VecListOneD:$Vn, DPR:$Vm)))]>;
4914 let hasExtraSrcRegAllocReq = 1 in {
4915 def  VTBL2
4916   : N3V<1,1,0b11,0b1001,0,0, (outs DPR:$Vd),
4917         (ins DPR:$Vn, DPR:$tbl2, DPR:$Vm), NVTBLFrm, IIC_VTB2,
4918         "vtbl", "8", "$Vd, \\{$Vn, $tbl2\\}, $Vm", "", []>;
4919 def  VTBL3
4920   : N3V<1,1,0b11,0b1010,0,0, (outs DPR:$Vd),
4921         (ins DPR:$Vn, DPR:$tbl2, DPR:$tbl3, DPR:$Vm), NVTBLFrm, IIC_VTB3,
4922         "vtbl", "8", "$Vd, \\{$Vn, $tbl2, $tbl3\\}, $Vm", "", []>;
4923 def  VTBL4
4924   : N3V<1,1,0b11,0b1011,0,0, (outs DPR:$Vd),
4925         (ins DPR:$Vn, DPR:$tbl2, DPR:$tbl3, DPR:$tbl4, DPR:$Vm),
4926         NVTBLFrm, IIC_VTB4,
4927         "vtbl", "8", "$Vd, \\{$Vn, $tbl2, $tbl3, $tbl4\\}, $Vm", "", []>;
4928 } // hasExtraSrcRegAllocReq = 1
4929
4930 def  VTBL2Pseudo
4931   : PseudoNeonI<(outs DPR:$dst), (ins QPR:$tbl, DPR:$src), IIC_VTB2, "", []>;
4932 def  VTBL3Pseudo
4933   : PseudoNeonI<(outs DPR:$dst), (ins QQPR:$tbl, DPR:$src), IIC_VTB3, "", []>;
4934 def  VTBL4Pseudo
4935   : PseudoNeonI<(outs DPR:$dst), (ins QQPR:$tbl, DPR:$src), IIC_VTB4, "", []>;
4936
4937 //   VTBX     : Vector Table Extension
4938 def  VTBX1
4939   : N3V<1,1,0b11,0b1000,1,0, (outs DPR:$Vd),
4940         (ins DPR:$orig, VecListOneD:$Vn, DPR:$Vm), NVTBLFrm, IIC_VTBX1,
4941         "vtbx", "8", "$Vd, $Vn, $Vm", "$orig = $Vd",
4942         [(set DPR:$Vd, (v8i8 (int_arm_neon_vtbx1
4943                                DPR:$orig, VecListOneD:$Vn, DPR:$Vm)))]>;
4944 let hasExtraSrcRegAllocReq = 1 in {
4945 def  VTBX2
4946   : N3V<1,1,0b11,0b1001,1,0, (outs DPR:$Vd),
4947         (ins DPR:$orig, DPR:$Vn, DPR:$tbl2, DPR:$Vm), NVTBLFrm, IIC_VTBX2,
4948         "vtbx", "8", "$Vd, \\{$Vn, $tbl2\\}, $Vm", "$orig = $Vd", []>;
4949 def  VTBX3
4950   : N3V<1,1,0b11,0b1010,1,0, (outs DPR:$Vd),
4951         (ins DPR:$orig, DPR:$Vn, DPR:$tbl2, DPR:$tbl3, DPR:$Vm),
4952         NVTBLFrm, IIC_VTBX3,
4953         "vtbx", "8", "$Vd, \\{$Vn, $tbl2, $tbl3\\}, $Vm",
4954         "$orig = $Vd", []>;
4955 def  VTBX4
4956   : N3V<1,1,0b11,0b1011,1,0, (outs DPR:$Vd), (ins DPR:$orig, DPR:$Vn,
4957         DPR:$tbl2, DPR:$tbl3, DPR:$tbl4, DPR:$Vm), NVTBLFrm, IIC_VTBX4,
4958         "vtbx", "8", "$Vd, \\{$Vn, $tbl2, $tbl3, $tbl4\\}, $Vm",
4959         "$orig = $Vd", []>;
4960 } // hasExtraSrcRegAllocReq = 1
4961
4962 def  VTBX2Pseudo
4963   : PseudoNeonI<(outs DPR:$dst), (ins DPR:$orig, QPR:$tbl, DPR:$src),
4964                 IIC_VTBX2, "$orig = $dst", []>;
4965 def  VTBX3Pseudo
4966   : PseudoNeonI<(outs DPR:$dst), (ins DPR:$orig, QQPR:$tbl, DPR:$src),
4967                 IIC_VTBX3, "$orig = $dst", []>;
4968 def  VTBX4Pseudo
4969   : PseudoNeonI<(outs DPR:$dst), (ins DPR:$orig, QQPR:$tbl, DPR:$src),
4970                 IIC_VTBX4, "$orig = $dst", []>;
4971 } // DecoderMethod = "DecodeTBLInstruction"
4972
4973 //===----------------------------------------------------------------------===//
4974 // NEON instructions for single-precision FP math
4975 //===----------------------------------------------------------------------===//
4976
4977 class N2VSPat<SDNode OpNode, NeonI Inst>
4978   : NEONFPPat<(f32 (OpNode SPR:$a)),
4979               (EXTRACT_SUBREG
4980                (v2f32 (COPY_TO_REGCLASS (Inst
4981                 (INSERT_SUBREG
4982                  (v2f32 (COPY_TO_REGCLASS (v2f32 (IMPLICIT_DEF)), DPR_VFP2)),
4983                  SPR:$a, ssub_0)), DPR_VFP2)), ssub_0)>;
4984
4985 class N3VSPat<SDNode OpNode, NeonI Inst>
4986   : NEONFPPat<(f32 (OpNode SPR:$a, SPR:$b)),
4987               (EXTRACT_SUBREG
4988                (v2f32 (COPY_TO_REGCLASS (Inst
4989                 (INSERT_SUBREG
4990                  (v2f32 (COPY_TO_REGCLASS (v2f32 (IMPLICIT_DEF)), DPR_VFP2)),
4991                  SPR:$a, ssub_0),
4992                 (INSERT_SUBREG
4993                  (v2f32 (COPY_TO_REGCLASS (v2f32 (IMPLICIT_DEF)), DPR_VFP2)),
4994                  SPR:$b, ssub_0)), DPR_VFP2)), ssub_0)>;
4995
4996 class N3VSMulOpPat<SDNode MulNode, SDNode OpNode, NeonI Inst>
4997   : NEONFPPat<(f32 (OpNode SPR:$acc, (f32 (MulNode SPR:$a, SPR:$b)))),
4998               (EXTRACT_SUBREG
4999                (v2f32 (COPY_TO_REGCLASS (Inst
5000                 (INSERT_SUBREG
5001                  (v2f32 (COPY_TO_REGCLASS (v2f32 (IMPLICIT_DEF)), DPR_VFP2)),
5002                  SPR:$acc, ssub_0),
5003                 (INSERT_SUBREG
5004                  (v2f32 (COPY_TO_REGCLASS (v2f32 (IMPLICIT_DEF)), DPR_VFP2)),
5005                  SPR:$a, ssub_0),
5006                 (INSERT_SUBREG
5007                  (v2f32 (COPY_TO_REGCLASS (v2f32 (IMPLICIT_DEF)), DPR_VFP2)),
5008                  SPR:$b, ssub_0)), DPR_VFP2)), ssub_0)>;
5009
5010 def : N3VSPat<fadd, VADDfd>;
5011 def : N3VSPat<fsub, VSUBfd>;
5012 def : N3VSPat<fmul, VMULfd>;
5013 def : N3VSMulOpPat<fmul, fadd, VMLAfd>,
5014       Requires<[HasNEON, UseNEONForFP, UseFPVMLx]>;
5015 def : N3VSMulOpPat<fmul, fsub, VMLSfd>,
5016       Requires<[HasNEON, UseNEONForFP, UseFPVMLx]>;
5017 def : N2VSPat<fabs, VABSfd>;
5018 def : N2VSPat<fneg, VNEGfd>;
5019 def : N3VSPat<NEONfmax, VMAXfd>;
5020 def : N3VSPat<NEONfmin, VMINfd>;
5021 def : N2VSPat<arm_ftosi, VCVTf2sd>;
5022 def : N2VSPat<arm_ftoui, VCVTf2ud>;
5023 def : N2VSPat<arm_sitof, VCVTs2fd>;
5024 def : N2VSPat<arm_uitof, VCVTu2fd>;
5025
5026 //===----------------------------------------------------------------------===//
5027 // Non-Instruction Patterns
5028 //===----------------------------------------------------------------------===//
5029
5030 // bit_convert
5031 def : Pat<(v1i64 (bitconvert (v2i32 DPR:$src))), (v1i64 DPR:$src)>;
5032 def : Pat<(v1i64 (bitconvert (v4i16 DPR:$src))), (v1i64 DPR:$src)>;
5033 def : Pat<(v1i64 (bitconvert (v8i8  DPR:$src))), (v1i64 DPR:$src)>;
5034 def : Pat<(v1i64 (bitconvert (f64   DPR:$src))), (v1i64 DPR:$src)>;
5035 def : Pat<(v1i64 (bitconvert (v2f32 DPR:$src))), (v1i64 DPR:$src)>;
5036 def : Pat<(v2i32 (bitconvert (v1i64 DPR:$src))), (v2i32 DPR:$src)>;
5037 def : Pat<(v2i32 (bitconvert (v4i16 DPR:$src))), (v2i32 DPR:$src)>;
5038 def : Pat<(v2i32 (bitconvert (v8i8  DPR:$src))), (v2i32 DPR:$src)>;
5039 def : Pat<(v2i32 (bitconvert (f64   DPR:$src))), (v2i32 DPR:$src)>;
5040 def : Pat<(v2i32 (bitconvert (v2f32 DPR:$src))), (v2i32 DPR:$src)>;
5041 def : Pat<(v4i16 (bitconvert (v1i64 DPR:$src))), (v4i16 DPR:$src)>;
5042 def : Pat<(v4i16 (bitconvert (v2i32 DPR:$src))), (v4i16 DPR:$src)>;
5043 def : Pat<(v4i16 (bitconvert (v8i8  DPR:$src))), (v4i16 DPR:$src)>;
5044 def : Pat<(v4i16 (bitconvert (f64   DPR:$src))), (v4i16 DPR:$src)>;
5045 def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (v4i16 DPR:$src)>;
5046 def : Pat<(v8i8  (bitconvert (v1i64 DPR:$src))), (v8i8  DPR:$src)>;
5047 def : Pat<(v8i8  (bitconvert (v2i32 DPR:$src))), (v8i8  DPR:$src)>;
5048 def : Pat<(v8i8  (bitconvert (v4i16 DPR:$src))), (v8i8  DPR:$src)>;
5049 def : Pat<(v8i8  (bitconvert (f64   DPR:$src))), (v8i8  DPR:$src)>;
5050 def : Pat<(v8i8  (bitconvert (v2f32 DPR:$src))), (v8i8  DPR:$src)>;
5051 def : Pat<(f64   (bitconvert (v1i64 DPR:$src))), (f64   DPR:$src)>;
5052 def : Pat<(f64   (bitconvert (v2i32 DPR:$src))), (f64   DPR:$src)>;
5053 def : Pat<(f64   (bitconvert (v4i16 DPR:$src))), (f64   DPR:$src)>;
5054 def : Pat<(f64   (bitconvert (v8i8  DPR:$src))), (f64   DPR:$src)>;
5055 def : Pat<(f64   (bitconvert (v2f32 DPR:$src))), (f64   DPR:$src)>;
5056 def : Pat<(v2f32 (bitconvert (f64   DPR:$src))), (v2f32 DPR:$src)>;
5057 def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (v2f32 DPR:$src)>;
5058 def : Pat<(v2f32 (bitconvert (v2i32 DPR:$src))), (v2f32 DPR:$src)>;
5059 def : Pat<(v2f32 (bitconvert (v4i16 DPR:$src))), (v2f32 DPR:$src)>;
5060 def : Pat<(v2f32 (bitconvert (v8i8  DPR:$src))), (v2f32 DPR:$src)>;
5061
5062 def : Pat<(v2i64 (bitconvert (v4i32 QPR:$src))), (v2i64 QPR:$src)>;
5063 def : Pat<(v2i64 (bitconvert (v8i16 QPR:$src))), (v2i64 QPR:$src)>;
5064 def : Pat<(v2i64 (bitconvert (v16i8 QPR:$src))), (v2i64 QPR:$src)>;
5065 def : Pat<(v2i64 (bitconvert (v2f64 QPR:$src))), (v2i64 QPR:$src)>;
5066 def : Pat<(v2i64 (bitconvert (v4f32 QPR:$src))), (v2i64 QPR:$src)>;
5067 def : Pat<(v4i32 (bitconvert (v2i64 QPR:$src))), (v4i32 QPR:$src)>;
5068 def : Pat<(v4i32 (bitconvert (v8i16 QPR:$src))), (v4i32 QPR:$src)>;
5069 def : Pat<(v4i32 (bitconvert (v16i8 QPR:$src))), (v4i32 QPR:$src)>;
5070 def : Pat<(v4i32 (bitconvert (v2f64 QPR:$src))), (v4i32 QPR:$src)>;
5071 def : Pat<(v4i32 (bitconvert (v4f32 QPR:$src))), (v4i32 QPR:$src)>;
5072 def : Pat<(v8i16 (bitconvert (v2i64 QPR:$src))), (v8i16 QPR:$src)>;
5073 def : Pat<(v8i16 (bitconvert (v4i32 QPR:$src))), (v8i16 QPR:$src)>;
5074 def : Pat<(v8i16 (bitconvert (v16i8 QPR:$src))), (v8i16 QPR:$src)>;
5075 def : Pat<(v8i16 (bitconvert (v2f64 QPR:$src))), (v8i16 QPR:$src)>;
5076 def : Pat<(v8i16 (bitconvert (v4f32 QPR:$src))), (v8i16 QPR:$src)>;
5077 def : Pat<(v16i8 (bitconvert (v2i64 QPR:$src))), (v16i8 QPR:$src)>;
5078 def : Pat<(v16i8 (bitconvert (v4i32 QPR:$src))), (v16i8 QPR:$src)>;
5079 def : Pat<(v16i8 (bitconvert (v8i16 QPR:$src))), (v16i8 QPR:$src)>;
5080 def : Pat<(v16i8 (bitconvert (v2f64 QPR:$src))), (v16i8 QPR:$src)>;
5081 def : Pat<(v16i8 (bitconvert (v4f32 QPR:$src))), (v16i8 QPR:$src)>;
5082 def : Pat<(v4f32 (bitconvert (v2i64 QPR:$src))), (v4f32 QPR:$src)>;
5083 def : Pat<(v4f32 (bitconvert (v4i32 QPR:$src))), (v4f32 QPR:$src)>;
5084 def : Pat<(v4f32 (bitconvert (v8i16 QPR:$src))), (v4f32 QPR:$src)>;
5085 def : Pat<(v4f32 (bitconvert (v16i8 QPR:$src))), (v4f32 QPR:$src)>;
5086 def : Pat<(v4f32 (bitconvert (v2f64 QPR:$src))), (v4f32 QPR:$src)>;
5087 def : Pat<(v2f64 (bitconvert (v2i64 QPR:$src))), (v2f64 QPR:$src)>;
5088 def : Pat<(v2f64 (bitconvert (v4i32 QPR:$src))), (v2f64 QPR:$src)>;
5089 def : Pat<(v2f64 (bitconvert (v8i16 QPR:$src))), (v2f64 QPR:$src)>;
5090 def : Pat<(v2f64 (bitconvert (v16i8 QPR:$src))), (v2f64 QPR:$src)>;
5091 def : Pat<(v2f64 (bitconvert (v4f32 QPR:$src))), (v2f64 QPR:$src)>;