test/MC/ARM/neon-pairwise-encoding.ll

   1 ; RUN: llc -show-mc-encoding -march=arm -mcpu=cortex-a8 -mattr=+neon < %s | FileCheck %s
   2
   3 ; XFAIL: *
   4
   5 declare <8 x i8>  @llvm.arm.neon.vpadd.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
   6 declare <4 x i16> @llvm.arm.neon.vpadd.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
   7 declare <2 x i32> @llvm.arm.neon.vpadd.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
   8
   9 ; CHECK: vpadd_8xi8
  10 define <8 x i8> @vpadd_8xi8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
  11         %tmp1 = load <8 x i8>* %A
  12         %tmp2 = load <8 x i8>* %B
  13 ; CHECK: vpadd.i8       d16, d17, d16   @ encoding: [0xb0,0x0b,0x41,0xf2]
  14         %tmp3 = call <8 x i8> @llvm.arm.neon.vpadd.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
  15         ret <8 x i8> %tmp3
  16 }
  17
  18 ; CHECK: vpadd_4xi16
  19 define <4 x i16> @vpadd_4xi16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
  20         %tmp1 = load <4 x i16>* %A
  21         %tmp2 = load <4 x i16>* %B
  22 ; CHECK: vpadd.i16      d16, d17, d16   @ encoding: [0xb0,0x0b,0x51,0xf2]
  23         %tmp3 = call <4 x i16> @llvm.arm.neon.vpadd.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
  24         ret <4 x i16> %tmp3
  25 }
  26
  27 ; CHECK: vpadd_2xi32
  28 define <2 x i32> @vpadd_2xi32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
  29         %tmp1 = load <2 x i32>* %A
  30         %tmp2 = load <2 x i32>* %B
  31 ; CHECK: vpadd.i32      d16, d17, d16   @ encoding: [0xb0,0x0b,0x61,0xf2]
  32         %tmp3 = call <2 x i32> @llvm.arm.neon.vpadd.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
  33         ret <2 x i32> %tmp3
  34 }
  35
  36 declare <2 x float> @llvm.arm.neon.vpadd.v2f32(<2 x float>, <2 x float>) nounwind readnone
  37
  38 ; CHECK: vpadd_2xfloat
  39 define <2 x float> @vpadd_2xfloat(<2 x float>* %A, <2 x float>* %B) nounwind {
  40         %tmp1 = load <2 x float>* %A
  41         %tmp2 = load <2 x float>* %B
  42 ; CHECK: vpadd.f32      d16, d16, d17   @ encoding: [0xa1,0x0d,0x40,0xf3]
  43         %tmp3 = call <2 x float> @llvm.arm.neon.vpadd.v2f32(<2 x float> %tmp1, <2 x float> %tmp2)
  44         ret <2 x float> %tmp3
  45 }
  46
  47 declare <4 x i16> @llvm.arm.neon.vpaddls.v4i16.v8i8(<8 x i8>) nounwind readnone
  48 declare <2 x i32> @llvm.arm.neon.vpaddls.v2i32.v4i16(<4 x i16>) nounwind readnone
  49 declare <1 x i64> @llvm.arm.neon.vpaddls.v1i64.v2i32(<2 x i32>) nounwind readnone
  50
  51 ; CHECK: vpaddls_8xi8
  52 define <4 x i16> @vpaddls_8xi8(<8 x i8>* %A) nounwind {
  53         %tmp1 = load <8 x i8>* %A
  54 ; CHECK: vpaddl.s8      d16, d16        @ encoding: [0x20,0x02,0xf0,0xf3]
  55         %tmp2 = call <4 x i16> @llvm.arm.neon.vpaddls.v4i16.v8i8(<8 x i8> %tmp1)
  56         ret <4 x i16> %tmp2
  57 }
  58
  59 ; CHECK: vpaddls_4xi16
  60 define <2 x i32> @vpaddls_4xi16(<4 x i16>* %A) nounwind {
  61         %tmp1 = load <4 x i16>* %A
  62 ; CHECK: vpaddl.s16     d16, d16        @ encoding: [0x20,0x02,0xf4,0xf3]
  63         %tmp2 = call <2 x i32> @llvm.arm.neon.vpaddls.v2i32.v4i16(<4 x i16> %tmp1)
  64         ret <2 x i32> %tmp2
  65 }
  66
  67 ; CHECK: vpaddls_2xi32
  68 define <1 x i64> @vpaddls_2xi32(<2 x i32>* %A) nounwind {
  69         %tmp1 = load <2 x i32>* %A
  70 ; CHECK: vpaddl.s32     d16, d16        @ encoding: [0x20,0x02,0xf8,0xf3]
  71         %tmp2 = call <1 x i64> @llvm.arm.neon.vpaddls.v1i64.v2i32(<2 x i32> %tmp1)
  72         ret <1 x i64> %tmp2
  73 }
  74
  75 declare <4 x i16> @llvm.arm.neon.vpaddlu.v4i16.v8i8(<8 x i8>) nounwind readnone
  76 declare <2 x i32> @llvm.arm.neon.vpaddlu.v2i32.v4i16(<4 x i16>) nounwind readnone
  77 declare <1 x i64> @llvm.arm.neon.vpaddlu.v1i64.v2i32(<2 x i32>) nounwind readnone
  78
  79 ; CHECK: vpaddlu_8xi8
  80 define <4 x i16> @vpaddlu_8xi8(<8 x i8>* %A) nounwind {
  81         %tmp1 = load <8 x i8>* %A
  82 ; CHECK: vpaddl.u8      d16, d16        @ encoding: [0xa0,0x02,0xf0,0xf3]
  83         %tmp2 = call <4 x i16> @llvm.arm.neon.vpaddlu.v4i16.v8i8(<8 x i8> %tmp1)
  84         ret <4 x i16> %tmp2
  85 }
  86
  87 ; CHECK: vpaddlu_4xi16
  88 define <2 x i32> @vpaddlu_4xi16(<4 x i16>* %A) nounwind {
  89         %tmp1 = load <4 x i16>* %A
  90 ; CHECK: vpaddl.u16     d16, d16        @ encoding: [0xa0,0x02,0xf4,0xf3]
  91         %tmp2 = call <2 x i32> @llvm.arm.neon.vpaddlu.v2i32.v4i16(<4 x i16> %tmp1)
  92         ret <2 x i32> %tmp2
  93 }
  94
  95 ; CHECK: vpaddlu_2xi32
  96 define <1 x i64> @vpaddlu_2xi32(<2 x i32>* %A) nounwind {
  97         %tmp1 = load <2 x i32>* %A
  98 ; CHECK: vpaddl.u32     d16, d16        @ encoding: [0xa0,0x02,0xf8,0xf3]
  99         %tmp2 = call <1 x i64> @llvm.arm.neon.vpaddlu.v1i64.v2i32(<2 x i32> %tmp1)
 100         ret <1 x i64> %tmp2
 101 }
 102
 103 declare <8 x i16> @llvm.arm.neon.vpaddls.v8i16.v16i8(<16 x i8>) nounwind readnone
 104 declare <4 x i32> @llvm.arm.neon.vpaddls.v4i32.v8i16(<8 x i16>) nounwind readnone
 105 declare <2 x i64> @llvm.arm.neon.vpaddls.v2i64.v4i32(<4 x i32>) nounwind readnone
 106
 107 ; CHECK: vpaddls_16xi8
 108 define <8 x i16> @vpaddls_16xi8(<16 x i8>* %A) nounwind {
 109         %tmp1 = load <16 x i8>* %A
 110 ; CHECK: vpaddl.s8      q8, q8          @ encoding: [0x60,0x02,0xf0,0xf3]
 111         %tmp2 = call <8 x i16> @llvm.arm.neon.vpaddls.v8i16.v16i8(<16 x i8> %tmp1)
 112         ret <8 x i16> %tmp2
 113 }
 114
 115 ; CHECK: vpaddls_8xi16
 116 define <4 x i32> @vpaddls_8xi16(<8 x i16>* %A) nounwind {
 117         %tmp1 = load <8 x i16>* %A
 118 ; CHECK: vpaddl.s16     q8, q8          @ encoding: [0x60,0x02,0xf4,0xf3]
 119         %tmp2 = call <4 x i32> @llvm.arm.neon.vpaddls.v4i32.v8i16(<8 x i16> %tmp1)
 120         ret <4 x i32> %tmp2
 121 }
 122
 123 ; CHECK: vpaddls_4xi32
 124 define <2 x i64> @vpaddls_4xi32(<4 x i32>* %A) nounwind {
 125         %tmp1 = load <4 x i32>* %A
 126 ; CHECK: vpaddl.s32     q8, q8          @ encoding: [0x60,0x02,0xf8,0xf3]
 127         %tmp2 = call <2 x i64> @llvm.arm.neon.vpaddls.v2i64.v4i32(<4 x i32> %tmp1)
 128         ret <2 x i64> %tmp2
 129 }
 130
 131 declare <8 x i16> @llvm.arm.neon.vpaddlu.v8i16.v16i8(<16 x i8>) nounwind readnone
 132 declare <4 x i32> @llvm.arm.neon.vpaddlu.v4i32.v8i16(<8 x i16>) nounwind readnone
 133 declare <2 x i64> @llvm.arm.neon.vpaddlu.v2i64.v4i32(<4 x i32>) nounwind readnone
 134
 135 ; CHECK: vpaddlu_16xi8
 136 define <8 x i16> @vpaddlu_16xi8(<16 x i8>* %A) nounwind {
 137         %tmp1 = load <16 x i8>* %A
 138 ; CHECK: vpaddl.u8      q8, q8          @ encoding: [0xe0,0x02,0xf0,0xf3]
 139         %tmp2 = call <8 x i16> @llvm.arm.neon.vpaddlu.v8i16.v16i8(<16 x i8> %tmp1)
 140         ret <8 x i16> %tmp2
 141 }
 142
 143 ; CHECK: vpaddlu_8xi16
 144 define <4 x i32> @vpaddlu_8xi16(<8 x i16>* %A) nounwind {
 145         %tmp1 = load <8 x i16>* %A
 146 ; CHECK: vpaddl.u16     q8, q8          @ encoding: [0xe0,0x02,0xf4,0xf3]
 147         %tmp2 = call <4 x i32> @llvm.arm.neon.vpaddlu.v4i32.v8i16(<8 x i16> %tmp1)
 148         ret <4 x i32> %tmp2
 149 }
 150
 151 ; CHECK: vpaddlu_4xi32
 152 define <2 x i64> @vpaddlu_4xi32(<4 x i32>* %A) nounwind {
 153         %tmp1 = load <4 x i32>* %A
 154 ; CHECK: vpaddl.u32     q8, q8          @ encoding: [0xe0,0x02,0xf8,0xf3]
 155         %tmp2 = call <2 x i64> @llvm.arm.neon.vpaddlu.v2i64.v4i32(<4 x i32> %tmp1)
 156         ret <2 x i64> %tmp2
 157 }
 158
 159 declare <4 x i16> @llvm.arm.neon.vpadals.v4i16.v8i8(<4 x i16>, <8 x i8>) nounwind readnone
 160 declare <2 x i32> @llvm.arm.neon.vpadals.v2i32.v4i16(<2 x i32>, <4 x i16>) nounwind readnone
 161 declare <1 x i64> @llvm.arm.neon.vpadals.v1i64.v2i32(<1 x i64>, <2 x i32>) nounwind readnone
 162
 163 ; CHECK: vpadals_8xi8
 164 define <4 x i16> @vpadals_8xi8(<4 x i16>* %A, <8 x i8>* %B) nounwind {
 165         %tmp1 = load <4 x i16>* %A
 166         %tmp2 = load <8 x i8>* %B
 167 ; CHECK: vpadal.s8      d16, d17        @ encoding: [0x21,0x06,0xf0,0xf3]
 168         %tmp3 = call <4 x i16> @llvm.arm.neon.vpadals.v4i16.v8i8(<4 x i16> %tmp1, <8 x i8> %tmp2)
 169         ret <4 x i16> %tmp3
 170 }
 171
 172 ; CHECK: vpadals_4xi16
 173 define <2 x i32> @vpadals_4xi16(<2 x i32>* %A, <4 x i16>* %B) nounwind {
 174         %tmp1 = load <2 x i32>* %A
 175         %tmp2 = load <4 x i16>* %B
 176 ; CHECK: vpadal.s16     d16, d17        @ encoding: [0x21,0x06,0xf4,0xf3]
 177         %tmp3 = call <2 x i32> @llvm.arm.neon.vpadals.v2i32.v4i16(<2 x i32> %tmp1, <4 x i16> %tmp2)
 178         ret <2 x i32> %tmp3
 179 }
 180
 181 ; CHECK: vpadals_2xi32
 182 define <1 x i64> @vpadals_2xi32(<1 x i64>* %A, <2 x i32>* %B) nounwind {
 183         %tmp1 = load <1 x i64>* %A
 184         %tmp2 = load <2 x i32>* %B
 185 ; CHECK: vpadal.s32     d16, d17        @ encoding: [0x21,0x06,0xf8,0xf3]
 186         %tmp3 = call <1 x i64> @llvm.arm.neon.vpadals.v1i64.v2i32(<1 x i64> %tmp1, <2 x i32> %tmp2)
 187         ret <1 x i64> %tmp3
 188 }
 189
 190 declare <4 x i16> @llvm.arm.neon.vpadalu.v4i16.v8i8(<4 x i16>, <8 x i8>) nounwind readnone
 191 declare <2 x i32> @llvm.arm.neon.vpadalu.v2i32.v4i16(<2 x i32>, <4 x i16>) nounwind readnone
 192 declare <1 x i64> @llvm.arm.neon.vpadalu.v1i64.v2i32(<1 x i64>, <2 x i32>) nounwind readnone
 193
 194 ; CHECK: vpadalu_8xi8
 195 define <4 x i16> @vpadalu_8xi8(<4 x i16>* %A, <8 x i8>* %B) nounwind {
 196         %tmp1 = load <4 x i16>* %A
 197         %tmp2 = load <8 x i8>* %B
 198 ; CHECK: vpadal.u8      d16, d17        @ encoding: [0xa1,0x06,0xf0,0xf3]
 199         %tmp3 = call <4 x i16> @llvm.arm.neon.vpadalu.v4i16.v8i8(<4 x i16> %tmp1, <8 x i8> %tmp2)
 200         ret <4 x i16> %tmp3
 201 }
 202
 203 ; CHECK: vpadalu_4xi16
 204 define <2 x i32> @vpadalu_4xi16(<2 x i32>* %A, <4 x i16>* %B) nounwind {
 205         %tmp1 = load <2 x i32>* %A
 206         %tmp2 = load <4 x i16>* %B
 207 ; CHECK: vpadal.u16     d16, d17        @ encoding: [0xa1,0x06,0xf4,0xf3]
 208         %tmp3 = call <2 x i32> @llvm.arm.neon.vpadalu.v2i32.v4i16(<2 x i32> %tmp1, <4 x i16> %tmp2)
 209         ret <2 x i32> %tmp3
 210 }
 211
 212 ; CHECK: vpadalu_2xi32
 213 define <1 x i64> @vpadalu_2xi32(<1 x i64>* %A, <2 x i32>* %B) nounwind {
 214         %tmp1 = load <1 x i64>* %A
 215         %tmp2 = load <2 x i32>* %B
 216 ; CHECK: vpadal.u32     d16, d17        @ encoding: [0xa1,0x06,0xf8,0xf3]
 217         %tmp3 = call <1 x i64> @llvm.arm.neon.vpadalu.v1i64.v2i32(<1 x i64> %tmp1, <2 x i32> %tmp2)
 218         ret <1 x i64> %tmp3
 219 }
 220
 221 declare <8 x i16> @llvm.arm.neon.vpadals.v8i16.v16i8(<8 x i16>, <16 x i8>) nounwind readnone
 222 declare <4 x i32> @llvm.arm.neon.vpadals.v4i32.v8i16(<4 x i32>, <8 x i16>) nounwind readnone
 223 declare <2 x i64> @llvm.arm.neon.vpadals.v2i64.v4i32(<2 x i64>, <4 x i32>) nounwind readnone
 224
 225 ; CHECK: vpadals_16xi8
 226 define <8 x i16> @vpadals_16xi8(<8 x i16>* %A, <16 x i8>* %B) nounwind {
 227         %tmp1 = load <8 x i16>* %A
 228         %tmp2 = load <16 x i8>* %B
 229 ; CHECK: vpadal.s8      q9, q8          @ encoding: [0x60,0x26,0xf0,0xf3]
 230         %tmp3 = call <8 x i16> @llvm.arm.neon.vpadals.v8i16.v16i8(<8 x i16> %tmp1, <16 x i8> %tmp2)
 231         ret <8 x i16> %tmp3
 232 }
 233
 234 ; CHECK: vpadals_8xi16
 235 define <4 x i32> @vpadals_8xi16(<4 x i32>* %A, <8 x i16>* %B) nounwind {
 236         %tmp1 = load <4 x i32>* %A
 237         %tmp2 = load <8 x i16>* %B
 238 ; CHECK: vpadal.s16     q9, q8          @ encoding: [0x60,0x26,0xf4,0xf3]
 239         %tmp3 = call <4 x i32> @llvm.arm.neon.vpadals.v4i32.v8i16(<4 x i32> %tmp1, <8 x i16> %tmp2)
 240         ret <4 x i32> %tmp3
 241 }
 242
 243 ; CHECK: vpadals_4xi32
 244 define <2 x i64> @vpadals_4xi32(<2 x i64>* %A, <4 x i32>* %B) nounwind {
 245         %tmp1 = load <2 x i64>* %A
 246         %tmp2 = load <4 x i32>* %B
 247 ; CHECK: vpadal.s32     q9, q8          @ encoding: [0x60,0x26,0xf8,0xf3]
 248         %tmp3 = call <2 x i64> @llvm.arm.neon.vpadals.v2i64.v4i32(<2 x i64> %tmp1, <4 x i32> %tmp2)
 249         ret <2 x i64> %tmp3
 250 }
 251
 252 declare <8 x i16> @llvm.arm.neon.vpadalu.v8i16.v16i8(<8 x i16>, <16 x i8>) nounwind readnone
 253 declare <4 x i32> @llvm.arm.neon.vpadalu.v4i32.v8i16(<4 x i32>, <8 x i16>) nounwind readnone
 254 declare <2 x i64> @llvm.arm.neon.vpadalu.v2i64.v4i32(<2 x i64>, <4 x i32>) nounwind readnone
 255
 256 ; CHECK: vpadalu_16xi8
 257 define <8 x i16> @vpadalu_16xi8(<8 x i16>* %A, <16 x i8>* %B) nounwind {
 258         %tmp1 = load <8 x i16>* %A
 259         %tmp2 = load <16 x i8>* %B
 260 ; CHECK: vpadal.u8      q9, q8          @ encoding: [0xe0,0x26,0xf0,0xf3]
 261         %tmp3 = call <8 x i16> @llvm.arm.neon.vpadalu.v8i16.v16i8(<8 x i16> %tmp1, <16 x i8> %tmp2)
 262         ret <8 x i16> %tmp3
 263 }
 264
 265 ; CHECK: vpadalu_8xi16
 266 define <4 x i32> @vpadalu_8xi16(<4 x i32>* %A, <8 x i16>* %B) nounwind {
 267         %tmp1 = load <4 x i32>* %A
 268         %tmp2 = load <8 x i16>* %B
 269 ; CHECK: vpadal.u16     q9, q8          @ encoding: [0xe0,0x26,0xf4,0xf3]
 270         %tmp3 = call <4 x i32> @llvm.arm.neon.vpadalu.v4i32.v8i16(<4 x i32> %tmp1, <8 x i16> %tmp2)
 271         ret <4 x i32> %tmp3
 272 }
 273
 274 ; CHECK: vpadalu_4xi32
 275 define <2 x i64> @vpadalu_4xi32(<2 x i64>* %A, <4 x i32>* %B) nounwind {
 276         %tmp1 = load <2 x i64>* %A
 277         %tmp2 = load <4 x i32>* %B
 278 ; CHECK: vpadal.u32     q9, q8          @ encoding: [0xe0,0x26,0xf8,0xf3]
 279         %tmp3 = call <2 x i64> @llvm.arm.neon.vpadalu.v2i64.v4i32(<2 x i64> %tmp1, <4 x i32> %tmp2)
 280         ret <2 x i64> %tmp3
 281 }
 282
 283 declare <8 x i8>  @llvm.arm.neon.vpmins.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
 284 declare <4 x i16> @llvm.arm.neon.vpmins.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
 285 declare <2 x i32> @llvm.arm.neon.vpmins.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
 286
 287 ; CHECK: vpmins_8xi8
 288 define <8 x i8> @vpmins_8xi8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
 289         %tmp1 = load <8 x i8>* %A
 290         %tmp2 = load <8 x i8>* %B
 291 ; CHECK: vpmin.s8       d16, d16, d17   @ encoding: [0xb1,0x0a,0x40,0xf2]
 292         %tmp3 = call <8 x i8> @llvm.arm.neon.vpmins.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
 293         ret <8 x i8> %tmp3
 294 }
 295
 296 ; CHECK: vpmins_4xi16
 297 define <4 x i16> @vpmins_4xi16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
 298         %tmp1 = load <4 x i16>* %A
 299         %tmp2 = load <4 x i16>* %B
 300 ; CHECK: vpmin.s16      d16, d16, d17   @ encoding: [0xb1,0x0a,0x50,0xf2]
 301         %tmp3 = call <4 x i16> @llvm.arm.neon.vpmins.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
 302         ret <4 x i16> %tmp3
 303 }
 304
 305 ; CHECK: vpmins_2xi32
 306 define <2 x i32> @vpmins_2xi32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
 307         %tmp1 = load <2 x i32>* %A
 308         %tmp2 = load <2 x i32>* %B
 309 ; CHECK: vpmin.s32      d16, d16, d17   @ encoding: [0xb1,0x0a,0x60,0xf2]
 310         %tmp3 = call <2 x i32> @llvm.arm.neon.vpmins.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
 311         ret <2 x i32> %tmp3
 312 }
 313
 314 declare <8 x i8>  @llvm.arm.neon.vpminu.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
 315 declare <4 x i16> @llvm.arm.neon.vpminu.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
 316 declare <2 x i32> @llvm.arm.neon.vpminu.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
 317
 318 ; CHECK: vpminu_8xi8
 319 define <8 x i8> @vpminu_8xi8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
 320         %tmp1 = load <8 x i8>* %A
 321         %tmp2 = load <8 x i8>* %B
 322 ; CHECK: vpmin.u8       d16, d16, d17   @ encoding: [0xb1,0x0a,0x40,0xf3]
 323         %tmp3 = call <8 x i8> @llvm.arm.neon.vpminu.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
 324         ret <8 x i8> %tmp3
 325 }
 326
 327 ; CHECK: vpminu_4xi16
 328 define <4 x i16> @vpminu_4xi16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
 329         %tmp1 = load <4 x i16>* %A
 330         %tmp2 = load <4 x i16>* %B
 331 ; CHECK: vpmin.u16      d16, d16, d17   @ encoding: [0xb1,0x0a,0x50,0xf3]
 332         %tmp3 = call <4 x i16> @llvm.arm.neon.vpminu.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
 333         ret <4 x i16> %tmp3
 334 }
 335
 336 ; CHECK: vpminu_2xi32
 337 define <2 x i32> @vpminu_2xi32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
 338         %tmp1 = load <2 x i32>* %A
 339         %tmp2 = load <2 x i32>* %B
 340 ; CHECK: vpmin.u32      d16, d16, d17   @ encoding: [0xb1,0x0a,0x60,0xf3]
 341         %tmp3 = call <2 x i32> @llvm.arm.neon.vpminu.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
 342         ret <2 x i32> %tmp3
 343 }
 344
 345 declare <2 x float> @llvm.arm.neon.vpmins.v2f32(<2 x float>, <2 x float>) nounwind readnone
 346
 347 ; CHECK: vpmin_2xfloat
 348 define <2 x float> @vpmin_2xfloat(<2 x float>* %A, <2 x float>* %B) nounwind {
 349         %tmp1 = load <2 x float>* %A
 350         %tmp2 = load <2 x float>* %B
 351 ; CHECK: vpmin.f32      d16, d16, d17   @ encoding: [0xa1,0x0f,0x60,0xf3]
 352         %tmp3 = call <2 x float> @llvm.arm.neon.vpmins.v2f32(<2 x float> %tmp1, <2 x float> %tmp2)
 353         ret <2 x float> %tmp3
 354 }
 355
 356 declare <8 x i8>  @llvm.arm.neon.vpmaxs.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
 357 declare <4 x i16> @llvm.arm.neon.vpmaxs.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
 358 declare <2 x i32> @llvm.arm.neon.vpmaxs.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
 359
 360 ; CHECK: vpmaxs_8xi8
 361 define <8 x i8> @vpmaxs_8xi8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
 362         %tmp1 = load <8 x i8>* %A
 363         %tmp2 = load <8 x i8>* %B
 364 ; CHECK: vpmax.s8       d16, d16, d17   @ encoding: [0xa1,0x0a,0x40,0xf2]
 365         %tmp3 = call <8 x i8> @llvm.arm.neon.vpmaxs.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
 366         ret <8 x i8> %tmp3
 367 }
 368
 369 ; CHECK: vpmaxs_4xi16
 370 define <4 x i16> @vpmaxs_4xi16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
 371         %tmp1 = load <4 x i16>* %A
 372         %tmp2 = load <4 x i16>* %B
 373 ; CHECK: vpmax.s16      d16, d16, d17   @ encoding: [0xa1,0x0a,0x50,0xf2]
 374         %tmp3 = call <4 x i16> @llvm.arm.neon.vpmaxs.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
 375         ret <4 x i16> %tmp3
 376 }
 377
 378 ; CHECK: vpmaxs_2xi32
 379 define <2 x i32> @vpmaxs_2xi32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
 380         %tmp1 = load <2 x i32>* %A
 381         %tmp2 = load <2 x i32>* %B
 382 ; CHECK: vpmax.s32      d16, d16, d17   @ encoding: [0xa1,0x0a,0x60,0xf2]
 383         %tmp3 = call <2 x i32> @llvm.arm.neon.vpmaxs.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
 384         ret <2 x i32> %tmp3
 385 }
 386
 387 declare <8 x i8>  @llvm.arm.neon.vpmaxu.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
 388 declare <4 x i16> @llvm.arm.neon.vpmaxu.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
 389 declare <2 x i32> @llvm.arm.neon.vpmaxu.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
 390
 391 ; CHECK: vpmaxu_8xi8
 392 define <8 x i8> @vpmaxu_8xi8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
 393         %tmp1 = load <8 x i8>* %A
 394         %tmp2 = load <8 x i8>* %B
 395 ; CHECK: vpmax.u8       d16, d16, d17   @ encoding: [0xa1,0x0a,0x40,0xf3]
 396         %tmp3 = call <8 x i8> @llvm.arm.neon.vpmaxu.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
 397         ret <8 x i8> %tmp3
 398 }
 399
 400 ; CHECK: vpmaxu_4xi16
 401 define <4 x i16> @vpmaxu_4xi16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
 402         %tmp1 = load <4 x i16>* %A
 403         %tmp2 = load <4 x i16>* %B
 404 ; CHECK: vpmax.u16      d16, d16, d17   @ encoding: [0xa1,0x0a,0x50,0xf3]
 405         %tmp3 = call <4 x i16> @llvm.arm.neon.vpmaxu.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
 406         ret <4 x i16> %tmp3
 407 }
 408
 409 ; CHECK: vpmaxu_2xi32
 410 define <2 x i32> @vpmaxu_2xi32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
 411         %tmp1 = load <2 x i32>* %A
 412         %tmp2 = load <2 x i32>* %B
 413 ; CHECK: vpmax.u32      d16, d16, d17   @ encoding: [0xa1,0x0a,0x60,0xf3]
 414         %tmp3 = call <2 x i32> @llvm.arm.neon.vpmaxu.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
 415         ret <2 x i32> %tmp3
 416 }
 417
 418 declare <2 x float> @llvm.arm.neon.vpmaxs.v2f32(<2 x float>, <2 x float>) nounwind readnone
 419
 420 ; CHECK: vpmax_2xfloat
 421 define <2 x float> @vpmax_2xfloat(<2 x float>* %A, <2 x float>* %B) nounwind {
 422         %tmp1 = load <2 x float>* %A
 423         %tmp2 = load <2 x float>* %B
 424 ; CHECK: vpmax.f32      d16, d16, d17   @ encoding: [0xa1,0x0f,0x40,0xf3]
 425         %tmp3 = call <2 x float> @llvm.arm.neon.vpmaxs.v2f32(<2 x float> %tmp1, <2 x float> %tmp2)
 426         ret <2 x float> %tmp3
 427 }