[SystemZ] Handle sub-128 vectors
[oota-llvm.git] / test / CodeGen / SystemZ / vec-combine-01.ll
1 ; Test various target-specific DAG combiner patterns.
2 ;
3 ; RUN: llc < %s -mtriple=s390x-linux-gnu -mcpu=z13 | FileCheck %s
4
5 ; Check that an extraction followed by a truncation is effectively treated
6 ; as a bitcast.
7 define void @f1(<4 x i32> %v1, <4 x i32> %v2, i8 *%ptr1, i8 *%ptr2) {
8 ; CHECK-LABEL: f1:
9 ; CHECK: vaf [[REG:%v[0-9]+]], %v24, %v26
10 ; CHECK-DAG: vsteb [[REG]], 0(%r2), 3
11 ; CHECK-DAG: vsteb [[REG]], 0(%r3), 15
12 ; CHECK: br %r14
13   %add = add <4 x i32> %v1, %v2
14   %elem1 = extractelement <4 x i32> %add, i32 0
15   %elem2 = extractelement <4 x i32> %add, i32 3
16   %trunc1 = trunc i32 %elem1 to i8
17   %trunc2 = trunc i32 %elem2 to i8
18   store i8 %trunc1, i8 *%ptr1
19   store i8 %trunc2, i8 *%ptr2
20   ret void
21 }
22
23 ; Test a case where a pack-type shuffle can be eliminated.
24 define i16 @f2(<4 x i32> %v1, <4 x i32> %v2, <4 x i32> %v3) {
25 ; CHECK-LABEL: f2:
26 ; CHECK-NOT: vpk
27 ; CHECK-DAG: vaf [[REG1:%v[0-9]+]], %v24, %v26
28 ; CHECK-DAG: vaf [[REG2:%v[0-9]+]], %v26, %v28
29 ; CHECK-DAG: vlgvh {{%r[0-5]}}, [[REG1]], 3
30 ; CHECK-DAG: vlgvh {{%r[0-5]}}, [[REG2]], 7
31 ; CHECK: br %r14
32   %add1 = add <4 x i32> %v1, %v2
33   %add2 = add <4 x i32> %v2, %v3
34   %shuffle = shufflevector <4 x i32> %add1, <4 x i32> %add2,
35                            <4 x i32> <i32 1, i32 3, i32 5, i32 7>
36   %bitcast = bitcast <4 x i32> %shuffle to <8 x i16>
37   %elem1 = extractelement <8 x i16> %bitcast, i32 1
38   %elem2 = extractelement <8 x i16> %bitcast, i32 7
39   %res = add i16 %elem1, %elem2
40   ret i16 %res
41 }
42
43 ; ...and again in a case where there's also a splat and a bitcast.
44 define i16 @f3(<4 x i32> %v1, <4 x i32> %v2, <2 x i64> %v3) {
45 ; CHECK-LABEL: f3:
46 ; CHECK-NOT: vrepg
47 ; CHECK-NOT: vpk
48 ; CHECK-DAG: vaf [[REG:%v[0-9]+]], %v24, %v26
49 ; CHECK-DAG: vlgvh {{%r[0-5]}}, [[REG]], 6
50 ; CHECK-DAG: vlgvh {{%r[0-5]}}, %v28, 3
51 ; CHECK: br %r14
52   %add = add <4 x i32> %v1, %v2
53   %splat = shufflevector <2 x i64> %v3, <2 x i64> undef,
54                          <2 x i32> <i32 0, i32 0>
55   %splatcast = bitcast <2 x i64> %splat to <4 x i32>
56   %shuffle = shufflevector <4 x i32> %add, <4 x i32> %splatcast,
57                            <4 x i32> <i32 1, i32 3, i32 5, i32 7>
58   %bitcast = bitcast <4 x i32> %shuffle to <8 x i16>
59   %elem1 = extractelement <8 x i16> %bitcast, i32 2
60   %elem2 = extractelement <8 x i16> %bitcast, i32 7
61   %res = add i16 %elem1, %elem2
62   ret i16 %res
63 }
64
65 ; ...and again with a merge low instead of a pack.
66 define i16 @f4(<4 x i32> %v1, <4 x i32> %v2, <2 x i64> %v3) {
67 ; CHECK-LABEL: f4:
68 ; CHECK-NOT: vrepg
69 ; CHECK-NOT: vmr
70 ; CHECK-DAG: vaf [[REG:%v[0-9]+]], %v24, %v26
71 ; CHECK-DAG: vlgvh {{%r[0-5]}}, [[REG]], 6
72 ; CHECK-DAG: vlgvh {{%r[0-5]}}, %v28, 3
73 ; CHECK: br %r14
74   %add = add <4 x i32> %v1, %v2
75   %splat = shufflevector <2 x i64> %v3, <2 x i64> undef,
76                          <2 x i32> <i32 0, i32 0>
77   %splatcast = bitcast <2 x i64> %splat to <4 x i32>
78   %shuffle = shufflevector <4 x i32> %add, <4 x i32> %splatcast,
79                            <4 x i32> <i32 2, i32 6, i32 3, i32 7>
80   %bitcast = bitcast <4 x i32> %shuffle to <8 x i16>
81   %elem1 = extractelement <8 x i16> %bitcast, i32 4
82   %elem2 = extractelement <8 x i16> %bitcast, i32 7
83   %res = add i16 %elem1, %elem2
84   ret i16 %res
85 }
86
87 ; ...and again with a merge high.
88 define i16 @f5(<4 x i32> %v1, <4 x i32> %v2, <2 x i64> %v3) {
89 ; CHECK-LABEL: f5:
90 ; CHECK-NOT: vrepg
91 ; CHECK-NOT: vmr
92 ; CHECK-DAG: vaf [[REG:%v[0-9]+]], %v24, %v26
93 ; CHECK-DAG: vlgvh {{%r[0-5]}}, [[REG]], 2
94 ; CHECK-DAG: vlgvh {{%r[0-5]}}, %v28, 3
95 ; CHECK: br %r14
96   %add = add <4 x i32> %v1, %v2
97   %splat = shufflevector <2 x i64> %v3, <2 x i64> undef,
98                          <2 x i32> <i32 0, i32 0>
99   %splatcast = bitcast <2 x i64> %splat to <4 x i32>
100   %shuffle = shufflevector <4 x i32> %add, <4 x i32> %splatcast,
101                            <4 x i32> <i32 0, i32 4, i32 1, i32 5>
102   %bitcast = bitcast <4 x i32> %shuffle to <8 x i16>
103   %elem1 = extractelement <8 x i16> %bitcast, i32 4
104   %elem2 = extractelement <8 x i16> %bitcast, i32 7
105   %res = add i16 %elem1, %elem2
106   ret i16 %res
107 }
108
109 ; Test a case where an unpack high can be eliminated from the usual
110 ; load-extend sequence.
111 define void @f6(<8 x i8> *%ptr1, i8 *%ptr2, i8 *%ptr3, i8 *%ptr4) {
112 ; CHECK-LABEL: f6:
113 ; CHECK: vlrepg [[REG:%v[0-9]+]], 0(%r2)
114 ; CHECK-NOT: vup
115 ; CHECK-DAG: vsteb [[REG]], 0(%r3), 1
116 ; CHECK-DAG: vsteb [[REG]], 0(%r4), 2
117 ; CHECK-DAG: vsteb [[REG]], 0(%r5), 7
118 ; CHECK: br %r14
119   %vec = load <8 x i8>, <8 x i8> *%ptr1
120   %ext = sext <8 x i8> %vec to <8 x i16>
121   %elem1 = extractelement <8 x i16> %ext, i32 1
122   %elem2 = extractelement <8 x i16> %ext, i32 2
123   %elem3 = extractelement <8 x i16> %ext, i32 7
124   %trunc1 = trunc i16 %elem1 to i8
125   %trunc2 = trunc i16 %elem2 to i8
126   %trunc3 = trunc i16 %elem3 to i8
127   store i8 %trunc1, i8 *%ptr2
128   store i8 %trunc2, i8 *%ptr3
129   store i8 %trunc3, i8 *%ptr4
130   ret void
131 }
132
133 ; ...and again with a bitcast inbetween.
134 define void @f7(<4 x i8> *%ptr1, i8 *%ptr2, i8 *%ptr3, i8 *%ptr4) {
135 ; CHECK-LABEL: f7:
136 ; CHECK: vlrepf [[REG:%v[0-9]+]], 0(%r2)
137 ; CHECK-NOT: vup
138 ; CHECK-DAG: vsteb [[REG]], 0(%r3), 0
139 ; CHECK-DAG: vsteb [[REG]], 0(%r4), 1
140 ; CHECK-DAG: vsteb [[REG]], 0(%r5), 3
141 ; CHECK: br %r14
142   %vec = load <4 x i8>, <4 x i8> *%ptr1
143   %ext = sext <4 x i8> %vec to <4 x i32>
144   %bitcast = bitcast <4 x i32> %ext to <8 x i16>
145   %elem1 = extractelement <8 x i16> %bitcast, i32 1
146   %elem2 = extractelement <8 x i16> %bitcast, i32 3
147   %elem3 = extractelement <8 x i16> %bitcast, i32 7
148   %trunc1 = trunc i16 %elem1 to i8
149   %trunc2 = trunc i16 %elem2 to i8
150   %trunc3 = trunc i16 %elem3 to i8
151   store i8 %trunc1, i8 *%ptr2
152   store i8 %trunc2, i8 *%ptr3
153   store i8 %trunc3, i8 *%ptr4
154   ret void
155 }