[DAGCombiner] Improved FMA combine support for vectors
[oota-llvm.git] / test / CodeGen / X86 / fma_patterns.ll
1 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+fma -fp-contract=fast | FileCheck %s --check-prefix=ALL --check-prefix=CHECK_FMA
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+fma4,+fma -fp-contract=fast | FileCheck %s --check-prefix=ALL --check-prefix=CHECK_FMA
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+fma4 -fp-contract=fast | FileCheck %s --check-prefix=ALL --check-prefix=CHECK_FMA4
4
5 ;
6 ; Patterns (+ fneg variants): add(mul(x,y),z), sub(mul(x,y),z)
7 ;
8
9 define <4 x float> @test_x86_fmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
10 ; CHECK_FMA-LABEL: test_x86_fmadd_ps:
11 ; CHECK_FMA:       # BB#0:
12 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm2, %xmm1, %xmm0
13 ; CHECK_FMA-NEXT:    retq
14 ;
15 ; CHECK_FMA4-LABEL: test_x86_fmadd_ps:
16 ; CHECK_FMA4:       # BB#0:
17 ; CHECK_FMA4-NEXT:    vfmaddps %xmm2, %xmm1, %xmm0, %xmm0
18 ; CHECK_FMA4-NEXT:    retq
19   %x = fmul <4 x float> %a0, %a1
20   %res = fadd <4 x float> %x, %a2
21   ret <4 x float> %res
22 }
23
24 define <4 x float> @test_x86_fmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
25 ; CHECK_FMA-LABEL: test_x86_fmsub_ps:
26 ; CHECK_FMA:       # BB#0:
27 ; CHECK_FMA-NEXT:    vfmsub213ps %xmm2, %xmm1, %xmm0
28 ; CHECK_FMA-NEXT:    retq
29 ;
30 ; CHECK_FMA4-LABEL: test_x86_fmsub_ps:
31 ; CHECK_FMA4:       # BB#0:
32 ; CHECK_FMA4-NEXT:    vfmsubps %xmm2, %xmm1, %xmm0, %xmm0
33 ; CHECK_FMA4-NEXT:    retq
34   %x = fmul <4 x float> %a0, %a1
35   %res = fsub <4 x float> %x, %a2
36   ret <4 x float> %res
37 }
38
39 define <4 x float> @test_x86_fnmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
40 ; CHECK_FMA-LABEL: test_x86_fnmadd_ps:
41 ; CHECK_FMA:       # BB#0:
42 ; CHECK_FMA-NEXT:    vfnmadd213ps %xmm2, %xmm1, %xmm0
43 ; CHECK_FMA-NEXT:    retq
44 ;
45 ; CHECK_FMA4-LABEL: test_x86_fnmadd_ps:
46 ; CHECK_FMA4:       # BB#0:
47 ; CHECK_FMA4-NEXT:    vfnmaddps %xmm2, %xmm1, %xmm0, %xmm0
48 ; CHECK_FMA4-NEXT:    retq
49   %x = fmul <4 x float> %a0, %a1
50   %res = fsub <4 x float> %a2, %x
51   ret <4 x float> %res
52 }
53
54 define <4 x float> @test_x86_fnmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
55 ; CHECK_FMA-LABEL: test_x86_fnmsub_ps:
56 ; CHECK_FMA:       # BB#0:
57 ; CHECK_FMA-NEXT:    vfnmsub213ps %xmm2, %xmm1, %xmm0
58 ; CHECK_FMA-NEXT:    retq
59 ;
60 ; CHECK_FMA4-LABEL: test_x86_fnmsub_ps:
61 ; CHECK_FMA4:       # BB#0:
62 ; CHECK_FMA4-NEXT:    vfnmsubps %xmm2, %xmm1, %xmm0, %xmm0
63 ; CHECK_FMA4-NEXT:    retq
64   %x = fmul <4 x float> %a0, %a1
65   %y = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %x
66   %res = fsub <4 x float> %y, %a2
67   ret <4 x float> %res
68 }
69
70 define <8 x float> @test_x86_fmadd_ps_y(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {
71 ; CHECK_FMA-LABEL: test_x86_fmadd_ps_y:
72 ; CHECK_FMA:       # BB#0:
73 ; CHECK_FMA-NEXT:    vfmadd213ps %ymm2, %ymm1, %ymm0
74 ; CHECK_FMA-NEXT:    retq
75 ;
76 ; CHECK_FMA4-LABEL: test_x86_fmadd_ps_y:
77 ; CHECK_FMA4:       # BB#0:
78 ; CHECK_FMA4-NEXT:    vfmaddps %ymm2, %ymm1, %ymm0, %ymm0
79 ; CHECK_FMA4-NEXT:    retq
80   %x = fmul <8 x float> %a0, %a1
81   %res = fadd <8 x float> %x, %a2
82   ret <8 x float> %res
83 }
84
85 define <8 x float> @test_x86_fmsub_ps_y(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {
86 ; CHECK_FMA-LABEL: test_x86_fmsub_ps_y:
87 ; CHECK_FMA:       # BB#0:
88 ; CHECK_FMA-NEXT:    vfmsub213ps %ymm2, %ymm1, %ymm0
89 ; CHECK_FMA-NEXT:    retq
90 ;
91 ; CHECK_FMA4-LABEL: test_x86_fmsub_ps_y:
92 ; CHECK_FMA4:       # BB#0:
93 ; CHECK_FMA4-NEXT:    vfmsubps %ymm2, %ymm1, %ymm0, %ymm0
94 ; CHECK_FMA4-NEXT:    retq
95   %x = fmul <8 x float> %a0, %a1
96   %res = fsub <8 x float> %x, %a2
97   ret <8 x float> %res
98 }
99
100 define <8 x float> @test_x86_fnmadd_ps_y(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {
101 ; CHECK_FMA-LABEL: test_x86_fnmadd_ps_y:
102 ; CHECK_FMA:       # BB#0:
103 ; CHECK_FMA-NEXT:    vfnmadd213ps %ymm2, %ymm1, %ymm0
104 ; CHECK_FMA-NEXT:    retq
105 ;
106 ; CHECK_FMA4-LABEL: test_x86_fnmadd_ps_y:
107 ; CHECK_FMA4:       # BB#0:
108 ; CHECK_FMA4-NEXT:    vfnmaddps %ymm2, %ymm1, %ymm0, %ymm0
109 ; CHECK_FMA4-NEXT:    retq
110   %x = fmul <8 x float> %a0, %a1
111   %res = fsub <8 x float> %a2, %x
112   ret <8 x float> %res
113 }
114
115 define <8 x float> @test_x86_fnmsub_ps_y(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) {
116 ; CHECK_FMA-LABEL: test_x86_fnmsub_ps_y:
117 ; CHECK_FMA:       # BB#0:
118 ; CHECK_FMA-NEXT:    vfnmsub213ps %ymm2, %ymm1, %ymm0
119 ; CHECK_FMA-NEXT:    retq
120 ;
121 ; CHECK_FMA4-LABEL: test_x86_fnmsub_ps_y:
122 ; CHECK_FMA4:       # BB#0:
123 ; CHECK_FMA4-NEXT:    vfnmsubps %ymm2, %ymm1, %ymm0, %ymm0
124 ; CHECK_FMA4-NEXT:    retq
125   %x = fmul <8 x float> %a0, %a1
126   %y = fsub <8 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %x
127   %res = fsub <8 x float> %y, %a2
128   ret <8 x float> %res
129 }
130
131 define <4 x double> @test_x86_fmadd_pd_y(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) {
132 ; CHECK_FMA-LABEL: test_x86_fmadd_pd_y:
133 ; CHECK_FMA:       # BB#0:
134 ; CHECK_FMA-NEXT:    vfmadd213pd %ymm2, %ymm1, %ymm0
135 ; CHECK_FMA-NEXT:    retq
136 ;
137 ; CHECK_FMA4-LABEL: test_x86_fmadd_pd_y:
138 ; CHECK_FMA4:       # BB#0:
139 ; CHECK_FMA4-NEXT:    vfmaddpd %ymm2, %ymm1, %ymm0, %ymm0
140 ; CHECK_FMA4-NEXT:    retq
141   %x = fmul <4 x double> %a0, %a1
142   %res = fadd <4 x double> %x, %a2
143   ret <4 x double> %res
144 }
145
146 define <4 x double> @test_x86_fmsub_pd_y(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) {
147 ; CHECK_FMA-LABEL: test_x86_fmsub_pd_y:
148 ; CHECK_FMA:       # BB#0:
149 ; CHECK_FMA-NEXT:    vfmsub213pd %ymm2, %ymm1, %ymm0
150 ; CHECK_FMA-NEXT:    retq
151 ;
152 ; CHECK_FMA4-LABEL: test_x86_fmsub_pd_y:
153 ; CHECK_FMA4:       # BB#0:
154 ; CHECK_FMA4-NEXT:    vfmsubpd %ymm2, %ymm1, %ymm0, %ymm0
155 ; CHECK_FMA4-NEXT:    retq
156   %x = fmul <4 x double> %a0, %a1
157   %res = fsub <4 x double> %x, %a2
158   ret <4 x double> %res
159 }
160
161 define <2 x double> @test_x86_fmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) {
162 ; CHECK_FMA-LABEL: test_x86_fmsub_pd:
163 ; CHECK_FMA:       # BB#0:
164 ; CHECK_FMA-NEXT:    vfmsub213pd %xmm2, %xmm1, %xmm0
165 ; CHECK_FMA-NEXT:    retq
166 ;
167 ; CHECK_FMA4-LABEL: test_x86_fmsub_pd:
168 ; CHECK_FMA4:       # BB#0:
169 ; CHECK_FMA4-NEXT:    vfmsubpd %xmm2, %xmm1, %xmm0, %xmm0
170 ; CHECK_FMA4-NEXT:    retq
171   %x = fmul <2 x double> %a0, %a1
172   %res = fsub <2 x double> %x, %a2
173   ret <2 x double> %res
174 }
175
176 define float @test_x86_fnmadd_ss(float %a0, float %a1, float %a2) {
177 ; CHECK_FMA-LABEL: test_x86_fnmadd_ss:
178 ; CHECK_FMA:       # BB#0:
179 ; CHECK_FMA-NEXT:    vfnmadd213ss %xmm2, %xmm1, %xmm0
180 ; CHECK_FMA-NEXT:    retq
181 ;
182 ; CHECK_FMA4-LABEL: test_x86_fnmadd_ss:
183 ; CHECK_FMA4:       # BB#0:
184 ; CHECK_FMA4-NEXT:    vfnmaddss %xmm2, %xmm1, %xmm0, %xmm0
185 ; CHECK_FMA4-NEXT:    retq
186   %x = fmul float %a0, %a1
187   %res = fsub float %a2, %x
188   ret float %res
189 }
190
191 define double @test_x86_fnmadd_sd(double %a0, double %a1, double %a2) {
192 ; CHECK_FMA-LABEL: test_x86_fnmadd_sd:
193 ; CHECK_FMA:       # BB#0:
194 ; CHECK_FMA-NEXT:    vfnmadd213sd %xmm2, %xmm1, %xmm0
195 ; CHECK_FMA-NEXT:    retq
196 ;
197 ; CHECK_FMA4-LABEL: test_x86_fnmadd_sd:
198 ; CHECK_FMA4:       # BB#0:
199 ; CHECK_FMA4-NEXT:    vfnmaddsd %xmm2, %xmm1, %xmm0, %xmm0
200 ; CHECK_FMA4-NEXT:    retq
201   %x = fmul double %a0, %a1
202   %res = fsub double %a2, %x
203   ret double %res
204 }
205
206 define double @test_x86_fmsub_sd(double %a0, double %a1, double %a2) {
207 ; CHECK_FMA-LABEL: test_x86_fmsub_sd:
208 ; CHECK_FMA:       # BB#0:
209 ; CHECK_FMA-NEXT:    vfmsub213sd %xmm2, %xmm1, %xmm0
210 ; CHECK_FMA-NEXT:    retq
211 ;
212 ; CHECK_FMA4-LABEL: test_x86_fmsub_sd:
213 ; CHECK_FMA4:       # BB#0:
214 ; CHECK_FMA4-NEXT:    vfmsubsd %xmm2, %xmm1, %xmm0, %xmm0
215 ; CHECK_FMA4-NEXT:    retq
216   %x = fmul double %a0, %a1
217   %res = fsub double %x, %a2
218   ret double %res
219 }
220
221 define float @test_x86_fnmsub_ss(float %a0, float %a1, float %a2) {
222 ; CHECK_FMA-LABEL: test_x86_fnmsub_ss:
223 ; CHECK_FMA:       # BB#0:
224 ; CHECK_FMA-NEXT:    vfnmsub213ss %xmm2, %xmm1, %xmm0
225 ; CHECK_FMA-NEXT:    retq
226 ;
227 ; CHECK_FMA4-LABEL: test_x86_fnmsub_ss:
228 ; CHECK_FMA4:       # BB#0:
229 ; CHECK_FMA4-NEXT:    vfnmsubss %xmm2, %xmm1, %xmm0, %xmm0
230 ; CHECK_FMA4-NEXT:    retq
231   %x = fsub float -0.000000e+00, %a0
232   %y = fmul float %x, %a1
233   %res = fsub float %y, %a2
234   ret float %res
235 }
236
237 define <4 x float> @test_x86_fmadd_ps_load(<4 x float>* %a0, <4 x float> %a1, <4 x float> %a2) {
238 ; CHECK_FMA-LABEL: test_x86_fmadd_ps_load:
239 ; CHECK_FMA:       # BB#0:
240 ; CHECK_FMA-NEXT:    vmovaps (%rdi), %xmm2
241 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm2, %xmm0
242 ; CHECK_FMA-NEXT:    retq
243 ;
244 ; CHECK_FMA4-LABEL: test_x86_fmadd_ps_load:
245 ; CHECK_FMA4:       # BB#0:
246 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, (%rdi), %xmm0, %xmm0
247 ; CHECK_FMA4-NEXT:    retq
248   %x = load <4 x float>, <4 x float>* %a0
249   %y = fmul <4 x float> %x, %a1
250   %res = fadd <4 x float> %y, %a2
251   ret <4 x float> %res
252 }
253
254 define <4 x float> @test_x86_fmsub_ps_load(<4 x float>* %a0, <4 x float> %a1, <4 x float> %a2) {
255 ; CHECK_FMA-LABEL: test_x86_fmsub_ps_load:
256 ; CHECK_FMA:       # BB#0:
257 ; CHECK_FMA-NEXT:    vmovaps (%rdi), %xmm2
258 ; CHECK_FMA-NEXT:    vfmsub213ps %xmm1, %xmm2, %xmm0
259 ; CHECK_FMA-NEXT:    retq
260 ;
261 ; CHECK_FMA4-LABEL: test_x86_fmsub_ps_load:
262 ; CHECK_FMA4:       # BB#0:
263 ; CHECK_FMA4-NEXT:    vfmsubps %xmm1, (%rdi), %xmm0, %xmm0
264 ; CHECK_FMA4-NEXT:    retq
265   %x = load <4 x float>, <4 x float>* %a0
266   %y = fmul <4 x float> %x, %a1
267   %res = fsub <4 x float> %y, %a2
268   ret <4 x float> %res
269 }
270
271 ;
272 ; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)
273 ;
274
275 define <4 x float> @test_v4f32_mul_add_x_one_y(<4 x float> %x, <4 x float> %y) {
276 ; CHECK_FMA-LABEL: test_v4f32_mul_add_x_one_y:
277 ; CHECK_FMA:       # BB#0:
278 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm1, %xmm0
279 ; CHECK_FMA-NEXT:    retq
280 ;
281 ; CHECK_FMA4-LABEL: test_v4f32_mul_add_x_one_y:
282 ; CHECK_FMA4:       # BB#0:
283 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, %xmm1, %xmm0, %xmm0
284 ; CHECK_FMA4-NEXT:    retq
285   %a = fadd <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
286   %m = fmul <4 x float> %a, %y
287   ret <4 x float> %m
288 }
289
290 define <4 x float> @test_v4f32_mul_y_add_x_one(<4 x float> %x, <4 x float> %y) {
291 ; CHECK_FMA-LABEL: test_v4f32_mul_y_add_x_one:
292 ; CHECK_FMA:       # BB#0:
293 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm1, %xmm0
294 ; CHECK_FMA-NEXT:    retq
295 ;
296 ; CHECK_FMA4-LABEL: test_v4f32_mul_y_add_x_one:
297 ; CHECK_FMA4:       # BB#0:
298 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, %xmm1, %xmm0, %xmm0
299 ; CHECK_FMA4-NEXT:    retq
300   %a = fadd <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
301   %m = fmul <4 x float> %y, %a
302   ret <4 x float> %m
303 }
304
305 define <4 x float> @test_v4f32_mul_add_x_negone_y(<4 x float> %x, <4 x float> %y) {
306 ; CHECK_FMA-LABEL: test_v4f32_mul_add_x_negone_y:
307 ; CHECK_FMA:       # BB#0:
308 ; CHECK_FMA-NEXT:    vfmsub213ps %xmm1, %xmm1, %xmm0
309 ; CHECK_FMA-NEXT:    retq
310 ;
311 ; CHECK_FMA4-LABEL: test_v4f32_mul_add_x_negone_y:
312 ; CHECK_FMA4:       # BB#0:
313 ; CHECK_FMA4-NEXT:    vfmsubps %xmm1, %xmm1, %xmm0, %xmm0
314 ; CHECK_FMA4-NEXT:    retq
315   %a = fadd <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
316   %m = fmul <4 x float> %a, %y
317   ret <4 x float> %m
318 }
319
320 define <4 x float> @test_v4f32_mul_y_add_x_negone(<4 x float> %x, <4 x float> %y) {
321 ; CHECK_FMA-LABEL: test_v4f32_mul_y_add_x_negone:
322 ; CHECK_FMA:       # BB#0:
323 ; CHECK_FMA-NEXT:    vfmsub213ps %xmm1, %xmm1, %xmm0
324 ; CHECK_FMA-NEXT:    retq
325 ;
326 ; CHECK_FMA4-LABEL: test_v4f32_mul_y_add_x_negone:
327 ; CHECK_FMA4:       # BB#0:
328 ; CHECK_FMA4-NEXT:    vfmsubps %xmm1, %xmm1, %xmm0, %xmm0
329 ; CHECK_FMA4-NEXT:    retq
330   %a = fadd <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
331   %m = fmul <4 x float> %y, %a
332   ret <4 x float> %m
333 }
334
335 define <4 x float> @test_v4f32_mul_sub_one_x_y(<4 x float> %x, <4 x float> %y) {
336 ; CHECK_FMA-LABEL: test_v4f32_mul_sub_one_x_y:
337 ; CHECK_FMA:       # BB#0:
338 ; CHECK_FMA-NEXT:    vfnmadd213ps %xmm1, %xmm1, %xmm0
339 ; CHECK_FMA-NEXT:    retq
340 ;
341 ; CHECK_FMA4-LABEL: test_v4f32_mul_sub_one_x_y:
342 ; CHECK_FMA4:       # BB#0:
343 ; CHECK_FMA4-NEXT:    vfnmaddps %xmm1, %xmm1, %xmm0, %xmm0
344 ; CHECK_FMA4-NEXT:    retq
345   %s = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x
346   %m = fmul <4 x float> %s, %y
347   ret <4 x float> %m
348 }
349
350 define <4 x float> @test_v4f32_mul_y_sub_one_x(<4 x float> %x, <4 x float> %y) {
351 ; CHECK_FMA-LABEL: test_v4f32_mul_y_sub_one_x:
352 ; CHECK_FMA:       # BB#0:
353 ; CHECK_FMA-NEXT:    vfnmadd213ps %xmm1, %xmm1, %xmm0
354 ; CHECK_FMA-NEXT:    retq
355 ;
356 ; CHECK_FMA4-LABEL: test_v4f32_mul_y_sub_one_x:
357 ; CHECK_FMA4:       # BB#0:
358 ; CHECK_FMA4-NEXT:    vfnmaddps %xmm1, %xmm1, %xmm0, %xmm0
359 ; CHECK_FMA4-NEXT:    retq
360   %s = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x
361   %m = fmul <4 x float> %y, %s
362   ret <4 x float> %m
363 }
364
365 define <4 x float> @test_v4f32_mul_sub_negone_x_y(<4 x float> %x, <4 x float> %y) {
366 ; CHECK_FMA-LABEL: test_v4f32_mul_sub_negone_x_y:
367 ; CHECK_FMA:       # BB#0:
368 ; CHECK_FMA-NEXT:    vfnmsub213ps %xmm1, %xmm1, %xmm0
369 ; CHECK_FMA-NEXT:    retq
370 ;
371 ; CHECK_FMA4-LABEL: test_v4f32_mul_sub_negone_x_y:
372 ; CHECK_FMA4:       # BB#0:
373 ; CHECK_FMA4-NEXT:    vfnmsubps %xmm1, %xmm1, %xmm0, %xmm0
374 ; CHECK_FMA4-NEXT:    retq
375   %s = fsub <4 x float> <float -1.0, float -1.0, float -1.0, float -1.0>, %x
376   %m = fmul <4 x float> %s, %y
377   ret <4 x float> %m
378 }
379
380 define <4 x float> @test_v4f32_mul_y_sub_negone_x(<4 x float> %x, <4 x float> %y) {
381 ; CHECK_FMA-LABEL: test_v4f32_mul_y_sub_negone_x:
382 ; CHECK_FMA:       # BB#0:
383 ; CHECK_FMA-NEXT:    vfnmsub213ps %xmm1, %xmm1, %xmm0
384 ; CHECK_FMA-NEXT:    retq
385 ;
386 ; CHECK_FMA4-LABEL: test_v4f32_mul_y_sub_negone_x:
387 ; CHECK_FMA4:       # BB#0:
388 ; CHECK_FMA4-NEXT:    vfnmsubps %xmm1, %xmm1, %xmm0, %xmm0
389 ; CHECK_FMA4-NEXT:    retq
390   %s = fsub <4 x float> <float -1.0, float -1.0, float -1.0, float -1.0>, %x
391   %m = fmul <4 x float> %y, %s
392   ret <4 x float> %m
393 }
394
395 define <4 x float> @test_v4f32_mul_sub_x_one_y(<4 x float> %x, <4 x float> %y) {
396 ; CHECK_FMA-LABEL: test_v4f32_mul_sub_x_one_y:
397 ; CHECK_FMA:       # BB#0:
398 ; CHECK_FMA-NEXT:    vfmsub213ps %xmm1, %xmm1, %xmm0
399 ; CHECK_FMA-NEXT:    retq
400 ;
401 ; CHECK_FMA4-LABEL: test_v4f32_mul_sub_x_one_y:
402 ; CHECK_FMA4:       # BB#0:
403 ; CHECK_FMA4-NEXT:    vfmsubps %xmm1, %xmm1, %xmm0, %xmm0
404 ; CHECK_FMA4-NEXT:    retq
405   %s = fsub <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
406   %m = fmul <4 x float> %s, %y
407   ret <4 x float> %m
408 }
409
410 define <4 x float> @test_v4f32_mul_y_sub_x_one(<4 x float> %x, <4 x float> %y) {
411 ; CHECK_FMA-LABEL: test_v4f32_mul_y_sub_x_one:
412 ; CHECK_FMA:       # BB#0:
413 ; CHECK_FMA-NEXT:    vfmsub213ps %xmm1, %xmm1, %xmm0
414 ; CHECK_FMA-NEXT:    retq
415 ;
416 ; CHECK_FMA4-LABEL: test_v4f32_mul_y_sub_x_one:
417 ; CHECK_FMA4:       # BB#0:
418 ; CHECK_FMA4-NEXT:    vfmsubps %xmm1, %xmm1, %xmm0, %xmm0
419 ; CHECK_FMA4-NEXT:    retq
420   %s = fsub <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
421   %m = fmul <4 x float> %y, %s
422   ret <4 x float> %m
423 }
424
425 define <4 x float> @test_v4f32_mul_sub_x_negone_y(<4 x float> %x, <4 x float> %y) {
426 ; CHECK_FMA-LABEL: test_v4f32_mul_sub_x_negone_y:
427 ; CHECK_FMA:       # BB#0:
428 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm1, %xmm0
429 ; CHECK_FMA-NEXT:    retq
430 ;
431 ; CHECK_FMA4-LABEL: test_v4f32_mul_sub_x_negone_y:
432 ; CHECK_FMA4:       # BB#0:
433 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, %xmm1, %xmm0, %xmm0
434 ; CHECK_FMA4-NEXT:    retq
435   %s = fsub <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
436   %m = fmul <4 x float> %s, %y
437   ret <4 x float> %m
438 }
439
440 define <4 x float> @test_v4f32_mul_y_sub_x_negone(<4 x float> %x, <4 x float> %y) {
441 ; CHECK_FMA-LABEL: test_v4f32_mul_y_sub_x_negone:
442 ; CHECK_FMA:       # BB#0:
443 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm1, %xmm0
444 ; CHECK_FMA-NEXT:    retq
445 ;
446 ; CHECK_FMA4-LABEL: test_v4f32_mul_y_sub_x_negone:
447 ; CHECK_FMA4:       # BB#0:
448 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, %xmm1, %xmm0, %xmm0
449 ; CHECK_FMA4-NEXT:    retq
450   %s = fsub <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
451   %m = fmul <4 x float> %y, %s
452   ret <4 x float> %m
453 }
454
455 ;
456 ; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))
457 ;
458
459 define float @test_f32_interp(float %x, float %y, float %t) {
460 ; CHECK_FMA-LABEL: test_f32_interp:
461 ; CHECK_FMA:       # BB#0:
462 ; CHECK_FMA-NEXT:    vfnmadd213ss %xmm1, %xmm2, %xmm1
463 ; CHECK_FMA-NEXT:    vfmadd213ss %xmm1, %xmm2, %xmm0
464 ; CHECK_FMA-NEXT:    retq
465 ;
466 ; CHECK_FMA4-LABEL: test_f32_interp:
467 ; CHECK_FMA4:       # BB#0:
468 ; CHECK_FMA4-NEXT:    vfnmaddss %xmm1, %xmm1, %xmm2, %xmm1
469 ; CHECK_FMA4-NEXT:    vfmaddss %xmm1, %xmm2, %xmm0, %xmm0
470 ; CHECK_FMA4-NEXT:    retq
471   %t1 = fsub float 1.0, %t
472   %tx = fmul float %x, %t
473   %ty = fmul float %y, %t1
474   %r = fadd float %tx, %ty
475   ret float %r
476 }
477
478 define <4 x float> @test_v4f32_interp(<4 x float> %x, <4 x float> %y, <4 x float> %t) {
479 ; CHECK_FMA-LABEL: test_v4f32_interp:
480 ; CHECK_FMA:       # BB#0:
481 ; CHECK_FMA-NEXT:    vfnmadd213ps %xmm1, %xmm2, %xmm1
482 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm2, %xmm0
483 ; CHECK_FMA-NEXT:    retq
484 ;
485 ; CHECK_FMA4-LABEL: test_v4f32_interp:
486 ; CHECK_FMA4:       # BB#0:
487 ; CHECK_FMA4-NEXT:    vfnmaddps %xmm1, %xmm1, %xmm2, %xmm1
488 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, %xmm2, %xmm0, %xmm0
489 ; CHECK_FMA4-NEXT:    retq
490   %t1 = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %t
491   %tx = fmul <4 x float> %x, %t
492   %ty = fmul <4 x float> %y, %t1
493   %r = fadd <4 x float> %tx, %ty
494   ret <4 x float> %r
495 }
496
497 define <8 x float> @test_v8f32_interp(<8 x float> %x, <8 x float> %y, <8 x float> %t) {
498 ; CHECK_FMA-LABEL: test_v8f32_interp:
499 ; CHECK_FMA:       # BB#0:
500 ; CHECK_FMA-NEXT:    vfnmadd213ps %ymm1, %ymm2, %ymm1
501 ; CHECK_FMA-NEXT:    vfmadd213ps %ymm1, %ymm2, %ymm0
502 ; CHECK_FMA-NEXT:    retq
503 ;
504 ; CHECK_FMA4-LABEL: test_v8f32_interp:
505 ; CHECK_FMA4:       # BB#0:
506 ; CHECK_FMA4-NEXT:    vfnmaddps %ymm1, %ymm1, %ymm2, %ymm1
507 ; CHECK_FMA4-NEXT:    vfmaddps %ymm1, %ymm2, %ymm0, %ymm0
508 ; CHECK_FMA4-NEXT:    retq
509   %t1 = fsub <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %t
510   %tx = fmul <8 x float> %x, %t
511   %ty = fmul <8 x float> %y, %t1
512   %r = fadd <8 x float> %tx, %ty
513   ret <8 x float> %r
514 }
515
516 define double @test_f64_interp(double %x, double %y, double %t) {
517 ; CHECK_FMA-LABEL: test_f64_interp:
518 ; CHECK_FMA:       # BB#0:
519 ; CHECK_FMA-NEXT:    vfnmadd213sd %xmm1, %xmm2, %xmm1
520 ; CHECK_FMA-NEXT:    vfmadd213sd %xmm1, %xmm2, %xmm0
521 ; CHECK_FMA-NEXT:    retq
522 ;
523 ; CHECK_FMA4-LABEL: test_f64_interp:
524 ; CHECK_FMA4:       # BB#0:
525 ; CHECK_FMA4-NEXT:    vfnmaddsd %xmm1, %xmm1, %xmm2, %xmm1
526 ; CHECK_FMA4-NEXT:    vfmaddsd %xmm1, %xmm2, %xmm0, %xmm0
527 ; CHECK_FMA4-NEXT:    retq
528   %t1 = fsub double 1.0, %t
529   %tx = fmul double %x, %t
530   %ty = fmul double %y, %t1
531   %r = fadd double %tx, %ty
532   ret double %r
533 }
534
535 define <2 x double> @test_v2f64_interp(<2 x double> %x, <2 x double> %y, <2 x double> %t) {
536 ; CHECK_FMA-LABEL: test_v2f64_interp:
537 ; CHECK_FMA:       # BB#0:
538 ; CHECK_FMA-NEXT:    vfnmadd213pd %xmm1, %xmm2, %xmm1
539 ; CHECK_FMA-NEXT:    vfmadd213pd %xmm1, %xmm2, %xmm0
540 ; CHECK_FMA-NEXT:    retq
541 ;
542 ; CHECK_FMA4-LABEL: test_v2f64_interp:
543 ; CHECK_FMA4:       # BB#0:
544 ; CHECK_FMA4-NEXT:    vfnmaddpd %xmm1, %xmm1, %xmm2, %xmm1
545 ; CHECK_FMA4-NEXT:    vfmaddpd %xmm1, %xmm2, %xmm0, %xmm0
546 ; CHECK_FMA4-NEXT:    retq
547   %t1 = fsub <2 x double> <double 1.0, double 1.0>, %t
548   %tx = fmul <2 x double> %x, %t
549   %ty = fmul <2 x double> %y, %t1
550   %r = fadd <2 x double> %tx, %ty
551   ret <2 x double> %r
552 }
553
554 define <4 x double> @test_v4f64_interp(<4 x double> %x, <4 x double> %y, <4 x double> %t) {
555 ; CHECK_FMA-LABEL: test_v4f64_interp:
556 ; CHECK_FMA:       # BB#0:
557 ; CHECK_FMA-NEXT:    vfnmadd213pd %ymm1, %ymm2, %ymm1
558 ; CHECK_FMA-NEXT:    vfmadd213pd %ymm1, %ymm2, %ymm0
559 ; CHECK_FMA-NEXT:    retq
560 ;
561 ; CHECK_FMA4-LABEL: test_v4f64_interp:
562 ; CHECK_FMA4:       # BB#0:
563 ; CHECK_FMA4-NEXT:    vfnmaddpd %ymm1, %ymm1, %ymm2, %ymm1
564 ; CHECK_FMA4-NEXT:    vfmaddpd %ymm1, %ymm2, %ymm0, %ymm0
565 ; CHECK_FMA4-NEXT:    retq
566   %t1 = fsub <4 x double> <double 1.0, double 1.0, double 1.0, double 1.0>, %t
567   %tx = fmul <4 x double> %x, %t
568   %ty = fmul <4 x double> %y, %t1
569   %r = fadd <4 x double> %tx, %ty
570   ret <4 x double> %r
571 }
572
573 ; (fma x, c1, (fmul x, c2)) -> (fmul x, c1+c2)
574
575 define <4 x float> @test_v4f32_fma_x_c1_fmul_x_c2(<4 x float> %x) #0 {
576 ; ALL-LABEL: test_v4f32_fma_x_c1_fmul_x_c2:
577 ; ALL:       # BB#0:
578 ; ALL-NEXT:    vmulps {{.*}}(%rip), %xmm0, %xmm0
579 ; ALL-NEXT:    retq
580   %m0 = fmul <4 x float> %x, <float 1.0, float 2.0, float 3.0, float 4.0>
581   %m1 = fmul <4 x float> %x, <float 4.0, float 3.0, float 2.0, float 1.0>
582   %a  = fadd <4 x float> %m0, %m1
583   ret <4 x float> %a
584 }
585
586 ; (fma (fmul x, c1), c2, y) -> (fma x, c1*c2, y)
587
588 define <4 x float> @test_v4f32_fma_fmul_x_c1_c2_y(<4 x float> %x, <4 x float> %y) #0 {
589 ; CHECK_FMA-LABEL: test_v4f32_fma_fmul_x_c1_c2_y:
590 ; CHECK_FMA:       # BB#0:
591 ; CHECK_FMA-NEXT:    vmovaps {{.*#+}} xmm2 = [4.000000e+00,6.000000e+00,6.000000e+00,4.000000e+00]
592 ; CHECK_FMA-NEXT:    vfmadd213ps %xmm1, %xmm2, %xmm0
593 ; CHECK_FMA-NEXT:    retq
594 ;
595 ; CHECK_FMA4-LABEL: test_v4f32_fma_fmul_x_c1_c2_y:
596 ; CHECK_FMA4:       # BB#0:
597 ; CHECK_FMA4-NEXT:    vfmaddps %xmm1, {{.*}}(%rip), %xmm0, %xmm0
598 ; CHECK_FMA4-NEXT:    retq
599   %m0 = fmul <4 x float> %x,  <float 1.0, float 2.0, float 3.0, float 4.0>
600   %m1 = fmul <4 x float> %m0, <float 4.0, float 3.0, float 2.0, float 1.0>
601   %a  = fadd <4 x float> %m1, %y
602   ret <4 x float> %a
603 }
604
605 attributes #0 = { "unsafe-fp-math"="true" }