Improved tail recursion optimization:
[libfirm] / ir / opt / tailrec.c
1 /*
2  * Copyright (C) 1995-2008 University of Karlsruhe.  All right reserved.
3  *
4  * This file is part of libFirm.
5  *
6  * This file may be distributed and/or modified under the terms of the
7  * GNU General Public License version 2 as published by the Free Software
8  * Foundation and appearing in the file LICENSE.GPL included in the
9  * packaging of this file.
10  *
11  * Licensees holding valid libFirm Professional Edition licenses may use
12  * this file in accordance with the libFirm Commercial License.
13  * Agreement provided with the Software.
14  *
15  * This file is provided AS IS with NO WARRANTY OF ANY KIND, INCLUDING THE
16  * WARRANTY OF DESIGN, MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE.
18  */
19
20 /**
21  * @file
22  * @brief   Tail-recursion call optimization.
23  * @date    08.06.2004
24  * @author  Michael Beck
25  * @version $Id$
26  */
27 #ifdef HAVE_CONFIG_H
28 # include "config.h"
29 #endif
30
31 #include <string.h>
32 #include <assert.h>
33
34 #include "debug.h"
35 #include "iroptimize.h"
36 #include "scalar_replace.h"
37 #include "array.h"
38 #include "irprog_t.h"
39 #include "irgwalk.h"
40 #include "irgmod.h"
41 #include "irop.h"
42 #include "irnode_t.h"
43 #include "irgraph_t.h"
44 #include "ircons.h"
45 #include "irflag.h"
46 #include "trouts.h"
47 #include "irouts.h"
48 #include "irhooks.h"
49 #include "xmalloc.h"
50
51 DEBUG_ONLY(static firm_dbg_module_t *dbg);
52
53 /**
54  * the environment for collecting data
55  */
56 typedef struct _collect_t {
57         ir_node *proj_X;      /**< initial exec proj */
58         ir_node *block;       /**< old first block */
59         int     blk_idx;      /**< cfgpred index of the initial exec in block */
60         ir_node *proj_m;      /**< memory from start proj's */
61         ir_node *proj_data;   /**< linked list of all parameter access proj's */
62 } collect_t;
63
64 /**
65  * walker for collecting data, fills a collect_t environment
66  */
67 static void collect_data(ir_node *node, void *env) {
68         collect_t *data = env;
69         ir_node *pred;
70         ir_op *op;
71
72         switch (get_irn_opcode(node)) {
73         case iro_Proj:
74                 pred = get_Proj_pred(node);
75
76                 op = get_irn_op(pred);
77                 if (op == op_Proj) {
78                         ir_node *start = get_Proj_pred(pred);
79
80                         if (get_irn_op(start) == op_Start) {
81                                 if (get_Proj_proj(pred) == pn_Start_T_args) {
82                                         /* found Proj(ProjT(Start)) */
83                                         set_irn_link(node, data->proj_data);
84                                         data->proj_data = node;
85                                 }
86                         }
87                 } else if (op == op_Start) {
88                         if (get_Proj_proj(node) == pn_Start_X_initial_exec) {
89                                 /* found ProjX(Start) */
90                                 data->proj_X = node;
91                         }
92                 }
93                 break;
94         case iro_Block: {
95                 int i, n_pred = get_Block_n_cfgpreds(node);
96
97                 /*
98                  * the first block has the initial exec as cfg predecessor
99                  */
100                 if (node != get_irg_start_block(current_ir_graph)) {
101                         for (i = 0; i < n_pred; ++i) {
102                                 if (get_Block_cfgpred(node, i) == data->proj_X) {
103                                         data->block   = node;
104                                         data->blk_idx = i;
105                                         break;
106                                 }
107                         }
108                 }
109                 break;
110         }
111         default:
112                 break;
113         }
114 }
115
116 typedef enum tail_rec_variants {
117         TR_DIRECT,  /**< direct return value, i.e. return func(). */
118         TR_ADD,     /**< additive return value, i.e. return x +/- func() */
119         TR_MUL,     /**< multiplicative return value, i.e. return x * func() or return -func() */
120         TR_BAD,     /**< any other transformation */
121         TR_UNKNOWN  /**< during construction */
122 } tail_rec_variants;
123
124 typedef struct tr_env {
125         int               n_tail_calls;  /**< number of tail calls found */
126         int               n_ress;        /**< number of return values */
127         tail_rec_variants *variants;     /**< return value variants */
128         ir_node           *rets;         /**< list of returns that can be transformed */
129 } tr_env;
130
131
132 /**
133  * do the graph reconstruction for tail-recursion elimination
134  *
135  * @param irg           the graph that will reconstructed
136  * @param rets          linked list of all rets
137  * @param n_tail_calls  number of tail-recursion calls
138  */
139 static void do_opt_tail_rec(ir_graph *irg, tr_env *env) {
140         ir_node *end_block = get_irg_end_block(irg);
141         ir_node *block, *jmp, *call, *calls;
142         ir_node **in;
143         ir_node **phis;
144         ir_node ***call_params;
145         ir_node *p, *n;
146         int i, j, n_params, n_locs;
147         collect_t data;
148         int rem            = get_optimize();
149         ir_entity *ent     = get_irg_entity(irg);
150         ir_type *method_tp = get_entity_type(ent);
151         ir_graph *old      = current_ir_graph;
152
153         current_ir_graph = irg;
154
155         assert(env->n_tail_calls > 0);
156
157         /* we add new nodes, so the outs are inconsistent */
158         set_irg_outs_inconsistent(irg);
159
160         /* we add new blocks and change the control flow */
161         set_irg_doms_inconsistent(irg);
162         set_irg_extblk_inconsistent(irg);
163
164         /* we add a new loop */
165         set_irg_loopinfo_inconsistent(irg);
166
167         /* calls are removed */
168         set_trouts_inconsistent();
169
170         /* we must build some new nodes WITHOUT CSE */
171         set_optimize(0);
172
173         /* collect needed data */
174         data.proj_X    = NULL;
175         data.block     = NULL;
176         data.blk_idx   = -1;
177         data.proj_m    = get_irg_initial_mem(irg);
178         data.proj_data = NULL;
179         irg_walk_graph(irg, NULL, collect_data, &data);
180
181         /* check number of arguments */
182         call = get_irn_link(end_block);
183         n_params = get_Call_n_params(call);
184
185         assert(data.proj_X && "Could not find initial exec from Start");
186         assert(data.block  && "Could not find first block");
187         assert(data.proj_m && "Could not find initial memory");
188         assert((data.proj_data || n_params == 0) && "Could not find Proj(ProjT(Start)) of non-void function");
189
190         /* allocate in's for phi and block construction */
191         NEW_ARR_A(ir_node *, in, env->n_tail_calls + 1);
192
193         in[0] = data.proj_X;
194
195         /* turn Return's into Jmp's */
196         for (i = 1, p = env->rets; p; p = n) {
197                 ir_node *block = get_nodes_block(p);
198
199                 n = get_irn_link(p);
200                 in[i++] = new_r_Jmp(irg, block);
201
202                 // exchange(p, new_r_Bad(irg));
203
204                 /* we might generate an endless loop, so add
205                  * the block to the keep-alive list */
206                 add_End_keepalive(get_irg_end(irg), block);
207         }
208
209         /* create a new block at start */
210         block = new_r_Block(irg, env->n_tail_calls + 1, in);
211         jmp   = new_r_Jmp(irg, block);
212
213         /* the old first block is now the second one */
214         set_Block_cfgpred(data.block, data.blk_idx, jmp);
215
216         /* allocate phi's, position 0 contains the memory phi */
217         NEW_ARR_A(ir_node *, phis, n_params + 1);
218
219         /* build the memory phi */
220         i = 0;
221         in[i] = new_r_Proj(irg, get_irg_start_block(irg), get_irg_start(irg), mode_M, pn_Start_M);
222         set_irg_initial_mem(irg, in[i]);
223         ++i;
224
225         for (calls = call; calls; calls = get_irn_link(calls)) {
226                 in[i] = get_Call_mem(calls);
227                 ++i;
228         }
229         assert(i == env->n_tail_calls + 1);
230
231         phis[0] = new_r_Phi(irg, block, env->n_tail_calls + 1, in, mode_M);
232
233         /* build the data Phi's */
234         if (n_params > 0) {
235                 ir_node *calls;
236                 ir_node *args;
237                 ir_node *args_bl;
238
239                 NEW_ARR_A(ir_node **, call_params, env->n_tail_calls);
240
241                 /* collect all parameters */
242                 for (i = 0, calls = call; calls; calls = get_irn_link(calls)) {
243                         call_params[i] = get_Call_param_arr(calls);
244                         ++i;
245                 }
246
247                 /* build new Proj's and Phi's */
248                 args    = get_irg_args(irg);
249                 args_bl = get_nodes_block(args);
250                 for (i = 0; i < n_params; ++i) {
251                         ir_mode *mode = get_type_mode(get_method_param_type(method_tp, i));
252
253                         in[0] = new_r_Proj(irg, args_bl, args, mode, i);
254                         for (j = 0; j < env->n_tail_calls; ++j)
255                                 in[j + 1] = call_params[j][i];
256
257                         phis[i + 1] = new_r_Phi(irg, block, env->n_tail_calls + 1, in, mode);
258                 }
259         }
260
261         /*
262          * ok, we are here, so we have build and collected all needed Phi's
263          * now exchange all Projs into links to Phi
264          */
265         for (p = data.proj_m; p; p = n) {
266                 n = get_irn_link(p);
267                 exchange(p, phis[0]);
268         }
269         for (p = data.proj_data; p; p = n) {
270                 long proj = get_Proj_proj(p);
271
272                 assert(0 <= proj && proj < n_params);
273                 n = get_irn_link(p);
274                 exchange(p, phis[proj + 1]);
275         }
276
277         /* tail recursion was done, all info is invalid */
278         set_irg_doms_inconsistent(irg);
279         set_irg_outs_inconsistent(irg);
280         set_irg_extblk_inconsistent(irg);
281         set_irg_loopinfo_state(current_ir_graph, loopinfo_cf_inconsistent);
282         set_trouts_inconsistent();
283         set_irg_callee_info_state(irg, irg_callee_info_inconsistent);
284
285         set_optimize(rem);
286
287         /* check if we need new values */
288         n_locs = 0;
289         for (i = 0; i < env->n_ress; ++i) {
290                 if (env->variants[i] != TR_DIRECT)
291                         ++n_locs;
292         }
293
294         if (n_locs > 0) {
295                 ir_node *bad, *start_block;
296                 ir_node **in;
297                 ir_mode **modes;
298
299                 NEW_ARR_A(ir_node *, in, n_locs);
300                 NEW_ARR_A(ir_mode *, modes, n_locs);
301                 ssa_cons_start(irg, n_locs);
302
303                 start_block = get_irg_start_block(irg);
304                 set_cur_block(start_block);
305
306                 for (i = 0; i < env->n_ress; ++i) {
307                         ir_type *tp = get_method_res_type(method_tp, i);
308                         ir_mode *mode = get_type_mode(tp);
309
310                         modes[i] = mode;
311                         if (env->variants[i] == TR_ADD) {
312                                 set_value(i, new_Const(mode, get_mode_null(mode)));
313                         } else if (env->variants[i] == TR_MUL) {
314                                 set_value(i, new_Const(mode, get_mode_one(mode)));
315                         }
316                 }
317                 mature_immBlock(start_block);
318
319                 /* no: we can kill all returns */
320                 bad = get_irg_bad(irg);
321
322                 for (p = env->rets; p; p = n) {
323                         ir_node *block = get_nodes_block(p);
324                         ir_node *call, *mem, *jmp, *tuple;
325
326                         set_cur_block(block);
327                         n = get_irn_link(p);
328
329                         call = skip_Proj(get_Return_mem(p));
330                         assert(is_Call(call));
331
332                         mem = get_Call_mem(call);
333
334                         /* create a new jump, free of CSE */
335                         set_optimize(0);
336                         jmp = new_Jmp();
337                         set_optimize(rem);
338
339                         for (i = 0; i < env->n_ress; ++i) {
340                                 if (env->variants[i] != TR_DIRECT) {
341                                         in[i] = get_value(i, modes[i]);
342                                 } else {
343                                         in[i] = bad;
344                                 }
345                         }
346                         /* create a new tuple for the return values */
347                         tuple = new_Tuple(env->n_ress, in);
348
349                         turn_into_tuple(call, pn_Call_max);
350                         set_Tuple_pred(call, pn_Call_M,                mem);
351                         set_Tuple_pred(call, pn_Call_X_regular,        jmp);
352                         set_Tuple_pred(call, pn_Call_X_except,         bad);
353                         set_Tuple_pred(call, pn_Call_T_result,         tuple);
354                         set_Tuple_pred(call, pn_Call_M_except,         mem);
355                         set_Tuple_pred(call, pn_Call_P_value_res_base, bad);
356
357                         for (i = 0; i < env->n_ress; ++i) {
358                                 ir_node *res = get_Return_res(p, i);
359                                 if (env->variants[i] != TR_DIRECT) {
360                                         set_value(i, res);
361                                 }
362                         }
363
364                         exchange(p, bad);
365                 }
366
367                 /* finally fix all other returns */
368                 end_block = get_irg_end_block(irg);
369                 for (i = get_Block_n_cfgpreds(end_block) - 1; i >= 0; --i) {
370                         ir_node *ret = get_Block_cfgpred(end_block, i);
371
372                         /* search all Returns of a block */
373                         if (! is_Return(ret))
374                                 continue;
375
376                         set_cur_block(get_nodes_block(ret));
377                         for (j = 0; j < env->n_ress; ++j) {
378                                 ir_node *pred = get_Return_res(ret, j);
379                                 ir_node *n;
380
381                                 switch (env->variants[j]) {
382                                 case TR_DIRECT:
383                                         continue;
384
385                                 case TR_ADD:
386                                         n = get_value(j, modes[j]);
387                                         n = new_Add(n, pred, modes[j]);
388                                         set_Return_res(ret, j, n);
389                                         break;
390
391                                 case TR_MUL:
392                                         n = get_value(j, modes[j]);
393                                         n = new_Mul(n, pred, modes[j]);
394                                         set_Return_res(ret, j, n);
395                                         break;
396
397                                 default:
398                                         assert(!"unexpected tail recursion variant");
399                                 }
400                         }
401                 }
402                 ssa_cons_finish(irg);
403         } else {
404                 ir_node *bad = get_irg_bad(irg);
405
406                 /* no: we can kill all returns */
407                 for (p = env->rets; p; p = n) {
408                         n = get_irn_link(p);
409                         exchange(p, bad);
410                 }
411         }
412         current_ir_graph = old;
413 }
414
415 /**
416  * Check the lifetime of locals in the given graph.
417  * Tail recursion can only be done, if we can prove that
418  * the lifetime of locals end with the recursive call.
419  * We do this by checking that no address of a local variable is
420  * stored or transmitted as an argument to a call.
421  *
422  * @return non-zero if it's ok to do tail recursion
423  */
424 static int check_lifetime_of_locals(ir_graph *irg) {
425         ir_node *irg_frame, *irg_val_param_base;
426         int i;
427
428         irg_frame = get_irg_frame(irg);
429         for (i = get_irn_n_outs(irg_frame) - 1; i >= 0; --i) {
430                 ir_node *succ = get_irn_out(irg_frame, i);
431
432                 if (is_Sel(succ) && is_address_taken(succ))
433                         return 0;
434         }
435
436         /* Check if we have compound arguments.
437            For now, we cannot handle them, */
438         irg_val_param_base = get_irg_value_param_base(irg);
439         if (get_irn_n_outs(irg_val_param_base) > 0)
440                 return 0;
441
442         return 1;
443 }
444
445 /**
446  * Examine irn and detect the recursion variant.
447  */
448 static tail_rec_variants find_variant(ir_node *irn, ir_node *call) {
449         ir_node           *a, *b;
450         tail_rec_variants va, vb, res;
451
452         if (skip_Proj(skip_Proj(irn)) == call) {
453                 /* found it */
454                 return TR_DIRECT;
455         }
456         switch (get_irn_opcode(irn)) {
457         case iro_Add:
458                 /* try additive */
459                 a = get_Add_left(irn);
460                 if (get_irn_MacroBlock(a) != get_irn_MacroBlock(call)) {
461                         /* we are outside, ignore */
462                         va = TR_UNKNOWN;
463                 } else {
464                         va = find_variant(a, call);
465                         if (va == TR_BAD)
466                                 return TR_BAD;
467                 }
468                 b = get_Add_right(irn);
469                 if (get_irn_MacroBlock(b) != get_irn_MacroBlock(call)) {
470                         /* we are outside, ignore */
471                         vb = TR_UNKNOWN;
472                 } else {
473                         vb = find_variant(b, call);
474                         if (vb == TR_BAD)
475                                 return TR_BAD;
476                 }
477                 if (va == vb) {
478                         res = va;
479                 }
480                 else if (va == TR_UNKNOWN)
481                         res = vb;
482                 else if (vb == TR_UNKNOWN)
483                         res = va;
484                 else {
485                         /* they are different but none is TR_UNKNOWN -> incompatible */
486                         return TR_BAD;
487                 }
488                 if (res == TR_DIRECT || res == TR_ADD)
489                         return TR_ADD;
490                 /* not compatible */
491                 return TR_BAD;
492
493         case iro_Sub:
494                 /* try additive, but return value mut be left */
495                 a = get_Sub_left(irn);
496                 if (get_irn_MacroBlock(a) != get_irn_MacroBlock(call)) {
497                         /* we are outside, ignore */
498                         va = TR_UNKNOWN;
499                 } else {
500                         va = find_variant(a, call);
501                         if (va == TR_BAD)
502                                 return TR_BAD;
503                 }
504                 b = get_Sub_right(irn);
505                 if (get_irn_MacroBlock(b) != get_irn_MacroBlock(call)) {
506                         /* we are outside, ignore */
507                         vb = TR_UNKNOWN;
508                 } else {
509                         vb = find_variant(b, call);
510                         if (vb != TR_UNKNOWN)
511                                 return TR_BAD;
512                 }
513                 res = va;
514                 if (res == TR_DIRECT || res == TR_ADD)
515                         return res;
516                 /* not compatible */
517                 return TR_BAD;
518
519         case iro_Mul:
520                 /* try multiplicative */
521                 a = get_Mul_left(irn);
522                 if (get_irn_MacroBlock(a) != get_irn_MacroBlock(call)) {
523                         /* we are outside, ignore */
524                         va = TR_UNKNOWN;
525                 } else {
526                         va = find_variant(a, call);
527                         if (va == TR_BAD)
528                                 return TR_BAD;
529                 }
530                 b = get_Mul_right(irn);
531                 if (get_irn_MacroBlock(b) != get_irn_MacroBlock(call)) {
532                         /* we are outside, ignore */
533                         vb = TR_UNKNOWN;
534                 } else {
535                         vb = find_variant(b, call);
536                         if (vb == TR_BAD)
537                                 return TR_BAD;
538                 }
539                 if (va == vb) {
540                         res = va;
541                 }
542                 else if (va == TR_UNKNOWN)
543                         res = vb;
544                 else if (vb == TR_UNKNOWN)
545                         res = va;
546                 else {
547                         /* they are different but none is TR_UNKNOWN -> incompatible */
548                         return TR_BAD;
549                 }
550                 if (res == TR_DIRECT || res == TR_MUL)
551                         return TR_MUL;
552                 /* not compatible */
553                 return TR_BAD;
554
555         case iro_Minus:
556                 /* try multiplicative */
557                 a = get_Minus_op(irn);
558                 res =  find_variant(a, call);
559                 if (res == TR_DIRECT)
560                         return TR_MUL;
561                 if (res == TR_MUL || res == TR_UNKNOWN)
562                         return res;
563                 /* not compatible */
564                 return TR_BAD;
565
566         default:
567                 return TR_UNKNOWN;
568         }
569 }
570
571
572 /*
573  * convert simple tail-calls into loops
574  */
575 int opt_tail_rec_irg(ir_graph *irg) {
576         tr_env            env;
577         ir_node           *end_block;
578         int               i, n_ress, n_tail_calls = 0;
579         ir_node           *rets = NULL;
580         ir_type           *mtd_type, *call_type;
581         ir_entity         *ent;
582
583         assure_irg_outs(irg);
584
585         if (! check_lifetime_of_locals(irg))
586                 return 0;
587
588
589         ent      = get_irg_entity(irg);
590         mtd_type = get_entity_type(ent);
591     n_ress   = get_method_n_ress(mtd_type);
592
593         env.variants = NULL;
594         env.n_ress   = n_ress;
595
596         if (n_ress > 0) {
597                 NEW_ARR_A(tail_rec_variants, env.variants, n_ress);
598
599                 for (i = 0; i < n_ress; ++i)
600                         env.variants[i] = TR_DIRECT;
601         }
602
603         /*
604          * This tail recursion optimization works best
605          * if the Returns are normalized.
606          */
607         normalize_n_returns(irg);
608
609         end_block = get_irg_end_block(irg);
610         set_irn_link(end_block, NULL);
611
612         for (i = get_Block_n_cfgpreds(end_block) - 1; i >= 0; --i) {
613                 ir_node *ret = get_Block_cfgpred(end_block, i);
614                 ir_node *call, *call_ptr;
615                 int j;
616                 ir_node **ress;
617
618                 /* search all Returns of a block */
619                 if (! is_Return(ret))
620                         continue;
621
622                 /* check, if it's a Return self() */
623                 call = skip_Proj(get_Return_mem(ret));
624                 if (! is_Call(call))
625                         continue;
626
627                 /* the call must be in the same block as the return */
628                 if (get_nodes_block(call) != get_nodes_block(ret))
629                         continue;
630
631                 /* check if it's a recursive call */
632                 call_ptr = get_Call_ptr(call);
633
634                 if (! is_SymConst_addr_ent(call_ptr))
635                         continue;
636
637                 ent = get_SymConst_entity(call_ptr);
638                 if (!ent || get_entity_irg(ent) != irg)
639                         continue;
640
641                 /*
642                  * Check, that the types match. At least in C
643                  * this might fail.
644                  */
645                 mtd_type  = get_entity_type(ent);
646                 call_type = get_Call_type(call);
647
648                 if (mtd_type != call_type) {
649                         /*
650                          * Hmm, the types did not match, bad.
651                          * This can happen in C when no prototype is given
652                          * or K&R style is used.
653                          */
654 #if 0
655                         printf("Warning: Tail recursion fails because of different method and call types:\n");
656                         dump_type(mtd_type);
657                         dump_type(call_type);
658 #endif
659                         continue;
660                 }
661
662                 /* ok, mem is routed to a recursive call, check return args */
663                 ress = get_Return_res_arr(ret);
664                 for (j = get_Return_n_ress(ret) - 1; j >= 0; --j) {
665                         tail_rec_variants var = find_variant(ress[j], call);
666
667                         if (var >= TR_BAD) {
668                                 /* cannot be transformed */
669                                 break;
670                         }
671                         if (var == TR_DIRECT)
672                                 var = env.variants[j];
673                         else if (env.variants[j] == TR_DIRECT)
674                                 env.variants[j] = var;
675                         if (env.variants[j] != var) {
676                                 /* not compatible */
677                                 break;
678                         }
679                 }
680                 if (j >= 0)
681                         continue;
682
683                 /* here, we have found a call */
684                 set_irn_link(call, get_irn_link(end_block));
685                 set_irn_link(end_block, call);
686                 ++n_tail_calls;
687
688                 /* link all returns, we will need this */
689                 set_irn_link(ret, rets);
690                 rets = ret;
691         }
692
693         /* now, end_block->link contains the list of all tail calls */
694         if (n_tail_calls <= 0)
695                 return 0;
696
697         DB((dbg, LEVEL_2, "  Performing tail recursion for graph %s and %d Calls\n",
698             get_entity_ld_name(get_irg_entity(irg)), n_tail_calls));
699
700         hook_tail_rec(irg, n_tail_calls);
701
702         env.n_tail_calls = n_tail_calls;
703         env.rets         = rets;
704         do_opt_tail_rec(irg, &env);
705
706         return n_tail_calls;
707 }
708
709 /*
710  * optimize tail recursion away
711  */
712 void opt_tail_recursion(void) {
713         int i;
714         int n_opt_applications = 0;
715         ir_graph *irg;
716
717         FIRM_DBG_REGISTER(dbg, "firm.opt.tailrec");
718
719         for (i = get_irp_n_irgs() - 1; i >= 0; --i) {
720                 irg = get_irp_irg(i);
721
722                 current_ir_graph = irg;
723
724                 if (opt_tail_rec_irg(irg))
725                         ++n_opt_applications;
726         }
727
728         DB((dbg, LEVEL_1, "Performed tail recursion for %d of %d graphs\n",
729             n_opt_applications, get_irp_n_irgs()));
730 }