Fix setoutfile/irgname debugger commands.
[libfirm] / ir / be / sparc / sparc_emitter.c
index ac2bb1d..c8fe24d 100644 (file)
 /**
  * @file
  * @brief   emit assembler for a backend graph
+ * @author  Hannes Rapp, Matthias Braun
  * @version $Id$
  */
 #include "config.h"
 
 #include <limits.h>
 
+#include "bitfiddle.h"
 #include "xmalloc.h"
 #include "tv.h"
 #include "iredges.h"
 #include "dbginfo.h"
 #include "heights.h"
 
-#include "../besched.h"
-#include "../beblocksched.h"
-#include "../beirg.h"
-#include "../begnuas.h"
-#include "../be_dbgout.h"
-#include "../benode.h"
-#include "../bestack.h"
+#include "besched.h"
+#include "beblocksched.h"
+#include "beirg.h"
+#include "begnuas.h"
+#include "be_dbgout.h"
+#include "benode.h"
+#include "bestack.h"
+#include "bepeephole.h"
 
 #include "sparc_emitter.h"
 #include "gen_sparc_emitter.h"
@@ -62,64 +65,13 @@ static const ir_node *delay_slot_filler; /**< this node has been choosen to fill
                                               the next delay slot */
 
 static void sparc_emit_node(const ir_node *node);
+static bool emitting_delay_slot;
 
-/**
- * Returns the register at in position pos.
- */
-static const arch_register_t *get_in_reg(const ir_node *node, int pos)
+void sparc_emit_indent(void)
 {
-       ir_node                *op;
-       const arch_register_t  *reg = NULL;
-
-       assert(get_irn_arity(node) > pos && "Invalid IN position");
-
-       /* The out register of the operator at position pos is the
-          in register we need. */
-       op = get_irn_n(node, pos);
-
-       reg = arch_get_irn_register(op);
-
-       assert(reg && "no in register found");
-       return reg;
-}
-
-/**
- * Returns the register at out position pos.
- */
-static const arch_register_t *get_out_reg(const ir_node *node, int pos)
-{
-       ir_node                *proj;
-       const arch_register_t  *reg = NULL;
-
-       /* 1st case: irn is not of mode_T, so it has only                 */
-       /*           one OUT register -> good                             */
-       /* 2nd case: irn is of mode_T -> collect all Projs and ask the    */
-       /*           Proj with the corresponding projnum for the register */
-
-       if (get_irn_mode(node) != mode_T) {
-               reg = arch_get_irn_register(node);
-       } else if (is_sparc_irn(node)) {
-               reg = arch_irn_get_register(node, pos);
-       } else {
-               const ir_edge_t *edge;
-
-               foreach_out_edge(node, edge) {
-                       proj = get_edge_src_irn(edge);
-                       assert(is_Proj(proj) && "non-Proj from mode_T node");
-                       if (get_Proj_proj(proj) == pos) {
-                               reg = arch_get_irn_register(proj);
-                               break;
-                       }
-               }
-       }
-
-       assert(reg && "no out register found");
-       return reg;
-}
-
-static bool is_valid_immediate(int32_t value)
-{
-       return -4096 <= value && value < 4096;
+       be_emit_char('\t');
+       if (emitting_delay_slot)
+               be_emit_char(' ');
 }
 
 void sparc_emit_immediate(const ir_node *node)
@@ -129,10 +81,14 @@ void sparc_emit_immediate(const ir_node *node)
 
        if (entity == NULL) {
                int32_t value = attr->immediate_value;
-               assert(is_valid_immediate(value));
+               assert(sparc_is_value_imm_encodeable(value));
                be_emit_irprintf("%d", value);
        } else {
-               be_emit_cstring("%lo(");
+               if (get_entity_owner(entity) == get_tls_type()) {
+                       be_emit_cstring("%tle_lox10(");
+               } else {
+                       be_emit_cstring("%lo(");
+               }
                be_gas_emit_entity(entity);
                if (attr->immediate_value != 0) {
                        be_emit_irprintf("%+d", attr->immediate_value);
@@ -146,29 +102,33 @@ void sparc_emit_high_immediate(const ir_node *node)
        const sparc_attr_t *attr   = get_sparc_attr_const(node);
        ir_entity          *entity = attr->immediate_value_entity;
 
-       be_emit_cstring("%hi(");
        if (entity == NULL) {
                uint32_t value = (uint32_t) attr->immediate_value;
-               be_emit_irprintf("0x%X", value);
+               be_emit_irprintf("%%hi(0x%X)", value);
        } else {
+               if (get_entity_owner(entity) == get_tls_type()) {
+                       be_emit_cstring("%tle_hix22(");
+               } else {
+                       be_emit_cstring("%hi(");
+               }
                be_gas_emit_entity(entity);
                if (attr->immediate_value != 0) {
                        be_emit_irprintf("%+d", attr->immediate_value);
                }
+               be_emit_char(')');
        }
-       be_emit_char(')');
 }
 
 void sparc_emit_source_register(const ir_node *node, int pos)
 {
-       const arch_register_t *reg = get_in_reg(node, pos);
+       const arch_register_t *reg = arch_get_irn_register_in(node, pos);
        be_emit_char('%');
        be_emit_string(arch_register_get_name(reg));
 }
 
 void sparc_emit_dest_register(const ir_node *node, int pos)
 {
-       const arch_register_t *reg = get_out_reg(node, pos);
+       const arch_register_t *reg = arch_get_irn_register_out(node, pos);
        be_emit_char('%');
        be_emit_string(arch_register_get_name(reg));
 }
@@ -180,22 +140,15 @@ void sparc_emit_dest_register(const ir_node *node, int pos)
  */
 void sparc_emit_reg_or_imm(const ir_node *node, int pos)
 {
-       if (get_irn_arity(node) > pos) {
-               // we have reg input
-               sparc_emit_source_register(node, pos);
-       } else {
+       if (arch_get_irn_flags(node) & ((arch_irn_flags_t)sparc_arch_irn_flag_immediate_form)) {
                // we have a imm input
                sparc_emit_immediate(node);
+       } else {
+               // we have reg input
+               sparc_emit_source_register(node, pos);
        }
 }
 
-static bool is_stack_pointer_relative(const ir_node *node)
-{
-       const arch_register_t *sp = &sparc_registers[REG_SP];
-       return (is_sparc_St(node) && get_in_reg(node, n_sparc_St_ptr) == sp)
-           || (is_sparc_Ld(node) && get_in_reg(node, n_sparc_Ld_ptr) == sp);
-}
-
 /**
  * emit SP offset
  */
@@ -211,12 +164,8 @@ void sparc_emit_offset(const ir_node *node, int offset_node_pos)
                sparc_emit_source_register(node, offset_node_pos);
        } else if (attr->is_frame_entity) {
                int32_t offset = attr->base.immediate_value;
-               /* bad hack: the real stack stuff is behind the always-there spill
-                * space for the register window and stack */
-               if (is_stack_pointer_relative(node))
-                       offset += SPARC_MIN_STACKSIZE;
                if (offset != 0) {
-                       assert(is_valid_immediate(offset));
+                       assert(sparc_is_value_imm_encodeable(offset));
                        be_emit_irprintf("%+ld", offset);
                }
        } else if (attr->base.immediate_value != 0
@@ -226,6 +175,27 @@ void sparc_emit_offset(const ir_node *node, int offset_node_pos)
        }
 }
 
+void sparc_emit_source_reg_and_offset(const ir_node *node, int regpos,
+                                      int offpos)
+{
+       const arch_register_t *reg = arch_get_irn_register_in(node, regpos);
+       const sparc_load_store_attr_t *attr;
+
+#ifdef DEBUG_libfirm
+       if (reg == &sparc_registers[REG_SP]) {
+               attr = get_sparc_load_store_attr_const(node);
+               if (!attr->is_reg_reg
+                   && attr->base.immediate_value < SPARC_SAVE_AREA_SIZE) {
+
+                       ir_fprintf(stderr, "warning: emitting stack pointer relative load/store with offset < %d\n", SPARC_SAVE_AREA_SIZE);
+               }
+       }
+#endif
+
+       sparc_emit_source_register(node, regpos);
+       sparc_emit_offset(node, offpos);
+}
+
 void sparc_emit_float_load_store_mode(const ir_node *node)
 {
        const sparc_load_store_attr_t *attr = get_sparc_load_store_attr_const(node);
@@ -239,7 +209,7 @@ void sparc_emit_float_load_store_mode(const ir_node *node)
        case 64:  be_emit_char('d'); return;
        case 128: be_emit_char('q'); return;
        }
-       panic("invalid flaot load/store mode %+F", mode);
+       panic("invalid float load/store mode %+F", mode);
 }
 
 /**
@@ -283,16 +253,6 @@ void sparc_emit_store_mode(const ir_node *node)
        }
 }
 
-/**
- * emit integer signed/unsigned prefix char
- */
-void sparc_emit_mode_sign_prefix(const ir_node *node)
-{
-       ir_mode *mode      = get_irn_mode(node);
-       bool     is_signed = mode_is_signed(mode);
-       be_emit_string(is_signed ? "s" : "u");
-}
-
 static void emit_fp_suffix(const ir_mode *mode)
 {
        unsigned bits = get_mode_size_bits(mode);
@@ -344,8 +304,18 @@ static void sparc_emit_cfop_target(const ir_node *node)
        be_gas_emit_block_name(block);
 }
 
+/**
+ * returns true if a sparc_call calls a register and not an immediate
+ */
+static bool is_sparc_reg_call(const ir_node *node)
+{
+       const sparc_attr_t *attr = get_sparc_attr_const(node);
+       return attr->immediate_value_entity == NULL;
+}
+
 static int get_sparc_Call_dest_addr_pos(const ir_node *node)
 {
+       assert(is_sparc_reg_call(node));
        return get_irn_arity(node)-1;
 }
 
@@ -360,8 +330,8 @@ static bool is_no_instruction(const ir_node *node)
 {
        /* copies are nops if src_reg == dest_reg */
        if (be_is_Copy(node) || be_is_CopyKeep(node)) {
-               const arch_register_t *src_reg  = get_in_reg(node, 0);
-               const arch_register_t *dest_reg = get_out_reg(node, 0);
+               const arch_register_t *src_reg  = arch_get_irn_register_in(node, 0);
+               const arch_register_t *dest_reg = arch_get_irn_register_out(node, 0);
 
                if (src_reg == dest_reg)
                        return true;
@@ -372,19 +342,16 @@ static bool is_no_instruction(const ir_node *node)
        if (is_sparc_Ba(node) && ba_is_fallthrough(node))
                return true;
 
-       return be_is_Keep(node) || be_is_Barrier(node) || be_is_Start(node)
-               || is_Phi(node);
+       return be_is_Keep(node) || be_is_Start(node) || is_Phi(node);
 }
 
 static bool has_delay_slot(const ir_node *node)
 {
-       if (is_sparc_Ba(node) && ba_is_fallthrough(node))
-               return false;
+       if (is_sparc_Ba(node)) {
+               return !ba_is_fallthrough(node);
+       }
 
-       return is_sparc_Bicc(node) || is_sparc_fbfcc(node) || is_sparc_Ba(node)
-               || is_sparc_SwitchJmp(node) || is_sparc_Call(node)
-               || is_sparc_SDiv(node) || is_sparc_UDiv(node)
-               || be_is_Return(node);
+       return arch_get_irn_flags(node) & sparc_arch_irn_flag_has_delay_slot;
 }
 
 /** returns true if the emitter for this sparc node can produce more than one
@@ -398,56 +365,93 @@ static bool emits_multiple_instructions(const ir_node *node)
        if (has_delay_slot(node))
                return true;
 
-       return is_sparc_Mulh(node) || is_sparc_SDiv(node) || is_sparc_UDiv(node)
+       if (is_sparc_Call(node)) {
+               return arch_get_irn_flags(node) & sparc_arch_irn_flag_aggregate_return;
+       }
+
+       return is_sparc_SMulh(node) || is_sparc_UMulh(node)
+               || is_sparc_SDiv(node) || is_sparc_UDiv(node)
                || be_is_MemPerm(node) || be_is_Perm(node);
 }
 
+static bool uses_reg(const ir_node *node, const arch_register_t *reg)
+{
+       int arity = get_irn_arity(node);
+       int i;
+
+       for (i = 0; i < arity; ++i) {
+               const arch_register_t *in_reg = arch_get_irn_register_in(node, i);
+               if (reg == in_reg)
+                       return true;
+       }
+       return false;
+}
+
+static bool writes_reg(const ir_node *node, const arch_register_t *reg)
+{
+       unsigned n_outs = arch_get_irn_n_outs(node);
+       unsigned o;
+       for (o = 0; o < n_outs; ++o) {
+               const arch_register_t *out_reg = arch_get_irn_register_out(node, o);
+               if (out_reg == reg)
+                       return true;
+       }
+       return false;
+}
+
+static bool can_move_into_delayslot(const ir_node *node, const ir_node *to)
+{
+       if (!be_can_move_before(node, to))
+               return false;
+
+       if (is_sparc_Call(to)) {
+               ir_node *check;
+               /** all deps are used after the delay slot so, we're fine */
+               if (!is_sparc_reg_call(to))
+                       return true;
+
+               check = get_irn_n(to, get_sparc_Call_dest_addr_pos(to));
+               if (skip_Proj(check) == node)
+                       return false;
+
+               /* the Call also destroys the value of %o7, but since this is
+                * currently marked as ignore register in the backend, it
+                * should never be used by the instruction in the delay slot. */
+               if (uses_reg(node, &sparc_registers[REG_O7]))
+                       return false;
+               return true;
+       } else if (is_sparc_Return(to)) {
+               /* return uses the value of %o7, all other values are not
+                * immediately used */
+               if (writes_reg(node, &sparc_registers[REG_O7]))
+                       return false;
+               return true;
+       } else {
+               /* the node must not use our computed values */
+               int arity = get_irn_arity(to);
+               int i;
+               for (i = 0; i < arity; ++i) {
+                       ir_node *in = get_irn_n(to, i);
+                       if (skip_Proj(in) == node)
+                               return false;
+               }
+               return true;
+       }
+}
+
 /**
  * search for an instruction that can fill the delay slot of @p node
  */
 static const ir_node *pick_delay_slot_for(const ir_node *node)
 {
-       const ir_node *check      = node;
        const ir_node *schedpoint = node;
        unsigned       tries      = 0;
        /* currently we don't track which registers are still alive, so we can't
         * pick any other instructions other than the one directly preceding */
-       static const unsigned PICK_DELAY_SLOT_MAX_DISTANCE = 1;
+       static const unsigned PICK_DELAY_SLOT_MAX_DISTANCE = 10;
 
        assert(has_delay_slot(node));
 
-       if (is_sparc_Call(node)) {
-               const sparc_attr_t *attr   = get_sparc_attr_const(node);
-               ir_entity          *entity = attr->immediate_value_entity;
-               if (entity != NULL) {
-                       check = NULL; /* pick any instruction, dependencies on Call
-                                        don't matter */
-               } else {
-                       /* we only need to check the value for the call destination */
-                       check = get_irn_n(node, get_sparc_Call_dest_addr_pos(node));
-               }
-
-               /* the Call also destroys the value of %o7, but since this is currently
-                * marked as ignore register in the backend, it should never be used by
-                * the instruction in the delay slot. */
-       } else if (be_is_Return(node)) {
-               /* we only have to check the jump destination value */
-               int arity = get_irn_arity(node);
-               int i;
-
-               check = NULL;
-               for (i = 0; i < arity; ++i) {
-                       ir_node               *in  = get_irn_n(node, i);
-                       const arch_register_t *reg = arch_get_irn_register(in);
-                       if (reg == &sparc_registers[REG_O7]) {
-                               check = skip_Proj(in);
-                               break;
-                       }
-               }
-       } else {
-               check = node;
-       }
-
        while (sched_has_prev(schedpoint)) {
                schedpoint = sched_prev(schedpoint);
 
@@ -464,10 +468,7 @@ static const ir_node *pick_delay_slot_for(const ir_node *node)
                if (emits_multiple_instructions(schedpoint))
                        continue;
 
-               /* allowed for delayslot: any instruction which is not necessary to
-                * compute an input to the branch. */
-               if (check != NULL
-                               && heights_reachable_in_block(heights, check, schedpoint))
+               if (!can_move_into_delayslot(schedpoint, node))
                        continue;
 
                /* found something */
@@ -482,21 +483,22 @@ static const ir_node *pick_delay_slot_for(const ir_node *node)
  */
 static void emit_be_IncSP(const ir_node *irn)
 {
-       int offs = -be_get_IncSP_offset(irn);
+       int offset = be_get_IncSP_offset(irn);
 
-       if (offs == 0)
+       if (offset == 0)
                return;
 
        /* SPARC stack grows downwards */
-       if (offs < 0) {
-               be_emit_cstring("\tsub ");
-               offs = -offs;
+       sparc_emit_indent();
+       if (offset < 0) {
+               be_emit_cstring("sub ");
+               offset = -offset;
        } else {
-               be_emit_cstring("\tadd ");
+               be_emit_cstring("add ");
        }
 
        sparc_emit_source_register(irn, 0);
-       be_emit_irprintf(", %d", offs);
+       be_emit_irprintf(", %d", -offset);
        be_emit_cstring(", ");
        sparc_emit_dest_register(irn, 0);
        be_emit_finish_line_gas(irn);
@@ -507,8 +509,13 @@ static void emit_be_IncSP(const ir_node *irn)
  */
 static void emit_sparc_Mulh(const ir_node *irn)
 {
-       be_emit_cstring("\t");
-       sparc_emit_mode_sign_prefix(irn);
+       sparc_emit_indent();
+       if (is_sparc_UMulh(irn)) {
+               be_emit_char('u');
+       } else {
+               assert(is_sparc_SMulh(irn));
+               be_emit_char('s');
+       }
        be_emit_cstring("mul ");
 
        sparc_emit_source_register(irn, 0);
@@ -520,20 +527,24 @@ static void emit_sparc_Mulh(const ir_node *irn)
 
        // our result is in the y register now
        // we just copy it to the assigned target reg
-       be_emit_cstring("\tmov %y, ");
+       sparc_emit_indent();
+       be_emit_cstring("mov %y, ");
        sparc_emit_dest_register(irn, 0);
        be_emit_finish_line_gas(irn);
 }
 
 static void fill_delay_slot(void)
 {
+       emitting_delay_slot = true;
        if (delay_slot_filler != NULL) {
                sparc_emit_node(delay_slot_filler);
                delay_slot_filler = NULL;
        } else {
-               be_emit_cstring("\tnop\n");
+               sparc_emit_indent();
+               be_emit_cstring("nop\n");
                be_emit_write_line();
        }
+       emitting_delay_slot = false;
 }
 
 static void emit_sparc_Div(const ir_node *node, bool is_signed)
@@ -542,7 +553,8 @@ static void emit_sparc_Div(const ir_node *node, bool is_signed)
        unsigned wry_delay_count = 3;
        unsigned i;
 
-       be_emit_cstring("\twr ");
+       sparc_emit_indent();
+       be_emit_cstring("wr ");
        sparc_emit_source_register(node, 0);
        be_emit_cstring(", 0, %y");
        be_emit_finish_line_gas(node);
@@ -551,7 +563,8 @@ static void emit_sparc_Div(const ir_node *node, bool is_signed)
                fill_delay_slot();
        }
 
-       be_emit_irprintf("\t%s ", is_signed ? "sdiv" : "udiv");
+       sparc_emit_indent();
+       be_emit_irprintf("%s ", is_signed ? "sdiv" : "udiv");
        sparc_emit_source_register(node, 1);
        be_emit_cstring(", ");
        sparc_emit_reg_or_imm(node, 2);
@@ -570,36 +583,37 @@ static void emit_sparc_UDiv(const ir_node *node)
        emit_sparc_Div(node, false);
 }
 
-/**
- * Emits code for Call node
- */
 static void emit_sparc_Call(const ir_node *node)
 {
-       const sparc_attr_t *attr   = get_sparc_attr_const(node);
-       ir_entity          *entity = attr->immediate_value_entity;
-
-       be_emit_cstring("\tcall ");
-       if (entity != NULL) {
+       sparc_emit_indent();
+       be_emit_cstring("call ");
+       if (is_sparc_reg_call(node)) {
+               int dest_addr = get_sparc_Call_dest_addr_pos(node);
+               sparc_emit_source_register(node, dest_addr);
+       } else {
+               const sparc_attr_t *attr   = get_sparc_attr_const(node);
+               ir_entity          *entity = attr->immediate_value_entity;
            be_gas_emit_entity(entity);
            if (attr->immediate_value != 0) {
                        be_emit_irprintf("%+d", attr->immediate_value);
                }
                be_emit_cstring(", 0");
-       } else {
-               int dest_addr = get_sparc_Call_dest_addr_pos(node);
-               sparc_emit_source_register(node, dest_addr);
        }
        be_emit_finish_line_gas(node);
 
        fill_delay_slot();
+
+       if (arch_get_irn_flags(node) & sparc_arch_irn_flag_aggregate_return) {
+               sparc_emit_indent();
+               be_emit_cstring("unimp 8\n");
+               be_emit_write_line();
+       }
 }
 
-/**
- * Emit code for Perm node
- */
 static void emit_be_Perm(const ir_node *irn)
 {
-       be_emit_cstring("\txor ");
+       sparc_emit_indent();
+       be_emit_cstring("xor ");
        sparc_emit_source_register(irn, 1);
        be_emit_cstring(", ");
        sparc_emit_source_register(irn, 0);
@@ -607,7 +621,8 @@ static void emit_be_Perm(const ir_node *irn)
        sparc_emit_source_register(irn, 0);
        be_emit_finish_line_gas(NULL);
 
-       be_emit_cstring("\txor ");
+       sparc_emit_indent();
+       be_emit_cstring("xor ");
        sparc_emit_source_register(irn, 1);
        be_emit_cstring(", ");
        sparc_emit_source_register(irn, 0);
@@ -615,7 +630,8 @@ static void emit_be_Perm(const ir_node *irn)
        sparc_emit_source_register(irn, 1);
        be_emit_finish_line_gas(NULL);
 
-       be_emit_cstring("\txor ");
+       sparc_emit_indent();
+       be_emit_cstring("xor ");
        sparc_emit_source_register(irn, 1);
        be_emit_cstring(", ");
        sparc_emit_source_register(irn, 0);
@@ -624,64 +640,266 @@ static void emit_be_Perm(const ir_node *irn)
        be_emit_finish_line_gas(irn);
 }
 
-static void emit_be_MemPerm(const ir_node *node)
+/* The stack pointer must always be SPARC_STACK_ALIGNMENT bytes aligned, so get
+ * the next bigger integer that's evenly divisible by it. */
+static unsigned get_aligned_sp_change(const unsigned num_regs)
+{
+       const unsigned bytes = num_regs * SPARC_REGISTER_SIZE;
+       return round_up2(bytes, SPARC_STACK_ALIGNMENT);
+}
+
+/* Spill register l0 or both l0 and l1, depending on n_spilled and n_to_spill.*/
+static void memperm_emit_spill_registers(const ir_node *node, int n_spilled,
+                                         int n_to_spill)
+{
+       assert(n_spilled < n_to_spill);
+
+       if (n_spilled == 0) {
+               /* We always reserve stack space for two registers because during copy
+                * processing we don't know yet if we also need to handle a cycle which
+                * needs two registers.  More complicated code in emit_MemPerm would
+                * prevent wasting SPARC_REGISTER_SIZE bytes of stack space but
+                * it is not worth the worse readability of emit_MemPerm. */
+
+               /* Keep stack pointer aligned. */
+               unsigned sp_change = get_aligned_sp_change(2);
+               sparc_emit_indent();
+               be_emit_irprintf("sub %%sp, %u, %%sp", sp_change);
+               be_emit_finish_line_gas(node);
+
+               /* Spill register l0. */
+               sparc_emit_indent();
+               be_emit_irprintf("st %%l0, [%%sp%+d]", SPARC_MIN_STACKSIZE);
+               be_emit_finish_line_gas(node);
+       }
+
+       if (n_to_spill == 2) {
+               /* Spill register l1. */
+               sparc_emit_indent();
+               be_emit_irprintf("st %%l1, [%%sp%+d]", SPARC_MIN_STACKSIZE + SPARC_REGISTER_SIZE);
+               be_emit_finish_line_gas(node);
+       }
+}
+
+/* Restore register l0 or both l0 and l1, depending on n_spilled. */
+static void memperm_emit_restore_registers(const ir_node *node, int n_spilled)
+{
+       unsigned sp_change;
+
+       if (n_spilled == 2) {
+               /* Restore register l1. */
+               sparc_emit_indent();
+               be_emit_irprintf("ld [%%sp%+d], %%l1", SPARC_MIN_STACKSIZE + SPARC_REGISTER_SIZE);
+               be_emit_finish_line_gas(node);
+       }
+
+       /* Restore register l0. */
+       sparc_emit_indent();
+       be_emit_irprintf("ld [%%sp%+d], %%l0", SPARC_MIN_STACKSIZE);
+       be_emit_finish_line_gas(node);
+
+       /* Restore stack pointer. */
+       sp_change = get_aligned_sp_change(2);
+       sparc_emit_indent();
+       be_emit_irprintf("add %%sp, %u, %%sp", sp_change);
+       be_emit_finish_line_gas(node);
+}
+
+/* Emit code to copy in_ent to out_ent.  Only uses l0. */
+static void memperm_emit_copy(const ir_node *node, ir_entity *in_ent,
+                              ir_entity *out_ent)
+{
+       ir_graph          *irg     = get_irn_irg(node);
+       be_stack_layout_t *layout  = be_get_irg_stack_layout(irg);
+       int                off_in  = be_get_stack_entity_offset(layout, in_ent, 0);
+       int                off_out = be_get_stack_entity_offset(layout, out_ent, 0);
+
+       /* Load from input entity. */
+       sparc_emit_indent();
+       be_emit_irprintf("ld [%%fp%+d], %%l0", off_in);
+       be_emit_finish_line_gas(node);
+
+       /* Store to output entity. */
+       sparc_emit_indent();
+       be_emit_irprintf("st %%l0, [%%fp%+d]", off_out);
+       be_emit_finish_line_gas(node);
+}
+
+/* Emit code to swap ent1 and ent2.  Uses l0 and l1. */
+static void memperm_emit_swap(const ir_node *node, ir_entity *ent1,
+                              ir_entity *ent2)
+{
+       ir_graph          *irg     = get_irn_irg(node);
+       be_stack_layout_t *layout  = be_get_irg_stack_layout(irg);
+       int                off1    = be_get_stack_entity_offset(layout, ent1, 0);
+       int                off2    = be_get_stack_entity_offset(layout, ent2, 0);
+
+       /* Load from first input entity. */
+       sparc_emit_indent();
+       be_emit_irprintf("ld [%%fp%+d], %%l0", off1);
+       be_emit_finish_line_gas(node);
+
+       /* Load from second input entity. */
+       sparc_emit_indent();
+       be_emit_irprintf("ld [%%fp%+d], %%l1", off2);
+       be_emit_finish_line_gas(node);
+
+       /* Store first value to second output entity. */
+       sparc_emit_indent();
+       be_emit_irprintf("st %%l0, [%%fp%+d]", off2);
+       be_emit_finish_line_gas(node);
+
+       /* Store second value to first output entity. */
+       sparc_emit_indent();
+       be_emit_irprintf("st %%l1, [%%fp%+d]", off1);
+       be_emit_finish_line_gas(node);
+}
+
+/* Find the index of ent in ents or return -1 if not found. */
+static int get_index(ir_entity **ents, int n, ir_entity *ent)
 {
        int i;
-       int memperm_arity;
-       int sp_change = 0;
+
+       for (i = 0; i < n; ++i)
+               if (ents[i] == ent)
+                       return i;
+
+       return -1;
+}
+
+/*
+ * Emit code for a MemPerm node.
+ *
+ * Analyze MemPerm for copy chains and cyclic swaps and resolve them using
+ * loads and stores.
+ * This function is conceptually very similar to permute_values in
+ * beprefalloc.c.
+ */
+static void emit_be_MemPerm(const ir_node *node)
+{
+       int         memperm_arity = be_get_MemPerm_entity_arity(node);
+       /* Upper limit for the number of participating entities is twice the
+        * arity, e.g., for a simple copying MemPerm node with one input/output. */
+       int         max_size      = 2 * memperm_arity;
+       ir_entity **entities      = ALLOCANZ(ir_entity *, max_size);
+       /* sourceof contains the input entity for each entity.  If an entity is
+        * never used as an output, its entry in sourceof is a fix point. */
+       int        *sourceof      = ALLOCANZ(int,         max_size);
+       /* n_users counts how many output entities use this entity as their input.*/
+       int        *n_users       = ALLOCANZ(int,         max_size);
+       /* n_spilled records the number of spilled registers, either 1 or 2. */
+       int         n_spilled     = 0;
+       int         i, n, oidx;
+
+       /* This implementation currently only works with frame pointers. */
        ir_graph          *irg    = get_irn_irg(node);
        be_stack_layout_t *layout = be_get_irg_stack_layout(irg);
+       assert(!layout->sp_relative && "MemPerms currently do not work without frame pointers");
 
-       /* this implementation only works with frame pointers currently */
-       assert(layout->sp_relative == false);
+       for (i = 0; i < max_size; ++i) {
+               sourceof[i] = i;
+       }
 
-       /* TODO: this implementation is slower than necessary.
-          The longterm goal is however to avoid the memperm node completely */
+       for (i = n = 0; i < memperm_arity; ++i) {
+               ir_entity *out  = be_get_MemPerm_out_entity(node, i);
+               ir_entity *in   = be_get_MemPerm_in_entity(node, i);
+               int              oidx; /* Out index */
+               int              iidx; /* In index */
 
-       memperm_arity = be_get_MemPerm_entity_arity(node);
-       // we use our local registers - so this is limited to 8 inputs !
-       if (memperm_arity > 8)
-               panic("memperm with more than 8 inputs not supported yet");
+               /* Insert into entities to be able to operate on unique indices. */
+               if (get_index(entities, n, out) == -1)
+                       entities[n++] = out;
+               if (get_index(entities, n, in) == -1)
+                       entities[n++] = in;
 
-       be_emit_irprintf("\tsub %%sp, %d, %%sp", memperm_arity*4);
-       be_emit_finish_line_gas(node);
+               oidx = get_index(entities, n, out);
+               iidx = get_index(entities, n, in);
 
-       for (i = 0; i < memperm_arity; ++i) {
-               ir_entity *entity = be_get_MemPerm_in_entity(node, i);
-               int        offset = be_get_stack_entity_offset(layout, entity, 0);
+               sourceof[oidx] = iidx; /* Remember the source. */
+               ++n_users[iidx]; /* Increment number of users of this entity. */
+       }
 
-               /* spill register */
-               be_emit_irprintf("\tst %%l%d, [%%sp%+d]", i, sp_change + SPARC_MIN_STACKSIZE);
-               be_emit_finish_line_gas(node);
+       /* First do all the copies. */
+       for (oidx = 0; oidx < n; /* empty */) {
+               int iidx = sourceof[oidx];
 
-               /* load from entity */
-               be_emit_irprintf("\tld [%%fp%+d], %%l%d", offset, i);
-               be_emit_finish_line_gas(node);
-               sp_change += 4;
+               /* Nothing to do for fix points.
+                * Also, if entities[oidx] is used as an input by another copy, we
+                * can't overwrite entities[oidx] yet.*/
+               if (iidx == oidx || n_users[oidx] > 0) {
+                       ++oidx;
+                       continue;
+               }
+
+               /* We found the end of a 'chain', so do the copy. */
+               if (n_spilled == 0) {
+                       memperm_emit_spill_registers(node, n_spilled, /*n_to_spill=*/1);
+                       n_spilled = 1;
+               }
+               memperm_emit_copy(node, entities[iidx], entities[oidx]);
+
+               /* Mark as done. */
+               sourceof[oidx] = oidx;
+
+               assert(n_users[iidx] > 0);
+               /* Decrementing the number of users might enable us to do another
+                * copy. */
+               --n_users[iidx];
+
+               if (iidx < oidx && n_users[iidx] == 0) {
+                       oidx = iidx;
+               } else {
+                       ++oidx;
+               }
        }
 
-       for (i = memperm_arity-1; i >= 0; --i) {
-               ir_entity *entity = be_get_MemPerm_out_entity(node, i);
-               int        offset = be_get_stack_entity_offset(layout, entity, 0);
+       /* The rest are cycles. */
+       for (oidx = 0; oidx < n; /* empty */) {
+               int iidx = sourceof[oidx];
+               int tidx;
+
+               /* Nothing to do for fix points. */
+               if (iidx == oidx) {
+                       ++oidx;
+                       continue;
+               }
+
+               assert(n_users[iidx] == 1);
 
-               sp_change -= 4;
+               /* Swap the two values to resolve the cycle. */
+               if (n_spilled < 2) {
+                       memperm_emit_spill_registers(node, n_spilled, /*n_to_spill=*/2);
+                       n_spilled = 2;
+               }
+               memperm_emit_swap(node, entities[iidx], entities[oidx]);
 
-               /* store to new entity */
-               be_emit_irprintf("\tst %%l%d, [%%fp%+d]", i, offset);
-               be_emit_finish_line_gas(node);
-               /* restore register */
-               be_emit_irprintf("\tld [%%sp%+d], %%l%d", sp_change + SPARC_MIN_STACKSIZE, i);
-               be_emit_finish_line_gas(node);
+               tidx = sourceof[iidx];
+               /* Mark as done. */
+               sourceof[iidx] = iidx;
+
+               /* The source of oidx is now the old source of iidx, because we swapped
+                * the two entities. */
+               sourceof[oidx] = tidx;
        }
 
-       be_emit_irprintf("\tadd %%sp, %d, %%sp", memperm_arity*4);
-       be_emit_finish_line_gas(node);
+#ifdef DEBUG_libfirm
+       /* Only fix points should remain. */
+       for (i = 0; i < max_size; ++i) {
+               assert(sourceof[i] == i);
+       }
+#endif
 
-       assert(sp_change == 0);
+       assert(n_spilled > 0 && "Useless MemPerm node");
+
+       memperm_emit_restore_registers(node, n_spilled);
 }
 
-static void emit_be_Return(const ir_node *node)
+static void emit_sparc_Return(const ir_node *node)
 {
+       ir_graph  *irg    = get_irn_irg(node);
+       ir_entity *entity = get_irg_entity(irg);
+       ir_type   *type   = get_entity_type(entity);
+
        const char *destreg = "%o7";
 
        /* hack: we don't explicitely model register changes because of the
@@ -691,28 +909,62 @@ static void emit_be_Return(const ir_node *node)
                         || is_sparc_RestoreZero(delay_slot_filler))) {
                destreg = "%i7";
        }
-       be_emit_cstring("\tjmp ");
+       sparc_emit_indent();
+       be_emit_cstring("jmp ");
        be_emit_string(destreg);
-       be_emit_cstring("+8");
+       if (get_method_calling_convention(type) & cc_compound_ret) {
+               be_emit_cstring("+12");
+       } else {
+               be_emit_cstring("+8");
+       }
        be_emit_finish_line_gas(node);
        fill_delay_slot();
 }
 
+static const arch_register_t *map_i_to_o_reg(const arch_register_t *reg)
+{
+       unsigned idx = reg->global_index;
+       if (idx < REG_I0 || idx > REG_I7)
+               return reg;
+       idx += REG_O0 - REG_I0;
+       assert(REG_O0 <= idx && idx <= REG_O7);
+       return &sparc_registers[idx];
+}
+
+static void emit_sparc_Restore(const ir_node *node)
+{
+       const arch_register_t *destreg
+               = arch_get_irn_register_out(node, pn_sparc_Restore_res);
+       sparc_emit_indent();
+       be_emit_cstring("restore ");
+       sparc_emit_source_register(node, 1);
+       be_emit_cstring(", ");
+       sparc_emit_reg_or_imm(node, 2);
+       be_emit_cstring(", ");
+       destreg = map_i_to_o_reg(destreg);
+       be_emit_char('%');
+       be_emit_string(arch_register_get_name(destreg));
+       be_emit_finish_line_gas(node);
+}
+
 static void emit_sparc_FrameAddr(const ir_node *node)
 {
-       const sparc_attr_t *attr = get_sparc_attr_const(node);
+       const sparc_attr_t *attr   = get_sparc_attr_const(node);
+       int32_t             offset = attr->immediate_value;
 
-       // no need to fix offset as we are adressing via the framepointer
-       if (attr->immediate_value >= 0) {
-               be_emit_cstring("\tadd ");
+       sparc_emit_indent();
+       if (offset < 0) {
+               be_emit_cstring("add ");
                sparc_emit_source_register(node, 0);
                be_emit_cstring(", ");
-               be_emit_irprintf("%ld", attr->immediate_value);
+               assert(sparc_is_value_imm_encodeable(offset));
+               be_emit_irprintf("%ld", offset);
        } else {
-               be_emit_cstring("\tsub ");
+               be_emit_cstring("sub ");
                sparc_emit_source_register(node, 0);
                be_emit_cstring(", ");
-               be_emit_irprintf("%ld", -attr->immediate_value);
+               assert(sparc_is_value_imm_encodeable(-offset));
+               be_emit_irprintf("%ld", -offset);
        }
 
        be_emit_cstring(", ");
@@ -720,67 +972,65 @@ static void emit_sparc_FrameAddr(const ir_node *node)
        be_emit_finish_line_gas(node);
 }
 
-static const char *get_icc_unsigned(pn_Cmp pnc)
+static const char *get_icc_unsigned(ir_relation relation)
 {
-       switch (pnc) {
-       case pn_Cmp_False: return "bn";
-       case pn_Cmp_Eq:    return "be";
-       case pn_Cmp_Lt:    return "blu";
-       case pn_Cmp_Le:    return "bleu";
-       case pn_Cmp_Gt:    return "bgu";
-       case pn_Cmp_Ge:    return "bgeu";
-       case pn_Cmp_Lg:    return "bne";
-       case pn_Cmp_Leg:   return "ba";
-       default: panic("Cmp has unsupported pnc");
+       switch (relation & (ir_relation_less_equal_greater)) {
+       case ir_relation_false:              return "bn";
+       case ir_relation_equal:              return "be";
+       case ir_relation_less:               return "blu";
+       case ir_relation_less_equal:         return "bleu";
+       case ir_relation_greater:            return "bgu";
+       case ir_relation_greater_equal:      return "bgeu";
+       case ir_relation_less_greater:       return "bne";
+       case ir_relation_less_equal_greater: return "ba";
+       default: panic("Cmp has unsupported relation");
        }
 }
 
-static const char *get_icc_signed(pn_Cmp pnc)
+static const char *get_icc_signed(ir_relation relation)
 {
-       switch (pnc) {
-       case pn_Cmp_False: return "bn";
-       case pn_Cmp_Eq:    return "be";
-       case pn_Cmp_Lt:    return "bl";
-       case pn_Cmp_Le:    return "ble";
-       case pn_Cmp_Gt:    return "bg";
-       case pn_Cmp_Ge:    return "bge";
-       case pn_Cmp_Lg:    return "bne";
-       case pn_Cmp_Leg:   return "ba";
-       default: panic("Cmp has unsupported pnc");
+       switch (relation & (ir_relation_less_equal_greater)) {
+       case ir_relation_false:              return "bn";
+       case ir_relation_equal:              return "be";
+       case ir_relation_less:               return "bl";
+       case ir_relation_less_equal:         return "ble";
+       case ir_relation_greater:            return "bg";
+       case ir_relation_greater_equal:      return "bge";
+       case ir_relation_less_greater:       return "bne";
+       case ir_relation_less_equal_greater: return "ba";
+       default: panic("Cmp has unsupported relation");
        }
 }
 
-static const char *get_fcc(pn_Cmp pnc)
-{
-       switch (pnc) {
-       case pn_Cmp_False: return "fbn";
-       case pn_Cmp_Eq:    return "fbe";
-       case pn_Cmp_Lt:    return "fbl";
-       case pn_Cmp_Le:    return "fble";
-       case pn_Cmp_Gt:    return "fbg";
-       case pn_Cmp_Ge:    return "fbge";
-       case pn_Cmp_Lg:    return "fblg";
-       case pn_Cmp_Leg:   return "fbo";
-       case pn_Cmp_Uo:    return "fbu";
-       case pn_Cmp_Ue:    return "fbue";
-       case pn_Cmp_Ul:    return "fbul";
-       case pn_Cmp_Ule:   return "fbule";
-       case pn_Cmp_Ug:    return "fbug";
-       case pn_Cmp_Uge:   return "fbuge";
-       case pn_Cmp_Ne:    return "fbne";
-       case pn_Cmp_True:  return "fba";
-       case pn_Cmp_max:
-               break;
+static const char *get_fcc(ir_relation relation)
+{
+       switch (relation) {
+       case ir_relation_false:                   return "fbn";
+       case ir_relation_equal:                   return "fbe";
+       case ir_relation_less:                    return "fbl";
+       case ir_relation_less_equal:              return "fble";
+       case ir_relation_greater:                 return "fbg";
+       case ir_relation_greater_equal:           return "fbge";
+       case ir_relation_less_greater:            return "fblg";
+       case ir_relation_less_equal_greater:      return "fbo";
+       case ir_relation_unordered:               return "fbu";
+       case ir_relation_unordered_equal:         return "fbue";
+       case ir_relation_unordered_less:          return "fbul";
+       case ir_relation_unordered_less_equal:    return "fbule";
+       case ir_relation_unordered_greater:       return "fbug";
+       case ir_relation_unordered_greater_equal: return "fbuge";
+       case ir_relation_unordered_less_greater:  return "fbne";
+       case ir_relation_true:                    return "fba";
        }
-       panic("invalid pnc");
+       panic("invalid relation");
 }
 
-typedef const char* (*get_cc_func)(pn_Cmp pnc);
+typedef const char* (*get_cc_func)(ir_relation relation);
 
 static void emit_sparc_branch(const ir_node *node, get_cc_func get_cc)
 {
        const sparc_jmp_cond_attr_t *attr = get_sparc_jmp_cond_attr_const(node);
-       pn_Cmp           pnc         = attr->pnc;
+       ir_relation      relation    = attr->relation;
        const ir_node   *proj_true   = NULL;
        const ir_node   *proj_false  = NULL;
        const ir_edge_t *edge;
@@ -809,29 +1059,26 @@ static void emit_sparc_branch(const ir_node *node, get_cc_func get_cc)
 
                proj_true  = proj_false;
                proj_false = t;
-               if (is_sparc_fbfcc(node)) {
-                       pnc = get_negated_pnc(pnc, mode_F);
-               } else {
-                       pnc = get_negated_pnc(pnc, mode_Iu);
-               }
+               relation   = get_negated_relation(relation);
        }
 
        /* emit the true proj */
-       be_emit_cstring("\t");
-       be_emit_string(get_cc(pnc));
+       sparc_emit_indent();
+       be_emit_string(get_cc(relation));
        be_emit_char(' ');
        sparc_emit_cfop_target(proj_true);
        be_emit_finish_line_gas(proj_true);
 
        fill_delay_slot();
 
+       sparc_emit_indent();
        if (get_irn_link(proj_false) == next_block) {
-               be_emit_cstring("\t/* fallthrough to ");
+               be_emit_cstring("/* fallthrough to ");
                sparc_emit_cfop_target(proj_false);
                be_emit_cstring(" */");
                be_emit_finish_line_gas(proj_false);
        } else {
-               be_emit_cstring("\tba ");
+               be_emit_cstring("ba ");
                sparc_emit_cfop_target(proj_false);
                be_emit_finish_line_gas(proj_false);
                fill_delay_slot();
@@ -847,102 +1094,57 @@ static void emit_sparc_Bicc(const ir_node *node)
 
 static void emit_sparc_fbfcc(const ir_node *node)
 {
+       /* if the flags producing node was immediately in front of us, emit
+        * a nop */
+       ir_node *flags = get_irn_n(node, n_sparc_fbfcc_flags);
+       ir_node *prev  = sched_prev(node);
+       if (is_Block(prev)) {
+               /* TODO: when the flags come from another block, then we have to do
+                * more complicated tests to see wether the flag producing node is
+                * potentially in front of us (could happen for fallthroughs) */
+               panic("TODO: fbfcc flags come from other block");
+       }
+       if (skip_Proj(flags) == prev) {
+               sparc_emit_indent();
+               be_emit_cstring("nop\n");
+       }
        emit_sparc_branch(node, get_fcc);
 }
 
 static void emit_sparc_Ba(const ir_node *node)
 {
+       sparc_emit_indent();
        if (ba_is_fallthrough(node)) {
-               be_emit_cstring("\t/* fallthrough to ");
+               be_emit_cstring("/* fallthrough to ");
                sparc_emit_cfop_target(node);
                be_emit_cstring(" */");
+               be_emit_finish_line_gas(node);
        } else {
-               be_emit_cstring("\tba ");
+               be_emit_cstring("ba ");
                sparc_emit_cfop_target(node);
                be_emit_finish_line_gas(node);
                fill_delay_slot();
        }
-       be_emit_finish_line_gas(node);
 }
 
-static void emit_jump_table(const ir_node *node)
+static void emit_sparc_SwitchJmp(const ir_node *node)
 {
        const sparc_switch_jmp_attr_t *attr = get_sparc_switch_jmp_attr_const(node);
-       long             switch_max    = LONG_MIN;
-       long             default_pn    = attr->default_proj_num;
-       ir_entity       *entity        = attr->jump_table;
-       ir_node         *default_block = NULL;
-       unsigned long    length;
-       const ir_edge_t *edge;
-       unsigned         i;
-       ir_node        **table;
-
-       /* go over all proj's and collect them */
-       foreach_out_edge(node, edge) {
-               ir_node *proj = get_edge_src_irn(edge);
-               long     pn   = get_Proj_proj(proj);
 
-               /* check for default proj */
-               if (pn == default_pn) {
-                       assert(default_block == NULL); /* more than 1 default_pn? */
-                       default_block = get_jump_target(proj);
-               } else {
-                       switch_max = pn > switch_max ? pn : switch_max;
-               }
-       }
-       assert(switch_max > LONG_MIN);
-
-       length = (unsigned long) switch_max + 1;
-       /* the 16000 isn't a real limit of the architecture. But should protect us
-        * from seamingly endless compiler runs */
-       if (length > 16000) {
-               /* switch lowerer should have broken this monster to pieces... */
-               panic("too large switch encountered");
-       }
-
-       table = XMALLOCNZ(ir_node*, length);
-       foreach_out_edge(node, edge) {
-               ir_node *proj = get_edge_src_irn(edge);
-               long     pn   = get_Proj_proj(proj);
-               if (pn == default_pn)
-                       continue;
-
-               table[pn] = get_jump_target(proj);
-       }
-
-       /* emit table */
-       be_gas_emit_switch_section(GAS_SECTION_RODATA);
-       be_emit_cstring("\t.align 4\n");
-       be_gas_emit_entity(entity);
-       be_emit_cstring(":\n");
-       for (i = 0; i < length; ++i) {
-               ir_node *block = table[i];
-               if (block == NULL)
-                       block = default_block;
-               be_emit_cstring("\t.long ");
-               be_gas_emit_block_name(block);
-               be_emit_char('\n');
-               be_emit_write_line();
-       }
-       be_gas_emit_switch_section(GAS_SECTION_TEXT);
-
-       xfree(table);
-}
-
-static void emit_sparc_SwitchJmp(const ir_node *node)
-{
-       be_emit_cstring("\tjmp ");
+       sparc_emit_indent();
+       be_emit_cstring("jmp ");
        sparc_emit_source_register(node, 0);
        be_emit_finish_line_gas(node);
        fill_delay_slot();
 
-       emit_jump_table(node);
+       be_emit_jump_table(node, attr->table, attr->table_entity, get_jump_target);
 }
 
 static void emit_fmov(const ir_node *node, const arch_register_t *src_reg,
                       const arch_register_t *dst_reg)
 {
-       be_emit_cstring("\tfmovs %");
+       sparc_emit_indent();
+       be_emit_cstring("fmovs %");
        be_emit_string(arch_register_get_name(src_reg));
        be_emit_cstring(", %");
        be_emit_string(arch_register_get_name(dst_reg));
@@ -951,18 +1153,18 @@ static void emit_fmov(const ir_node *node, const arch_register_t *src_reg,
 
 static const arch_register_t *get_next_fp_reg(const arch_register_t *reg)
 {
-       unsigned index = reg->index;
-       assert(reg == &sparc_registers[index]);
-       index++;
-       assert(index - REG_F0 < N_sparc_fp_REGS);
-       return &sparc_registers[index];
+       unsigned idx = reg->global_index;
+       assert(reg == &sparc_registers[idx]);
+       idx++;
+       assert(idx - REG_F0 < N_sparc_fp_REGS);
+       return &sparc_registers[idx];
 }
 
 static void emit_be_Copy(const ir_node *node)
 {
        ir_mode               *mode    = get_irn_mode(node);
-       const arch_register_t *src_reg = get_in_reg(node, 0);
-       const arch_register_t *dst_reg = get_out_reg(node, 0);
+       const arch_register_t *src_reg = arch_get_irn_register_in(node, 0);
+       const arch_register_t *dst_reg = arch_get_irn_register_out(node, 0);
 
        if (src_reg == dst_reg)
                return;
@@ -978,7 +1180,8 @@ static void emit_be_Copy(const ir_node *node)
                        emit_fmov(node, src_reg, dst_reg);
                }
        } else if (mode_is_data(mode)) {
-               be_emit_cstring("\tmov ");
+               sparc_emit_indent();
+               be_emit_cstring("mov ");
                sparc_emit_source_register(node, 0);
                be_emit_cstring(", ");
                sparc_emit_dest_register(node, 0);
@@ -1017,22 +1220,23 @@ static void sparc_register_emitters(void)
        set_emitter(op_be_IncSP,        emit_be_IncSP);
        set_emitter(op_be_MemPerm,      emit_be_MemPerm);
        set_emitter(op_be_Perm,         emit_be_Perm);
-       set_emitter(op_be_Return,       emit_be_Return);
        set_emitter(op_sparc_Ba,        emit_sparc_Ba);
        set_emitter(op_sparc_Bicc,      emit_sparc_Bicc);
        set_emitter(op_sparc_Call,      emit_sparc_Call);
        set_emitter(op_sparc_fbfcc,     emit_sparc_fbfcc);
        set_emitter(op_sparc_FrameAddr, emit_sparc_FrameAddr);
-       set_emitter(op_sparc_Mulh,      emit_sparc_Mulh);
+       set_emitter(op_sparc_SMulh,     emit_sparc_Mulh);
+       set_emitter(op_sparc_UMulh,     emit_sparc_Mulh);
+       set_emitter(op_sparc_Restore,   emit_sparc_Restore);
+       set_emitter(op_sparc_Return,    emit_sparc_Return);
        set_emitter(op_sparc_SDiv,      emit_sparc_SDiv);
        set_emitter(op_sparc_SwitchJmp, emit_sparc_SwitchJmp);
        set_emitter(op_sparc_UDiv,      emit_sparc_UDiv);
 
        /* no need to emit anything for the following nodes */
-       set_emitter(op_be_Barrier, emit_nothing);
-       set_emitter(op_be_Keep,    emit_nothing);
-       set_emitter(op_be_Start,   emit_nothing);
-       set_emitter(op_Phi,        emit_nothing);
+       set_emitter(op_be_Keep,     emit_nothing);
+       set_emitter(op_sparc_Start, emit_nothing);
+       set_emitter(op_Phi,         emit_nothing);
 }
 
 /**
@@ -1063,20 +1267,43 @@ static ir_node *find_next_delay_slot(ir_node *from)
        return schedpoint;
 }
 
+static bool block_needs_label(const ir_node *block, const ir_node *sched_prev)
+{
+       int n_cfgpreds;
+
+       if (has_Block_entity(block))
+               return true;
+
+       n_cfgpreds = get_Block_n_cfgpreds(block);
+       if (n_cfgpreds == 0) {
+               return false;
+       } else if (n_cfgpreds > 1) {
+               return true;
+       } else {
+               ir_node *cfgpred       = get_Block_cfgpred(block, 0);
+               ir_node *cfgpred_block = get_nodes_block(cfgpred);
+               if (is_Proj(cfgpred) && is_sparc_SwitchJmp(get_Proj_pred(cfgpred)))
+                       return true;
+               return sched_prev != cfgpred_block || get_irn_link(cfgpred) != block;
+       }
+}
+
 /**
  * Walks over the nodes in a block connected by scheduling edges
  * and emits code for each node.
  */
-static void sparc_emit_block(ir_node *block)
+static void sparc_emit_block(ir_node *block, ir_node *prev)
 {
        ir_node *node;
        ir_node *next_delay_slot;
 
        assert(is_Block(block));
 
-       be_gas_emit_block_name(block);
-       be_emit_cstring(":\n");
-       be_emit_write_line();
+       if (block_needs_label(block, prev)) {
+               be_gas_emit_block_name(block);
+               be_emit_cstring(":\n");
+               be_emit_write_line();
+       }
 
        next_delay_slot = find_next_delay_slot(sched_first(block));
        if (next_delay_slot != NULL)
@@ -1103,9 +1330,8 @@ static void sparc_emit_block(ir_node *block)
  */
 static void sparc_emit_func_prolog(ir_graph *irg)
 {
-       ir_entity *ent = get_irg_entity(irg);
-       be_gas_emit_function_prolog(ent, 4);
-       be_emit_write_line();
+       ir_entity *entity = get_irg_entity(irg);
+       be_gas_emit_function_prolog(entity, 4);
 }
 
 /**
@@ -1113,14 +1339,8 @@ static void sparc_emit_func_prolog(ir_graph *irg)
  */
 static void sparc_emit_func_epilog(ir_graph *irg)
 {
-       ir_entity *ent = get_irg_entity(irg);
-       const char *irg_name = get_entity_ld_name(ent);
-       be_emit_write_line();
-       be_emit_irprintf("\t.size  %s, .-%s\n", irg_name, irg_name);
-       be_emit_cstring("# -- End ");
-       be_emit_string(irg_name);
-       be_emit_cstring("\n");
-       be_emit_write_line();
+       ir_entity *entity = get_irg_entity(irg);
+       be_gas_emit_function_epilog(entity);
 }
 
 static void sparc_gen_labels(ir_node *block, void *env)
@@ -1137,19 +1357,14 @@ static void sparc_gen_labels(ir_node *block, void *env)
 
 void sparc_emit_routine(ir_graph *irg)
 {
-       ir_entity  *entity = get_irg_entity(irg);
-       ir_node   **block_schedule;
-       int         i;
-       int         n;
-
-       be_gas_elf_type_char      = '#';
-       be_gas_object_file_format = OBJECT_FILE_FORMAT_ELF_SPARC;
+       ir_node **block_schedule;
+       size_t    i;
+       size_t    n;
 
        heights = heights_new(irg);
 
        /* register all emitter functions */
        sparc_register_emitters();
-       be_dbg_method_begin(entity);
 
        /* create the block schedule. For now, we don't need it earlier. */
        block_schedule = be_create_block_schedule(irg);
@@ -1167,9 +1382,10 @@ void sparc_emit_routine(ir_graph *irg)
 
        for (i = 0; i < n; ++i) {
                ir_node *block = block_schedule[i];
+               ir_node *prev  = i>=1 ? block_schedule[i-1] : NULL;
                if (block == get_irg_end_block(irg))
                        continue;
-               sparc_emit_block(block);
+               sparc_emit_block(block, prev);
        }
 
        /* emit function epilog */