- fix most of the -Wunreachable-code and -Wlogical-op warnings
[libfirm] / ir / tv / fltcalc.c
index 9f30aef..893b930 100644 (file)
@@ -1,5 +1,5 @@
 /*
- * Copyright (C) 1995-2007 University of Karlsruhe.  All right reserved.
+ * Copyright (C) 1995-2010 University of Karlsruhe.  All right reserved.
  *
  * This file is part of libFirm.
  *
  * @author   Mathias Heil
  * @version  $Id$
  */
-
-#ifdef HAVE_CONFIG_H
-# include "config.h"
-#endif
+#include "config.h"
 
 #include "fltcalc.h"
 #include "strcalc.h"
+#include "error.h"
 
-#include <math.h>    /* need isnan() and isinf() (will be changed)*/
+#include <math.h>
 /* undef some reused constants defined by math.h */
 #ifdef NAN
 #  undef NAN
 #endif
 
-#ifdef HAVE_INTTYPES_H
-# include <inttypes.h>
-#endif
-#ifdef HAVE_STRING_H
-# include <string.h>
-#endif
-#ifdef HAVE_STDLIB_H
-# include <stdlib.h>
-#endif
+#include <inttypes.h>
+#include <string.h>
+#include <stdlib.h>
 #include <stdio.h>
 #include <assert.h>
 
 #include "xmalloc.h"
 
+#if !defined(HAVE_LONG_DOUBLE) || defined(__CYGWIN__)
+/* No strtold on windows and no replacement yet */
+#define strtold(s, e) strtod(s, e)
+#endif
+
+/** The number of extra precision rounding bits */
+#define ROUNDING_BITS 2
+
 typedef uint32_t UINT32;
 
 #ifdef HAVE_LONG_DOUBLE
@@ -94,29 +94,11 @@ typedef union {
 #endif
 #endif
 
-/**
- * possible float states
- */
-typedef enum {
-       NORMAL,       /**< normal representation, implicit 1 */
-       ZERO,         /**< +/-0 */
-       SUBNORMAL,    /**< denormals, implicit 0 */
-       INF,          /**< +/-oo */
-       NAN,          /**< Not A Number */
-} value_class_t;
-
-/** A descriptor for an IEEE float value. */
-typedef struct {
-       unsigned char exponent_size;    /**< size of exponent in bits */
-       unsigned char mantissa_size;    /**< size of mantissa in bits */
-       value_class_t clss;             /**< state of this float */
-} descriptor_t;
-
 #define CLEAR_BUFFER(buffer) memset(buffer, 0, calc_buffer_size)
 
 /* our floating point value */
 struct _fp_value {
-       descriptor_t desc;
+       ieee_descriptor_t desc;
        char sign;
        char value[1];                  /* exp[value_size] + mant[value_size] */
 };
@@ -125,8 +107,8 @@ struct _fp_value {
 #define _mant(a) &((a)->value[value_size])
 
 #define _save_result(x) memcpy((x), sc_get_buffer(), value_size)
-#define _shift_right(x, y, b) sc_shr((x), (y), value_size*4, 0, (b))
-#define _shift_left(x, y, b) sc_shl((x), (y), value_size*4, 0, (b))
+#define _shift_right(x, y, res) sc_shr((x), (y), value_size*4, 0, (res))
+#define _shift_left(x, y, res) sc_shl((x), (y), value_size*4, 0, (res))
 
 
 #ifdef FLTCALC_DEBUG
@@ -158,7 +140,8 @@ static int max_precision;
 static int fc_exact = 1;
 
 #if 0
-static void fail_char(const char *str, unsigned int len, int pos) {
+static void fail_char(const char *str, unsigned int len, int pos)
+{
        if (*(str+pos))
                printf("ERROR: Unexpected character '%c'\n", *(str + pos));
        else
@@ -171,24 +154,26 @@ static void fail_char(const char *str, unsigned int len, int pos) {
 #endif
 
 /** pack machine-like */
-static void *pack(const fp_value *int_float, void *packed) {
-       char *shift_val;
-       char *temp;
+static void *pack(const fp_value *int_float, void *packed)
+{
+       char     *shift_val;
+       char     *temp;
        fp_value *val_buffer;
+       int      pos;
 
-       temp = alloca(value_size);
+       temp      = alloca(value_size);
        shift_val = alloca(value_size);
 
-       switch (int_float->desc.clss) {
+       switch ((value_class_t)int_float->desc.clss) {
        case NAN:
                val_buffer = alloca(calc_buffer_size);
-               fc_get_qnan(int_float->desc.exponent_size, int_float->desc.mantissa_size, val_buffer);
+               fc_get_qnan(&int_float->desc, val_buffer);
                int_float = val_buffer;
                break;
 
        case INF:
                val_buffer = alloca(calc_buffer_size);
-               fc_get_plusinf(int_float->desc.exponent_size, int_float->desc.mantissa_size, val_buffer);
+               fc_get_plusinf(&int_float->desc, val_buffer);
                val_buffer->sign = int_float->sign;
                int_float = val_buffer;
                break;
@@ -196,29 +181,33 @@ static void *pack(const fp_value *int_float, void *packed) {
        default:
                break;
        }
-       /* pack sign */
+       assert(int_float->desc.explicit_one <= 1);
+
+       /* pack sign: move it to the left after exponent AND mantissa */
        sc_val_from_ulong(int_float->sign, temp);
 
-       sc_val_from_ulong(int_float->desc.exponent_size + int_float->desc.mantissa_size, NULL);
+       pos = int_float->desc.exponent_size + int_float->desc.mantissa_size + int_float->desc.explicit_one;
+       sc_val_from_ulong(pos, NULL);
        _shift_left(temp, sc_get_buffer(), packed);
 
-       /* extract exponent */
-       sc_val_from_ulong(int_float->desc.mantissa_size, shift_val);
-
+       /* pack exponent: move it to the left after mantissa */
+       pos = int_float->desc.mantissa_size + int_float->desc.explicit_one;
+       sc_val_from_ulong(pos, shift_val);
        _shift_left(_exp(int_float), shift_val, temp);
 
+       /* combine sign|exponent */
        sc_or(temp, packed, packed);
 
        /* extract mantissa */
-       /* remove rounding bits */
-       sc_val_from_ulong(2, shift_val);
+       /* remove rounding bits */
+       sc_val_from_ulong(ROUNDING_BITS, shift_val);
        _shift_right(_mant(int_float), shift_val, temp);
 
        /* remove leading 1 (or 0 if denormalized) */
-       sc_max_from_bits(int_float->desc.mantissa_size, 0, shift_val); /* all mantissa bits are 1's */
+       sc_max_from_bits(pos, 0, shift_val); /* all mantissa bits are 1's */
        sc_and(temp, shift_val, temp);
 
-       /* save result */
+       /* combine sign|exponent|mantissa */
        sc_or(temp, packed, packed);
 
        return packed;
@@ -229,14 +218,15 @@ static void *pack(const fp_value *int_float, void *packed) {
  *
  * @return non-zero if result is exact
  */
-static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
+static int normalize(const fp_value *in_val, fp_value *out_val, int sticky)
+{
        int exact = 1;
        int hsb;
        char lsb, guard, round, round_dir = 0;
        char *temp = alloca(value_size);
 
-       /* +2: save two rounding bits at the end */
-       hsb = 2 + in_val->desc.mantissa_size - sc_get_highest_set_bit(_mant(in_val)) - 1;
+       /* save rounding bits at the end */
+       hsb = ROUNDING_BITS + in_val->desc.mantissa_size - sc_get_highest_set_bit(_mant(in_val)) - 1;
 
        if (in_val != out_val)   {
                out_val->sign = in_val->sign;
@@ -246,7 +236,7 @@ static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
        out_val->desc.clss = NORMAL;
 
        /* mantissa all zeros, so zero exponent (because of explicit one) */
-       if (hsb == 2 + in_val->desc.mantissa_size)   {
+       if (hsb == ROUNDING_BITS + in_val->desc.mantissa_size)   {
                sc_val_from_ulong(0, _exp(out_val));
                hsb = -1;
        }
@@ -295,7 +285,7 @@ static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
        /* perform rounding by adding a value that clears the guard bit and the round bit
         * and either causes a carry to round up or not */
        /* get the last 3 bits of the value */
-       lsb = sc_sub_bits(_mant(out_val), out_val->desc.mantissa_size + 2, 0) & 0x7;
+       lsb = sc_sub_bits(_mant(out_val), out_val->desc.mantissa_size + ROUNDING_BITS, 0) & 0x7;
        guard = (lsb&0x2)>>1;
        round = lsb&0x1;
 
@@ -339,7 +329,7 @@ static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
                out_val->desc.clss = ZERO;
 
        /* check for rounding overflow */
-       hsb = 2 + out_val->desc.mantissa_size - sc_get_highest_set_bit(_mant(out_val)) - 1;
+       hsb = ROUNDING_BITS + out_val->desc.mantissa_size - sc_get_highest_set_bit(_mant(out_val)) - 1;
        if ((out_val->desc.clss != SUBNORMAL) && (hsb < -1)) {
                sc_val_from_ulong(1, temp);
                _shift_right(_mant(out_val), temp, _mant(out_val));
@@ -389,7 +379,7 @@ static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
 
                        case FC_TONEGATIVE:
                        case FC_TOZERO:
-                               fc_get_max(out_val->desc.exponent_size, out_val->desc.mantissa_size, out_val);
+                               fc_get_max(&out_val->desc, out_val);
                        }
                } else {
                        /* value is negative */
@@ -401,7 +391,7 @@ static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
 
                        case FC_TOPOSITIVE:
                        case FC_TOZERO:
-                               fc_get_min(out_val->desc.exponent_size, out_val->desc.mantissa_size, out_val);
+                               fc_get_min(&out_val->desc, out_val);
                        }
                }
        }
@@ -409,16 +399,19 @@ static int normalize(const fp_value *in_val, fp_value *out_val, int sticky) {
 }
 
 /**
- * Operations involving NaN's must return NaN
+ * Operations involving NaN's must return NaN.
+ * They are NOT exact.
  */
 #define handle_NAN(a, b, result) \
 do {                                                      \
   if (a->desc.clss == NAN) {                              \
     if (a != result) memcpy(result, a, calc_buffer_size); \
+    fc_exact = 0;                                         \
     return;                                               \
   }                                                       \
   if (b->desc.clss == NAN) {                              \
     if (b != result) memcpy(result, b, calc_buffer_size); \
+    fc_exact = 0;                                         \
     return;                                               \
   }                                                       \
 }while (0)
@@ -427,7 +420,8 @@ do {                                                      \
 /**
  * calculate a + b, where a is the value with the bigger exponent
  */
-static void _fadd(const fp_value *a, const fp_value *b, fp_value *result) {
+static void _fadd(const fp_value *a, const fp_value *b, fp_value *result)
+{
        char *temp;
        char *exp_diff;
 
@@ -440,14 +434,15 @@ static void _fadd(const fp_value *a, const fp_value *b, fp_value *result) {
 
        /* make sure result has a descriptor */
        if (result != a && result != b)
-               memcpy(&result->desc, &a->desc, sizeof(descriptor_t));
+               result->desc = a->desc;
 
        /* determine if this is an addition or subtraction */
        sign = a->sign ^ b->sign;
 
        /* produce NaN on inf - inf */
        if (sign && (a->desc.clss == INF) && (b->desc.clss == INF)) {
-               fc_get_qnan(a->desc.exponent_size, b->desc.mantissa_size, result);
+               fc_exact = 0;
+               fc_get_qnan(&a->desc, result);
                return;
        }
 
@@ -486,12 +481,14 @@ static void _fadd(const fp_value *a, const fp_value *b, fp_value *result) {
        if (a->desc.clss == ZERO || b->desc.clss == INF) {
                if (b != result)
                        memcpy(result, b, calc_buffer_size);
+               fc_exact = b->desc.clss == NORMAL;
                result->sign = res_sign;
                return;
        }
        if (b->desc.clss == ZERO || a->desc.clss == INF) {
                if (a != result)
                        memcpy(result, a, calc_buffer_size);
+               fc_exact = a->desc.clss == NORMAL;
                result->sign = res_sign;
                return;
        }
@@ -542,7 +539,8 @@ static void _fadd(const fp_value *a, const fp_value *b, fp_value *result) {
 /**
  * calculate a * b
  */
-static void _fmul(const fp_value *a, const fp_value *b, fp_value *result) {
+static void _fmul(const fp_value *a, const fp_value *b, fp_value *result)
+{
        int sticky;
        char *temp;
        char res_sign;
@@ -554,15 +552,16 @@ static void _fmul(const fp_value *a, const fp_value *b, fp_value *result) {
        temp = alloca(value_size);
 
        if (result != a && result != b)
-               memcpy(&result->desc, &a->desc, sizeof(descriptor_t));
+               result->desc = a->desc;
 
        result->sign = res_sign = a->sign ^ b->sign;
 
        /* produce NaN on 0 * inf */
        if (a->desc.clss == ZERO) {
-               if (b->desc.clss == INF)
-                       fc_get_qnan(a->desc.exponent_size, a->desc.mantissa_size, result);
-               else {
+               if (b->desc.clss == INF) {
+                       fc_get_qnan(&a->desc, result);
+                       fc_exact = 0;
+               } else {
                        if (a != result)
                                memcpy(result, a, calc_buffer_size);
                        result->sign = res_sign;
@@ -570,9 +569,10 @@ static void _fmul(const fp_value *a, const fp_value *b, fp_value *result) {
                return;
        }
        if (b->desc.clss == ZERO) {
-               if (a->desc.clss == INF)
-                       fc_get_qnan(a->desc.exponent_size, a->desc.mantissa_size, result);
-               else {
+               if (a->desc.clss == INF) {
+                       fc_get_qnan(&a->desc, result);
+                       fc_exact = 0;
+               } else {
                        if (b != result)
                                memcpy(result, b, calc_buffer_size);
                        result->sign = res_sign;
@@ -581,12 +581,14 @@ static void _fmul(const fp_value *a, const fp_value *b, fp_value *result) {
        }
 
        if (a->desc.clss == INF) {
+               fc_exact = 0;
                if (a != result)
                        memcpy(result, a, calc_buffer_size);
                result->sign = res_sign;
                return;
        }
        if (b->desc.clss == INF) {
+               fc_exact = 0;
                if (b != result)
                        memcpy(result, b, calc_buffer_size);
                result->sign = res_sign;
@@ -611,8 +613,8 @@ static void _fmul(const fp_value *a, const fp_value *b, fp_value *result) {
         * point are the sum of the factors' digits after the radix point. As all
         * values are normalized they both have the same amount of these digits,
         * which has to be restored by proper shifting
-        * +2 because of the two rounding bits */
-       sc_val_from_ulong(2 + result->desc.mantissa_size, temp);
+        * because of the rounding bits */
+       sc_val_from_ulong(ROUNDING_BITS + result->desc.mantissa_size, temp);
 
        _shift_right(_mant(result), temp, _mant(result));
        sticky = sc_had_carry();
@@ -624,7 +626,8 @@ static void _fmul(const fp_value *a, const fp_value *b, fp_value *result) {
 /**
  * calculate a / b
  */
-static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
+static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result)
+{
        int sticky;
        char *temp, *dividend;
        char res_sign;
@@ -637,16 +640,17 @@ static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
        dividend = alloca(value_size);
 
        if (result != a && result != b)
-               memcpy(&result->desc, &a->desc, sizeof(descriptor_t));
+               result->desc = a->desc;
 
        result->sign = res_sign = a->sign ^ b->sign;
 
        /* produce NAN on 0/0 and inf/inf */
        if (a->desc.clss == ZERO) {
-               if (b->desc.clss == ZERO)
-                       /* 0/0 -> nan */
-                       fc_get_qnan(a->desc.exponent_size, a->desc.mantissa_size, result);
-               else {
+               if (b->desc.clss == ZERO) {
+                       /* 0/0 -> NaN */
+                       fc_get_qnan(&a->desc, result);
+                       fc_exact = 0;
+               } else {
                        /* 0/x -> a */
                        if (a != result)
                                memcpy(result, a, calc_buffer_size);
@@ -656,10 +660,11 @@ static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
        }
 
        if (b->desc.clss == INF) {
-               if (a->desc.clss == INF)
-                       /* inf/inf -> nan */
-                       fc_get_qnan(a->desc.exponent_size, a->desc.mantissa_size, result);
-               else {
+               fc_exact = 0;
+               if (a->desc.clss == INF) {
+                       /* inf/inf -> NaN */
+                       fc_get_qnan(&a->desc, result);
+               } else {
                        /* x/inf -> 0 */
                        sc_val_from_ulong(0, NULL);
                        _save_result(_exp(result));
@@ -670,6 +675,7 @@ static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
        }
 
        if (a->desc.clss == INF) {
+               fc_exact = 0;
                /* inf/x -> inf */
                if (a != result)
                        memcpy(result, a, calc_buffer_size);
@@ -677,11 +683,12 @@ static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
                return;
        }
        if (b->desc.clss == ZERO) {
+               fc_exact = 0;
                /* division by zero */
                if (result->sign)
-                       fc_get_minusinf(a->desc.exponent_size, a->desc.mantissa_size, result);
+                       fc_get_minusinf(&a->desc, result);
                else
-                       fc_get_plusinf(a->desc.exponent_size, a->desc.mantissa_size, result);
+                       fc_get_plusinf(&a->desc, result);
                return;
        }
 
@@ -702,7 +709,7 @@ static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
         * fit into the integer precision, but due to the rounding bits (which
         * are always zero because the values are all normalized) the divisor
         * can be shifted right instead to achieve the same result */
-       sc_val_from_ulong(2 + result->desc.mantissa_size, temp);
+       sc_val_from_ulong(ROUNDING_BITS + result->desc.mantissa_size, temp);
 
        _shift_left(_mant(a), temp, dividend);
 
@@ -719,7 +726,8 @@ static void _fdiv(const fp_value *a, const fp_value *b, fp_value *result) {
 }
 
 #if 0
-static void _power_of_ten(int exp, descriptor_t *desc, char *result) {
+static void _power_of_ten(int exp, ieee_descriptor_t *desc, char *result)
+{
        char *build;
        char *temp;
 
@@ -728,12 +736,12 @@ static void _power_of_ten(int exp, descriptor_t *desc, char *result) {
 
        /* set new descriptor (else result is supposed to already have one) */
        if (desc != NULL)
-               memcpy(&result->desc, desc, sizeof(descriptor_t));
+               result->desc = *desc;
 
        build = alloca(value_size);
        temp = alloca(value_size);
 
-       sc_val_from_ulong((1 << result->desc.exponent_size)/2-1, _exp(result));
+       sc_val_from_ulong((1 << (result->desc.exponent_size - 1)) - 1, _exp(result));
 
        if (exp > 0) {
                /* temp is value of ten now */
@@ -747,7 +755,7 @@ static void _power_of_ten(int exp, descriptor_t *desc, char *result) {
                _save_result(build);
 
                /* temp is amount of left shift needed to put the value left of the radix point */
-               sc_val_from_ulong(result->desc.mantissa_size + 2, temp);
+               sc_val_from_ulong(result->desc.mantissa_size + ROUNDING_BITS, temp);
 
                _shift_left(build, temp, _mant(result));
 
@@ -761,7 +769,8 @@ static void _power_of_ten(int exp, descriptor_t *desc, char *result) {
  *
  * This does not clip to any integer range.
  */
-static void _trunc(const fp_value *a, fp_value *result) {
+static void _trunc(const fp_value *a, fp_value *result)
+{
        /*
         * When exponent == 0 all bits left of the radix point
         * are the integral part of the value. For 15bit exp_size
@@ -783,7 +792,7 @@ static void _trunc(const fp_value *a, fp_value *result) {
        temp = alloca(value_size);
 
        if (a != result)
-               memcpy(&result->desc, &a->desc, sizeof(descriptor_t));
+               result->desc = a->desc;
 
        exp_bias = (1 << (a->desc.exponent_size - 1)) - 1;
        exp_val  = sc_val_to_long(_exp(a)) - exp_bias;
@@ -813,231 +822,62 @@ static void _trunc(const fp_value *a, fp_value *result) {
        /* and the mask and return the result */
        sc_and(_mant(a), temp, _mant(result));
 
-       if (a != result) memcpy(_exp(result), _exp(a), value_size);
-
-       return;
+       if (a != result) {
+               memcpy(_exp(result), _exp(a), value_size);
+               result->sign = a->sign;
+       }
 }
 
 /********
  * functions defined in fltcalc.h
  ********/
-const void *fc_get_buffer(void) {
+const void *fc_get_buffer(void)
+{
        return calc_buffer;
 }
 
-int fc_get_buffer_length(void) {
+int fc_get_buffer_length(void)
+{
        return calc_buffer_size;
 }
 
-void *fc_val_from_str(const char *str, unsigned int len, char exp_size, char mant_size, void *result) {
-#if 0
-       enum {
-               START,
-               LEFT_OF_DOT,
-               RIGHT_OF_DOT,
-               EXP_START,
-               EXPONENT,
-               END
-       };
-
-       char exp_sign;
-       int exp_int, hsb, state;
+void *fc_val_from_str(const char *str, unsigned int len, const ieee_descriptor_t *desc, void *result)
+{
+       char *buffer;
 
-       const char *old_str;
-
-       int pos;
-       char *mant_str, *exp_val, *power_val;
-
-       (void) len;
-       if (result == NULL) result = calc_buffer;
-
-       exp_val = alloca(value_size);
-       power_val = alloca(calc_buffer_size);
-       mant_str = alloca((len)?(len):(strlen(str)));
-
-       result->desc.exponent_size = exp_size;
-       result->desc.mantissa_size = mant_size;
-       result->desc.clss = NORMAL;
-
-       old_str = str;
-       pos = 0;
-       exp_int = 0;
-       state = START;
-
-       while (len == 0 || str-old_str < len) {
-               switch (state) {
-               case START:
-                       switch (*str) {
-                       case '+':
-                               result->sign = 0;
-                               state = LEFT_OF_DOT;
-                               str++;
-                               break;
-
-                       case '-':
-                               result->sign = 1;
-                               state = LEFT_OF_DOT;
-                               str++;
-                               break;
-
-                       case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9':
-                               result->sign = 0;
-                               state = LEFT_OF_DOT;
-                               break;
-
-                       case '.':
-                               result->sign = 0;
-                               state = RIGHT_OF_DOT;
-                               str++;
-                               break;
-
-                       case 'n':
-                       case 'N':
-                       case 'i':
-                       case 'I':
-                               break;
-
-                       default:
-                               fail_char(old_str, len, str - old_str);
-                       }
-                       break;
-
-               case LEFT_OF_DOT:
-                       switch (*str) {
-                       case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9':
-                               mant_str[pos++] = *(str++);
-                               break;
-
-                       case '.':
-                               state = RIGHT_OF_DOT;
-                               str++;
-                               break;
-
-                       case 'e':
-                       case 'E':
-                               state = EXP_START;
-                               str++;
-                               break;
-
-                       case '\0':
-                               mant_str[pos] = '\0';
-                               goto done;
-
-                       default:
-                               fail_char(old_str, len, str - old_str);
-                       }
-                       break;
-
-               case RIGHT_OF_DOT:
-                       switch (*str) {
-                       case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9':
-                               mant_str[pos++] = *(str++);
-                               exp_int++;
-                               break;
-
-                       case 'e':
-                       case 'E':
-                               state = EXP_START;
-                               str++;
-                               break;
-
-                       case '\0':
-                               mant_str[pos] = '\0';
-                               goto done;
-
-                       default:
-                               fail_char(old_str, len, str - old_str);
-                       }
-                       break;
-
-               case EXP_START:
-                       switch (*str) {
-                       case '-':
-                               exp_sign = 1;
-                               /* fall through */
-                       case '+':
-                               if (*(str-1) != 'e' && *(str-1) != 'E') fail_char(old_str, len, str - old_str);
-                               str++;
-                               break;
-
-                       case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9':
-                               mant_str[pos] = '\0';
-                               pos = 1;
-                               str++;
-                               state = EXPONENT;
-                               break;
-
-                       default:
-                               fail_char(old_str, len, str - old_str);
-                       }
-                       break;
-
-               case EXPONENT:
-                       switch (*str) {
-                       case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9':
-                               pos++;
-                               str++;
-                               break;
-
-                       case '\0': goto done;
-
-                       default:
-                               fail_char(old_str, len, str - old_str);
-                       }
-               }
-       } /*  switch(state) */
-
-done:
-       sc_val_from_str(mant_str, strlen(mant_str), _mant(result));
-
-       /* shift to put value left of radix point */
-       sc_val_from_ulong(mant_size + 2, exp_val);
-
-       _shift_left(_mant(result), exp_val, _mant(result));
-
-       sc_val_from_ulong((1 << exp_size)/2-1, _exp(result));
-
-       _normalize(result, result, 0);
-
-       if (state == EXPONENT) {
-               exp_int -= atoi(str-pos);
-       }
-
-       _power_of_ten(exp_int, &result->desc, power_val);
-
-       _fdiv(result, power_val, result);
-
-       return result;
-#else
        /* XXX excuse of an implementation to make things work */
-       LLDBL val;
-       fp_value *tmp = alloca(calc_buffer_size);
-       (void) len;
+       LLDBL             val;
+       fp_value          *tmp = alloca(calc_buffer_size);
+       ieee_descriptor_t tmp_desc;
+
+       buffer = alloca(len+1);
+       memcpy(buffer, str, len);
+       buffer[len] = '\0';
+       val = strtold(buffer, NULL);
 
-#ifdef HAVE_LONG_DOUBLE
-       val = strtold(str, NULL);
-       DEBUGPRINTF(("val_from_str(%s)\n", str));
-       fc_val_from_ieee754(val, 15, 64, tmp);
-#else
-       val = strtod(str, NULL);
        DEBUGPRINTF(("val_from_str(%s)\n", str));
-       fc_val_from_ieee754(val, 11, 52, tmp);
-#endif /* HAVE_LONG_DOUBLE */
-       return fc_cast(tmp, exp_size, mant_size, result);
-#endif
+       tmp_desc.exponent_size = 15;
+       tmp_desc.mantissa_size = 63;
+       tmp_desc.explicit_one  = 1;
+       tmp_desc.clss          = NORMAL;
+       fc_val_from_ieee754(val, &tmp_desc, tmp);
+
+       return fc_cast(tmp, desc, result);
 }
 
-fp_value *fc_val_from_ieee754(LLDBL l, char exp_size, char mant_size, fp_value *result) {
-       char *temp;
-       int bias_res, bias_val, mant_val;
+fp_value *fc_val_from_ieee754(LLDBL l, const ieee_descriptor_t *desc, fp_value *result)
+{
+       char    *temp;
+       int     bias_res, bias_val, mant_val;
        value_t srcval;
-       UINT32 sign, exponent, mantissa0, mantissa1;
+       char    sign;
+       UINT32  exponent, mantissa0, mantissa1;
 
        srcval.d = l;
-       bias_res = ((1<<exp_size)/2-1);
+       bias_res = ((1 << (desc->exponent_size - 1)) - 1);
 
 #ifdef HAVE_LONG_DOUBLE
-       mant_val  = 64;
+       mant_val  = 63;
        bias_val  = 0x3fff;
        sign      = (srcval.val.high & 0x00008000) != 0;
        exponent  = (srcval.val.high & 0x00007FFF) ;
@@ -1063,16 +903,17 @@ fp_value *fc_val_from_ieee754(LLDBL l, char exp_size, char mant_size, fp_value *
        if (result == NULL) result = calc_buffer;
        temp = alloca(value_size);
 
-       /* CLEAR the buffer */
+       /* CLEAR the buffer, else some bits might be uninitialized */
        memset(result, 0, fc_get_buffer_length());
 
-       result->desc.exponent_size = exp_size;
-       result->desc.mantissa_size = mant_size;
+       result->desc.exponent_size = desc->exponent_size;
+       result->desc.mantissa_size = desc->mantissa_size;
+       result->desc.explicit_one  = desc->explicit_one;
 
        /* extract sign */
        result->sign = sign;
 
-       /* sign and flag suffice to identify nan or inf, no exponent/mantissa
+       /* sign and flag suffice to identify NaN or inf, no exponent/mantissa
         * encoding is needed. the function can return immediately in these cases */
        if (isnan(l)) {
                result->desc.clss = NAN;
@@ -1089,23 +930,16 @@ fp_value *fc_val_from_ieee754(LLDBL l, char exp_size, char mant_size, fp_value *
         * this looks more complicated than it is: unbiased input exponent + output bias,
         * minus the mantissa difference which is added again later when the output float
         * becomes normalized */
-#ifdef HAVE_EXPLICIT_ONE
-       sc_val_from_long((exponent-bias_val+bias_res)-(mant_val-mant_size-1), _exp(result));
-#else
-       sc_val_from_long((exponent-bias_val+bias_res)-(mant_val-mant_size), _exp(result));
-#endif
+       sc_val_from_long((exponent - bias_val + bias_res) - (mant_val - desc->mantissa_size), _exp(result));
 
        /* build mantissa representation */
-#ifndef HAVE_EXPLICIT_ONE
        if (exponent != 0) {
                /* insert the hidden bit */
                sc_val_from_ulong(1, temp);
-               sc_val_from_ulong(mant_val + 2, NULL);
+               sc_val_from_ulong(mant_val + ROUNDING_BITS, NULL);
                _shift_left(temp, sc_get_buffer(), NULL);
        }
-       else
-#endif
-       {
+       else {
                sc_val_from_ulong(0, NULL);
        }
 
@@ -1119,7 +953,7 @@ fp_value *fc_val_from_ieee754(LLDBL l, char exp_size, char mant_size, fp_value *
 
        /* bits from the lower word */
        sc_val_from_ulong(mantissa1, temp);
-       sc_val_from_ulong(2, NULL);
+       sc_val_from_ulong(ROUNDING_BITS, NULL);
        _shift_left(temp, sc_get_buffer(), temp);
        sc_or(_mant(result), temp, _mant(result));
 
@@ -1137,7 +971,8 @@ fp_value *fc_val_from_ieee754(LLDBL l, char exp_size, char mant_size, fp_value *
        return result;
 }
 
-LLDBL fc_val_to_ieee754(const fp_value *val) {
+LLDBL fc_val_to_ieee754(const fp_value *val)
+{
        fp_value *value;
        fp_value *temp = NULL;
 
@@ -1148,22 +983,25 @@ LLDBL fc_val_to_ieee754(const fp_value *val) {
        UINT32 mantissa0;
        UINT32 mantissa1;
 
-       value_t buildval;
+       value_t           buildval;
+       ieee_descriptor_t desc;
+       unsigned          mantissa_size;
 
 #ifdef HAVE_LONG_DOUBLE
-       char result_exponent = 15;
-       char result_mantissa = 64;
+       desc.exponent_size = 15;
+       desc.mantissa_size = 63;
+       desc.explicit_one  = 1;
+       desc.clss          = NORMAL;
 #else
-       char result_exponent = 11;
-       char result_mantissa = 52;
+       desc.exponent_size = 11;
+       desc.mantissa_size = 52;
+       desc.explicit_one  = 0;
+       desc.clss          = NORMAL;
 #endif
+       mantissa_size = desc.mantissa_size + desc.explicit_one;
 
        temp = alloca(calc_buffer_size);
-#ifdef HAVE_EXPLICIT_ONE
-       value = fc_cast(val, result_exponent, result_mantissa-1, temp);
-#else
-       value = fc_cast(val, result_exponent, result_mantissa, temp);
-#endif
+       value = fc_cast(val, &desc, temp);
 
        sign = value->sign;
 
@@ -1171,17 +1009,17 @@ LLDBL fc_val_to_ieee754(const fp_value *val) {
         * lead to wrong results */
        exponent = sc_val_to_long(_exp(value)) ;
 
-       sc_val_from_ulong(2, NULL);
+       sc_val_from_ulong(ROUNDING_BITS, NULL);
        _shift_right(_mant(value), sc_get_buffer(), _mant(value));
 
        mantissa0 = 0;
        mantissa1 = 0;
 
        for (byte_offset = 0; byte_offset < 4; byte_offset++)
-               mantissa1 |= sc_sub_bits(_mant(value), result_mantissa, byte_offset) << (byte_offset<<3);
+               mantissa1 |= sc_sub_bits(_mant(value), mantissa_size, byte_offset) << (byte_offset << 3);
 
-       for (; (byte_offset<<3) < result_mantissa; byte_offset++)
-               mantissa0 |= sc_sub_bits(_mant(value), result_mantissa, byte_offset) << ((byte_offset-4)<<3);
+       for (; (byte_offset<<3) < desc.mantissa_size; byte_offset++)
+               mantissa0 |= sc_sub_bits(_mant(value), mantissa_size, byte_offset) << ((byte_offset - 4) << 3);
 
 #ifdef HAVE_LONG_DOUBLE
        buildval.val.high = sign << 15;
@@ -1200,14 +1038,17 @@ LLDBL fc_val_to_ieee754(const fp_value *val) {
        return buildval.d;
 }
 
-fp_value *fc_cast(const fp_value *value, char exp_size, char mant_size, fp_value *result) {
+fp_value *fc_cast(const fp_value *value, const ieee_descriptor_t *desc, fp_value *result)
+{
        char *temp;
        int exp_offset, val_bias, res_bias;
 
        if (result == NULL) result = calc_buffer;
        temp = alloca(value_size);
 
-       if (value->desc.exponent_size == exp_size && value->desc.mantissa_size == mant_size) {
+       if (value->desc.exponent_size == desc->exponent_size &&
+               value->desc.mantissa_size == desc->mantissa_size &&
+               value->desc.explicit_one  == desc->explicit_one) {
                if (value != result)
                        memcpy(result, value, calc_buffer_size);
                return result;
@@ -1215,15 +1056,22 @@ fp_value *fc_cast(const fp_value *value, char exp_size, char mant_size, fp_value
 
        if (value->desc.clss == NAN) {
                if (sc_get_highest_set_bit(_mant(value)) == value->desc.mantissa_size + 1)
-                       return fc_get_qnan(exp_size, mant_size, result);
+                       return fc_get_qnan(desc, result);
                else
-                       return fc_get_snan(exp_size, mant_size, result);
+                       return fc_get_snan(desc, result);
+       }
+       else if (value->desc.clss == INF) {
+               if (value->sign == 0)
+                       return fc_get_plusinf(desc, result);
+               else
+                       return fc_get_minusinf(desc, result);
        }
 
        /* set the descriptor of the new value */
-       result->desc.exponent_size = exp_size;
-       result->desc.mantissa_size = mant_size;
-       result->desc.clss = value->desc.clss;
+       result->desc.exponent_size = desc->exponent_size;
+       result->desc.mantissa_size = desc->mantissa_size;
+       result->desc.explicit_one  = desc->explicit_one;
+       result->desc.clss          = value->desc.clss;
 
        result->sign = value->sign;
 
@@ -1231,9 +1079,9 @@ fp_value *fc_cast(const fp_value *value, char exp_size, char mant_size, fp_value
         * this would change the exponent, which is unwanted. So calculate this
         * offset and add it */
        val_bias = (1 << (value->desc.exponent_size - 1)) - 1;
-       res_bias = (1 << (exp_size - 1)) - 1;
+       res_bias = (1 << (desc->exponent_size - 1)) - 1;
 
-       exp_offset = (res_bias - val_bias) - (value->desc.mantissa_size - mant_size);
+       exp_offset = (res_bias - val_bias) - (value->desc.mantissa_size - desc->mantissa_size);
        sc_val_from_long(exp_offset, temp);
        sc_add(_exp(value), temp, _exp(result));
 
@@ -1252,43 +1100,48 @@ fp_value *fc_cast(const fp_value *value, char exp_size, char mant_size, fp_value
        return result;
 }
 
-fp_value *fc_get_max(unsigned int exponent_size, unsigned int mantissa_size, fp_value *result) {
+fp_value *fc_get_max(const ieee_descriptor_t *desc, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
-       result->desc.exponent_size = exponent_size;
-       result->desc.mantissa_size = mantissa_size;
-       result->desc.clss = NORMAL;
+       result->desc.exponent_size = desc->exponent_size;
+       result->desc.mantissa_size = desc->mantissa_size;
+       result->desc.explicit_one  = desc->explicit_one;
+       result->desc.clss          = NORMAL;
 
        result->sign = 0;
 
-       sc_val_from_ulong((1<<exponent_size) - 2, _exp(result));
+       sc_val_from_ulong((1 << desc->exponent_size) - 2, _exp(result));
 
-       sc_max_from_bits(mantissa_size + 1, 0, _mant(result));
-       sc_val_from_ulong(2, NULL);
+       sc_max_from_bits(desc->mantissa_size + 1, 0, _mant(result));
+       sc_val_from_ulong(ROUNDING_BITS, NULL);
        _shift_left(_mant(result), sc_get_buffer(), _mant(result));
 
        return result;
 }
 
-fp_value *fc_get_min(unsigned int exponent_size, unsigned int mantissa_size, fp_value *result) {
+fp_value *fc_get_min(const ieee_descriptor_t *desc, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
-       fc_get_max(exponent_size, mantissa_size, result);
+       fc_get_max(desc, result);
        result->sign = 1;
 
        return result;
 }
 
-fp_value *fc_get_snan(unsigned int exponent_size, unsigned int mantissa_size, fp_value *result) {
+fp_value *fc_get_snan(const ieee_descriptor_t *desc, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
-       result->desc.exponent_size = exponent_size;
-       result->desc.mantissa_size = mantissa_size;
-       result->desc.clss = NAN;
+       result->desc.exponent_size = desc->exponent_size;
+       result->desc.mantissa_size = desc->mantissa_size;
+       result->desc.explicit_one  = desc->explicit_one;
+       result->desc.clss          = NAN;
 
        result->sign = 0;
 
-       sc_val_from_ulong((1<<exponent_size)-1, _exp(result));
+       sc_val_from_ulong((1 << desc->exponent_size) - 1, _exp(result));
 
        /* signaling NaN has non-zero mantissa with msb not set */
        sc_val_from_ulong(1, _mant(result));
@@ -1296,52 +1149,64 @@ fp_value *fc_get_snan(unsigned int exponent_size, unsigned int mantissa_size, fp
        return result;
 }
 
-fp_value *fc_get_qnan(unsigned int exponent_size, unsigned int mantissa_size, fp_value *result) {
+fp_value *fc_get_qnan(const ieee_descriptor_t *desc, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
-       result->desc.exponent_size = exponent_size;
-       result->desc.mantissa_size = mantissa_size;
-       result->desc.clss = NAN;
+       result->desc.exponent_size = desc->exponent_size;
+       result->desc.mantissa_size = desc->mantissa_size;
+       result->desc.explicit_one  = desc->explicit_one;
+       result->desc.clss          = NAN;
 
        result->sign = 0;
 
-       sc_val_from_ulong((1<<exponent_size)-1, _exp(result));
+       sc_val_from_ulong((1 << desc->exponent_size) - 1, _exp(result));
 
        /* quiet NaN has the msb of the mantissa set, so shift one there */
        sc_val_from_ulong(1, _mant(result));
        /* mantissa_size >+< 1 because of two extra rounding bits */
-       sc_val_from_ulong(mantissa_size + 1, NULL);
+       sc_val_from_ulong(desc->mantissa_size + 1, NULL);
        _shift_left(_mant(result), sc_get_buffer(), _mant(result));
 
        return result;
 }
 
-fp_value *fc_get_plusinf(unsigned int exponent_size, unsigned int mantissa_size, fp_value *result) {
+fp_value *fc_get_plusinf(const ieee_descriptor_t *desc, fp_value *result)
+{
+       char *mant;
+
        if (result == NULL) result = calc_buffer;
 
-       result->desc.exponent_size = exponent_size;
-       result->desc.mantissa_size = mantissa_size;
-       result->desc.clss = NORMAL;
+       result->desc.exponent_size = desc->exponent_size;
+       result->desc.mantissa_size = desc->mantissa_size;
+       result->desc.explicit_one  = desc->explicit_one;
+       result->desc.clss          = INF;
 
        result->sign = 0;
 
-       sc_val_from_ulong((1<<exponent_size)-1, _exp(result));
+       sc_val_from_ulong((1 << desc->exponent_size) - 1, _exp(result));
 
-       sc_val_from_ulong(0, _mant(result));
+       mant = _mant(result);
+       sc_val_from_ulong(0, mant);
+       if (desc->explicit_one) {
+               sc_set_bit_at(mant, result->desc.mantissa_size + ROUNDING_BITS);
+       }
 
        return result;
 }
 
-fp_value *fc_get_minusinf(unsigned int exponent_size, unsigned int mantissa_size, fp_value *result) {
+fp_value *fc_get_minusinf(const ieee_descriptor_t *desc, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
-       fc_get_plusinf(exponent_size, mantissa_size, result);
+       fc_get_plusinf(desc, result);
        result->sign = 1;
 
        return result;
 }
 
-int fc_comp(const fp_value *val_a, const fp_value *val_b) {
+int fc_comp(const fp_value *val_a, const fp_value *val_b)
+{
        int mul = 1;
 
        /*
@@ -1388,60 +1253,65 @@ int fc_comp(const fp_value *val_a, const fp_value *val_b) {
        }
 }
 
-int fc_is_zero(const fp_value *a) {
+int fc_is_zero(const fp_value *a)
+{
        return a->desc.clss == ZERO;
 }
 
-int fc_is_negative(const fp_value *a) {
+int fc_is_negative(const fp_value *a)
+{
        return a->sign;
 }
 
-int fc_is_inf(const fp_value *a) {
+int fc_is_inf(const fp_value *a)
+{
        return a->desc.clss == INF;
 }
 
-int fc_is_nan(const fp_value *a) {
+int fc_is_nan(const fp_value *a)
+{
        return a->desc.clss == NAN;
 }
 
-int fc_is_subnormal(const fp_value *a) {
+int fc_is_subnormal(const fp_value *a)
+{
        return a->desc.clss == SUBNORMAL;
 }
 
-char *fc_print(const fp_value *val, char *buf, int buflen, unsigned base) {
+char *fc_print(const fp_value *val, char *buf, int buflen, unsigned base)
+{
        char *mul_1;
+       LLDBL flt_val;
 
        mul_1 = alloca(calc_buffer_size);
 
        switch (base) {
        case FC_DEC:
-               switch (val->desc.clss) {
+               switch ((value_class_t)val->desc.clss) {
                case INF:
-                       if (buflen >= 8 + val->sign) sprintf(buf, "%sINFINITY", val->sign ? "-":"");
-                       else snprintf(buf, buflen, "%sINF", val->sign ? "-":NULL);
+                       snprintf(buf, buflen, "%cINF", val->sign ? '-' : '+');
                        break;
                case NAN:
-                       snprintf(buf, buflen, "NAN");
+                       snprintf(buf, buflen, "NaN");
                        break;
                case ZERO:
                        snprintf(buf, buflen, "0.0");
                        break;
                default:
-                       /* XXX to be implemented */
+                       flt_val = fc_val_to_ieee754(val);
 #ifdef HAVE_LONG_DOUBLE
                        /* XXX 30 is arbitrary */
-                       snprintf(buf, buflen, "%.30LE", fc_val_to_ieee754(val));
+                       snprintf(buf, buflen, "%.30LE", flt_val);
 #else
-                       snprintf(buf, buflen, "%.18E", fc_val_to_ieee754(val));
+                       snprintf(buf, buflen, "%.18E", flt_val);
 #endif
                }
                break;
 
        case FC_HEX:
-               switch (val->desc.clss) {
+               switch ((value_class_t)val->desc.clss) {
                case INF:
-                       if (buflen >= 8+val->sign) sprintf(buf, "%sINFINITY", val->sign?"-":"");
-                       else snprintf(buf, buflen, "%sINF", val->sign?"-":NULL);
+                       snprintf(buf, buflen, "%cINF", val->sign ? '-' : '+');
                        break;
                case NAN:
                        snprintf(buf, buflen, "NAN");
@@ -1450,10 +1320,11 @@ char *fc_print(const fp_value *val, char *buf, int buflen, unsigned base) {
                        snprintf(buf, buflen, "0.0");
                        break;
                default:
+                       flt_val = fc_val_to_ieee754(val);
 #ifdef HAVE_LONG_DOUBLE
-                       snprintf(buf, buflen, "%LA", fc_val_to_ieee754(val));
+                       snprintf(buf, buflen, "%LA", flt_val);
 #else
-                       snprintf(buf, buflen, "%A", fc_val_to_ieee754(val));
+                       snprintf(buf, buflen, "%A", flt_val);
 #endif
                }
                break;
@@ -1467,11 +1338,12 @@ char *fc_print(const fp_value *val, char *buf, int buflen, unsigned base) {
        return buf;
 }
 
-unsigned char fc_sub_bits(const fp_value *value, unsigned num_bits, unsigned byte_ofs) {
+unsigned char fc_sub_bits(const fp_value *value, unsigned num_bits, unsigned byte_ofs)
+{
        /* this is used to cache the packed version of the value */
        static char *packed_value = NULL;
 
-       if (packed_value == NULL) packed_value = xmalloc(value_size);
+       if (packed_value == NULL) packed_value = XMALLOCN(char, value_size);
 
        if (value != NULL)
                pack(value, packed_value);
@@ -1479,37 +1351,71 @@ unsigned char fc_sub_bits(const fp_value *value, unsigned num_bits, unsigned byt
        return sc_sub_bits(packed_value, num_bits, byte_ofs);
 }
 
-int fc_zero_mantissa(const fp_value *value) {
-       return sc_get_lowest_set_bit(_mant(value)) == 2 + value->desc.mantissa_size;
+/* Returns non-zero if the mantissa is zero, i.e. 1.0Exxx */
+int fc_zero_mantissa(const fp_value *value)
+{
+       return sc_get_lowest_set_bit(_mant(value)) == ROUNDING_BITS + value->desc.mantissa_size;
 }
 
-int fc_get_exponent(const fp_value *value) {
+/* Returns the exponent of a value. */
+int fc_get_exponent(const fp_value *value)
+{
        int exp_bias = (1 << (value->desc.exponent_size - 1)) - 1;
        return sc_val_to_long(_exp(value)) - exp_bias;
 }
 
+/* Return non-zero if a given value can be converted lossless into another precision */
+int fc_can_lossless_conv_to(const fp_value *value, const ieee_descriptor_t *desc)
+{
+       int v;
+       int exp_bias;
 
-fc_rounding_mode_t fc_set_rounding_mode(fc_rounding_mode_t mode) {
+       /* handle some special cases first */
+       switch (value->desc.clss) {
+       case ZERO:
+       case INF:
+       case NAN:
+               return 1;
+       default:
+               break;
+       }
+
+       /* check if the exponent can be encoded: note, 0 and all ones are reserved for the exponent */
+       exp_bias = (1 << (desc->exponent_size - 1)) - 1;
+       v = fc_get_exponent(value) + exp_bias;
+       if (0 < v && v < (1 << desc->exponent_size) - 1) {
+               /* exponent can be encoded, now check the mantissa */
+               v = value->desc.mantissa_size + ROUNDING_BITS - sc_get_lowest_set_bit(_mant(value));
+               return v <= desc->mantissa_size;
+       }
+       return 0;
+}
+
+
+fc_rounding_mode_t fc_set_rounding_mode(fc_rounding_mode_t mode)
+{
        if (mode == FC_TONEAREST || mode == FC_TOPOSITIVE || mode == FC_TONEGATIVE || mode == FC_TOZERO)
                rounding_mode = mode;
 
        return rounding_mode;
 }
 
-fc_rounding_mode_t fc_get_rounding_mode(void) {
+fc_rounding_mode_t fc_get_rounding_mode(void)
+{
        return rounding_mode;
 }
 
-void init_fltcalc(int precision) {
+void init_fltcalc(int precision)
+{
        if (calc_buffer == NULL) {
                /* does nothing if already init */
                if (precision == 0) precision = FC_DEFAULT_PRECISION;
 
-               init_strcalc(precision + 4);
+               init_strcalc(precision + 2 + ROUNDING_BITS);
 
-               /* needs additionally two bits to round, a bit as explicit 1., and one for
+               /* needs additionally rounding bits, one bit as explicit 1., and one for
                 * addition overflow */
-               max_precision = sc_get_precision() - 4;
+               max_precision = sc_get_precision() - (2 + ROUNDING_BITS);
                if (max_precision < precision)
                        printf("WARNING: not enough precision available, using %d\n", max_precision);
 
@@ -1533,7 +1439,8 @@ void init_fltcalc(int precision) {
        }
 }
 
-void finish_fltcalc (void) {
+void finish_fltcalc (void)
+{
        free(calc_buffer); calc_buffer = NULL;
 }
 
@@ -1542,7 +1449,8 @@ static char buffer[100];
 #endif
 
 /* definition of interface functions */
-fp_value *fc_add(const fp_value *a, const fp_value *b, fp_value *result) {
+fp_value *fc_add(const fp_value *a, const fp_value *b, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
        TRACEPRINTF(("%s ", fc_print(a, buffer, sizeof(buffer), FC_PACKED)));
@@ -1558,7 +1466,8 @@ fp_value *fc_add(const fp_value *a, const fp_value *b, fp_value *result) {
        return result;
 }
 
-fp_value *fc_sub(const fp_value *a, const fp_value *b, fp_value *result) {
+fp_value *fc_sub(const fp_value *a, const fp_value *b, fp_value *result)
+{
        fp_value *temp;
 
        if (result == NULL) result = calc_buffer;
@@ -1578,7 +1487,8 @@ fp_value *fc_sub(const fp_value *a, const fp_value *b, fp_value *result) {
        return result;
 }
 
-fp_value *fc_mul(const fp_value *a, const fp_value *b, fp_value *result) {
+fp_value *fc_mul(const fp_value *a, const fp_value *b, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
        TRACEPRINTF(("%s ", fc_print(a, buffer, sizeof(buffer), FC_PACKED)));
@@ -1590,7 +1500,8 @@ fp_value *fc_mul(const fp_value *a, const fp_value *b, fp_value *result) {
        return result;
 }
 
-fp_value *fc_div(const fp_value *a, const fp_value *b, fp_value *result) {
+fp_value *fc_div(const fp_value *a, const fp_value *b, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
        TRACEPRINTF(("%s ", fc_print(a, buffer, sizeof(buffer), FC_PACKED)));
@@ -1602,7 +1513,8 @@ fp_value *fc_div(const fp_value *a, const fp_value *b, fp_value *result) {
        return result;
 }
 
-fp_value *fc_neg(const fp_value *a, fp_value *result) {
+fp_value *fc_neg(const fp_value *a, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
        TRACEPRINTF(("- %s ", fc_print(a, buffer, sizeof(buffer), FC_PACKED)));
@@ -1615,7 +1527,8 @@ fp_value *fc_neg(const fp_value *a, fp_value *result) {
        return result;
 }
 
-fp_value *fc_int(const fp_value *a, fp_value *result) {
+fp_value *fc_int(const fp_value *a, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
        TRACEPRINTF(("%s ", fc_print(a, buffer, sizeof(buffer), FC_PACKED)));
@@ -1627,40 +1540,48 @@ fp_value *fc_int(const fp_value *a, fp_value *result) {
        return result;
 }
 
-fp_value *fc_rnd(const fp_value *a, fp_value *result) {
+fp_value *fc_rnd(const fp_value *a, fp_value *result)
+{
        if (result == NULL) result = calc_buffer;
 
        (void) a;
        TRACEPRINTF(("%s ", fc_print(a, buffer, sizeof(buffer), FC_PACKED)));
        TRACEPRINTF(("rounded to integer "));
 
-       assert(!"fc_rnd() not yet implemented");
-
-       TRACEPRINTF(("= %s\n", fc_print(result, buffer, sizeof(buffer), FC_PACKED)));
-       return result;
+       panic("fc_rnd() not yet implemented");
 }
 
 /*
  * convert a floating point value into an sc value ...
  */
-int fc_flt2int(const fp_value *a, void *result, ir_mode *dst_mode) {
+int fc_flt2int(const fp_value *a, void *result, ir_mode *dst_mode)
+{
        if (a->desc.clss == NORMAL) {
                int exp_bias = (1 << (a->desc.exponent_size - 1)) - 1;
                int exp_val  = sc_val_to_long(_exp(a)) - exp_bias;
                int shift, highest;
+               int mantissa_size;
+               int tgt_bits;
 
                if (a->sign && !mode_is_signed(dst_mode)) {
                        /* FIXME: for now we cannot convert this */
                        return 0;
                }
 
+               tgt_bits = get_mode_size_bits(dst_mode);
+               if (mode_is_signed(dst_mode))
+                       --tgt_bits;
+
                assert(exp_val >= 0 && "floating point value not integral before fc_flt2int() call");
-               shift = exp_val - a->desc.mantissa_size - 2;
+               mantissa_size = a->desc.mantissa_size + ROUNDING_BITS;
+               shift         = exp_val - mantissa_size;
 
+               if (tgt_bits < mantissa_size + 1)
+                       tgt_bits = mantissa_size + 1;
                if (shift > 0) {
-                       sc_shlI(_mant(a),  shift, 64, 0, result);
+                       sc_shlI(_mant(a),  shift, tgt_bits, 0, result);
                } else {
-                       sc_shrI(_mant(a), -shift, 64, 0, result);
+                       sc_shrI(_mant(a), -shift, tgt_bits, 0, result);
                }
 
                /* check for overflow */
@@ -1669,18 +1590,18 @@ int fc_flt2int(const fp_value *a, void *result, ir_mode *dst_mode) {
                if (mode_is_signed(dst_mode)) {
                        if (highest == sc_get_lowest_set_bit(result)) {
                                /* need extra test for MIN_INT */
-                               if (highest >= get_mode_size_bits(dst_mode)) {
+                               if (highest >= (int) get_mode_size_bits(dst_mode)) {
                                        /* FIXME: handle overflow */
                                        return 0;
                                }
                        } else {
-                               if (highest >= get_mode_size_bits(dst_mode) - 1) {
+                               if (highest >= (int) get_mode_size_bits(dst_mode) - 1) {
                                        /* FIXME: handle overflow */
                                        return 0;
                                }
                        }
                } else {
-                       if (highest >= get_mode_size_bits(dst_mode)) {
+                       if (highest >= (int) get_mode_size_bits(dst_mode)) {
                                /* FIXME: handle overflow */
                                return 0;
                        }
@@ -1699,13 +1620,15 @@ int fc_flt2int(const fp_value *a, void *result, ir_mode *dst_mode) {
 }
 
 
-unsigned fc_set_immediate_precision(unsigned bits) {
+unsigned fc_set_immediate_precision(unsigned bits)
+{
        unsigned old = immediate_prec;
 
        immediate_prec = bits;
        return old;
 }
 
-int fc_is_exact(void) {
+int fc_is_exact(void)
+{
        return fc_exact;
 }