dce0a912895ac5fc5b931b7b1e7ae2685601a08a
[www] / libm / index.html
1 <html><head><title>libm</title></head><body>
2 <h2>libm</h2>
3
4 <p>This page is about libm for the
5 <a href="http://www.musl-libc.org/">musl</a> libc.
6
7 <ul>
8 <li><a href="#sources">Sources</a>
9 <li><a href="#rules">General rules</a>
10 <li><a href="#representation">Representation</a>
11 <li><a href="#ugly">Ugly</a>
12 <li><a href="#implementations">libm implementations</a>
13 <li><a href="#tests">libm tests</a>
14 </ul>
15
16 <h3><a name="sources" href="#sources">Sources</a></h3>
17 <p>Writing math code from scratch is a huge work so already existing code is
18 used. Several math functions are taken from the
19 <a href="http://freebsd.org/">freebsd</a> libm and a few from the
20 <a href="http://openbsd.org/">openbsd</a> libm implementations.
21 Both of them are based on <a href="http://www.netlib.org/fdlibm/">fdlibm</a>.
22 The freebsd libm seems to be the most well maintained and most correct version
23 of fdlibm.
24 <p>sources:
25 <ul>
26 <li>freebsd /lib/msun (<a href="http://svnweb.FreeBSD.org/base/head/lib/msun/">browse</a>)
27 <pre>
28 svn checkout svn://svn.freebsd.org/base/head/lib/msun
29 </pre>
30 <li>openbsd /src/lib/libm (<a href="http://www.openbsd.org/cgi-bin/cvsweb/src/lib/libm/">browse</a>)
31 <pre>
32 cvs -d <a href="http://openbsd.org/anoncvs.html#CVSROOT">$CVSROOT</a> get src/lib/libm
33 </pre>
34 </ul>
35
36 <h3><a name="rules" href="#rules">General rules</a></h3>
37 <ul>
38 <li>Assumptions about floating-point representation and arithmetics
39 (see <a href="http://port70.net/~nsz/c/c99/n1256.html#F.2">c99 annex F.2</a>):
40 <ul>
41 <li>float is ieee binary32
42 <li>double is ieee binary64
43 <li>long double is either ieee binary64 or little-endian 80bit extended precision (x87 fpu)
44 </ul>
45 (other long double representations may be supported in the future, until then
46 long double math functions will be missing on non-supported platforms)
47 <li>On soft-float architectures fenv should not be expected to work according to
48 the c and ieee standards (ie. rounding modes and exceptions are not supported,
49 the fenv functions are dummy ones)
50 <li>Floating-point exception flags should be properly set in math functions
51 according to c99 annex F, but without using fenv.h
52 (eg. overflow flag can be raised by 0x1p900*0x1p900, because this works even
53 without fenv support)
54 <li>Most functions need to be precise only in nearest rounding mode.
55 <li>Returned floating-point values should be correctly rounded in most cases,
56 but the last bit may be wrong:
57 <pre>
58     |error| &lt; 1.5 ulp
59 </pre>
60 should hold for most functions.
61 (error is the difference between the exact result and the calculated
62 floating-point value)
63 (in theory correct rounding can be achieved but with big implementation cost,
64 see <a href="http://lipforge.ens-lyon.fr/www/crlibm/">crlibm</a>)
65 <li>At least the following functions must be correctly rounded:
66 ceil, copysign, fabs, fdim, floor, fma, fmax, fmin, fmod, frexp, ldexp, logb,
67 modf, nearbyint, nextafter, nexttoward, rint, remainder, remquo, round, scalbln,
68 scalbn, sqrt, trunc.
69 <li>Mathematical properties of functions should be as expected
70 (monotonicity, range, symmetries).
71 <li>If the FPU precision is altered then nothing is guaranteed to work.
72 (ie. when long double does not have full 80bit precision on i386 then things
73 may break, this also means that compiler must spill fpu registers at 80bits
74 precision)
75 <li>Signaling NaN is not supported
76 <li>Quiet NaN is supported but all NaNs are treated equally without special
77 attention to the internal representation of a NaN
78 (eg. the sign of NaN may not be preserved).
79 <li>Most gcc bug workarounds should be removed from the code
80 (STRICT_ASSIGN macro is used when excessive precision is harmful and
81 FORCE_EVAL when expressions must be evaluated for their side-effect, other
82 usage of volatile is not justified, hacks around long double constants are
83 not justified eventhough gcc can miscompile those with non-default FPU setting)
84 <li>When excessive precision is not harmful, temporary variables
85 should be float_t or double_t (so on i386 no superfluous store is
86 generated)
87 <li>Whenever fenv is accessed the FENV_ACCESS pragma of c99 should be used
88 (eventhough gcc does not yet support it), and all usage of optional FE_
89 macros should be protected by #ifdef
90 <li>For bit manipulation of floating-point values an union should be used
91 (eg. union {float f; uint32_t i;})
92 <li>uint32_t and uint64_t should be used for bit manipulations.
93 (eg signed int must not be used in bit shifts etc when it might invoke
94 undefined or implementation defined behaviour).
95 <li>POSIX namespace rules must be respected.
96 <li>c99 hexfloat syntax (0x1.0p0) should be used when it makes the code
97 clearer, but not in public header files
98 (those should be c++ and ansi c compatible)
99 <li>The 'f' suffix should be used for single precision values (0.1f) when the
100 value cannot be exactly represented or the type of the arithmetics is important
101 ((float)0.1 is not ok, that style may lead to double rounding issues, but eg.
102 1.0 or 0.5 may be used instead of 1.0f or 0.5f in some cases)
103 <li>Prefer classification macros (eg. isnan) over inplace bit hacks.
104 <li>For every math function there should be a c implementation.
105 (a notable exception now is sqrtl, since most fpu has instruction for it
106 and on soft-float architectures long double == double)
107 <li>The c implementation of a long double function should use ifdefs with the
108 LDBL_MANT_DIG etc constants from float.h for architecture specific
109 implementations.
110 <li>In the musl source tree math.h functions go to src/math, complex.h functions
111 to src/complex and fenv.h functions to src/fenv. And files are named after the
112 functions they implement.
113 </ul>
114
115 <h3><a name="representation" href="#representation">Representation</a></h3>
116 <p>
117 Binary representation of floating point numbers matter
118 because bit hacks are often needed in the math code.
119 (in particular bit hacks are used instead of relational operations for nan
120 and sign checks becuase relational operators raise invalid fp exception on nan
121 and they treat -0.0 and +0.0 equally and more often than not these are not desired)
122 <p>
123 float and double bit manipulation can be handled in a portable way in c using
124 union types:
125 <ul>
126 <li>union {float f; uint32_t i;};
127 <li>union {double f; uint64_t i;};
128 </ul>
129 (assuming the bits in the object representation of 32bit and 64bit unsigned ints
130 map to the floating-point representation according to ieee-754, this is not
131 always the case, eg. old
132 <a href="http://wiki.debian.org/ArmEabiPort#ARM_floating_points">arm floating-point accelerator</a>
133 (FPA) used mixed endian double representation, but musl does not support the old
134 arm ABI)
135 <p>
136 long double bit manipulation is harder as there are various representations
137 and some of them don't map to any unsigned integer type:
138 <ul>
139 <li>ld64: long double is the same as double (ieee binary64)
140 <li>ld80: 80bit extended precision format [<a href="https://en.wikipedia.org/wiki/Extended_precision">wikipedia</a>]
141 <li>ld128: quadruple precision, ieee binary128 [<a href="https://en.wikipedia.org/wiki/Quadruple-precision_floating-point_format">wikipedia</a>]
142 </ul>
143 (and other non-standard formats are not supported)
144 <p>
145 In case of ld64 the bit manipulation is the same as with double
146 and all long double math functions can be just wrappers around the
147 corresponding double ones.
148 (using symbol aliasing on the linker level is non-conformant
149 since functions would not have unique address then)
150 <p>
151 ld80 is the most common long double on linux (i386 and x86_64 abi),
152 it means 64bit significand with explicit msb
153 (inconsistent with other ieee formats), 15bit exp, 1 sign bit.
154 The m68k (and m88k) architecture uses the same format, but different endianness:
155 <ul>
156 <li>union {long double f; struct{uint64_t m; uint16_t se; uint16_t pad;} i;}; // x86
157 <li>union {long double f; struct{uint16_t se; uint16_t pad; uint64_t m;} i;}; // m68k
158 </ul>
159 where m is the significand and se is the sign and exponent.
160 <p>
161 ld128 is rare (eg. sparc64 with software emulation), it means
162 113bit significand with implicit msb, 15bit exp, 1 sign bit:
163 <ul>
164 <li>union {long double f; struct{uint16_t se; uint16_t hi; uint32_t mid; uint64_t lo;} i;};
165 </ul>
166 <p>
167 There are other non-conformant long double types: eg. the old SVR4 abi for ppc
168 uses 128 bit long doubles, but it's software emulated and traditionally
169 implemented using
170 <a href="https://en.wikipedia.org/wiki/Quadruple_precision#Double-double_arithmetic">two doubles</a>
171 (also called ibm long double as this is what ibm aix used on ppc).
172 The ibm s390 supports the ieee 754-2008 compliant binary128 floating-point
173 format, but previous ibm machines (S/370, S/360) used slightly different
174 representation.
175 <p>
176 This variation shows the difficulty to consistently handle
177 long double: the solution is to use ifdefs based on float.h and
178 on the endianness and write different code for different architectures.
179
180 <h3><a name="ugly" href="#ugly">Ugly</a></h3>
181 <p>The ugly parts of libm hacking.
182 <p>Some notes are from:
183 <a href="http://www.vinc17.org/research/extended.en.html">http://www.vinc17.org/research/extended.en.html</a>
184 <p>Useful info about floating-point in gcc:
185 <a href="http://gcc.gnu.org/wiki/FloatingPointMath">http://gcc.gnu.org/wiki/FloatingPointMath</a>
186
187 <ul>
188 <li>Double rounding:
189 <p>
190 If a value rounded twice the result can be different
191 than rounding just once.
192 <p>
193 The C language allows arithmetic to be evaluated in
194 higher precision than the operands have. If we
195 use x87 fpu in extended precision mode it will round
196 the results twice: round to 80bit when calculating
197 and then round to 64bit when storing it, this can
198 give different result than a single 64bit rounding.
199 (on x86-linux the default fpu setting is to round the
200 results in extended precision, this only affects x87 instructions, not sse2 etc)
201 (freebsd and openbsd use double precision by default)
202 <p>
203 So x = a+b may give different results depending on
204 the x87 fpu precision setting.
205 (only happens in round to nearest rounding mode,
206 but that's the most common one)
207 <p>
208 (double rounding can happen with float vs double as well)
209 <p>
210 <a href="http://repo.or.cz/w/c-standard.git/blob_plain/HEAD:/n1256.html#F.7.3">C99 annex F</a>
211 prohibits double rounding, but that's non-normative.
212 <p>
213 Note that the value of the result can only be ruined by
214 double rounding in nearest rounding mode, but the double
215 rounding issue haunts directed rounding modes as well:
216 raising the underflow flag might be omitted.
217 On x86 with downward rounding
218 <pre>
219 (double)(0x1p-1070 + 0x1p-2000L)
220 </pre>
221 does not raise underflow (only inexact) eventhough the
222 final result is an inexact subnormal.
223
224
225 <li>Wider exponent range (x87 issue):
226 <p>
227 Even if the fpu is set to double precision
228 (which is not) the x87 registers use wider exponent
229 range (mant:exp is 53:15 instead of 53:11 bits)
230 so underflows (subnormals) may not be treated
231 as expected. Rounding to double only occurs
232 when a value is stored into memory.
233 <p>
234 Actually this beahviour is allowed by the ieee 754
235 standard, but it can cause problems (see
236 <a href="http://www.exploringbinary.com/php-hangs-on-numeric-value-2-2250738585072011e-308/">infamous php bug</a>)
237
238 <li>Evaluation precision:
239 <p>
240 C does not require consistent evaluation
241 precision: the compiler may store intermediate
242 results and round them to double while keep
243 other parts in higher precision.
244 (And the precision the compiler choses can
245 be inconsistent: adding a printf to the code
246 may change the result of a nearby calculation).
247 So
248 <pre>
249 (a+b)==(a+b)
250 </pre>
251 may be false when the two sides
252 are kept in different precision.
253 (This is not an x87 specific problem, it matters whenever there
254 is a higher precision fp type than the currently used one and
255 FLT_EVAL_METHOD!=0.
256 It goes away if the highest precision (long double) is used
257 everywhere, but that can have a huge penalty).
258 (clang uses sse by default on i386 with FLT_EVAL_METHOD==0,
259 while gcc uses the 80bit x87 fp registers and FLT_EVAL_METHOD==2)
260 <p>
261 C99 has a way to control this (see
262 <a href="http://repo.or.cz/w/c-standard.git/blob_plain/HEAD:/n1256.html#5.1.2.3">5.1.2.3 example 4</a>,
263 <a href="http://repo.or.cz/w/c-standard.git/blob_plain/HEAD:/n1256.html#6.3.1.5">6.3.1.5</a> and
264 <a href="http://repo.or.cz/w/c-standard.git/blob_plain/HEAD:/n1256.html#6.3.1.8">6.3.1.8</a>):
265 when a result is stored in a variable or a
266 type cast is used, then it is guaranteed that
267 the precision is appropriate to that type.
268 So in
269 <pre>
270 (double)(a+b)==(double)(a+b)
271 </pre>
272 both sides are guaranteed to be in double precision
273 when the comparision is done.
274 <p>
275 (This still does not solve the x87 double rounding
276 issue though: eg if the left side is evaluated with
277 sse2 and the right side with x87 extended precision setting
278 and double rounding then the result may still be false)
279 <p>
280 Unfortunately gcc does not respect the standard
281 and even if assingment or cast is used the result
282 may be kept in higher precision
283 (infamous <a href="http://gcc.gnu.org/bugzilla/show_bug.cgi?id=323">gcc bug323</a>
284 also see <a href="http://gcc.gnu.org/bugzilla/show_bug.cgi?id=36578">gcc bug36578</a>).
285 gcc 4.5 fixed it with '-fexcess-precision=standard'
286 (it is enabled by '-std=c99', but the default is
287 '-fexcess-precision=fast')
288 (An alternative solution would be if gcc spilled the
289 registers with temporary results without rounding,
290 storing the 80 bit registers entirely in memory
291 which would make the behaviour under FLT_EVAL_METHOD==2
292 mode more predictable)
293 <p>
294 The workaround for older gcc is to force the
295 compiler to store the intermediate results:
296 by using volatile double temporary variables
297 or by '-ffloat-store' (which affects all
298 intermediate results, but is not guaranteed
299 by the gcc docs to always work).
300 <p>
301 (Sometimes the excess precision is good
302 but it's hard to rely on it as it is optional
303 <p>
304 There is a way to check for it though using
305 FLT_EVAL_METHOD, float_t and double_t.
306 But it's probably easier to unconditionally
307 use higher precision variables when that's
308 what we want and don't depend on the implicit
309 excess precision).
310
311 <li>Float literals
312 <p>
313 The standard allows 1 ulp errors in the conversion
314 of decimal floating-point literals into floating-point
315 values (it only requires the same result for the same
316 literal thus <tt>1.1 - 1.1</tt> is always 0,
317 but <tt>1.1 - 11e-1</tt> maybe +-0x1p-52 or 0).
318 <p>
319 A reasonable compiler always use correctly rounded
320 conversion according to the default (nearest) rounding
321 mode, but there are exceptions:
322 the x87 has builtin constants which are faster to load
323 from hardware than from memory
324 (and the hw has sticky bit set correctly for rounding).
325 gcc can recognize these constants so an operation on
326 <pre>
327 3.141592653589793238462643383L
328 </pre>
329 can turn into code that uses the <tt>fldpi</tt>
330 instruction instead of memory loads.
331 The only issue is that fldpi depends on
332 the current rounding mode at runtime
333 so the result can indeed be 1 ulp off compared
334 to the compile-time rounded value.
335 <p>
336 According to the freebsd libm code gcc truncates long double
337 const literals on i386.
338 I assume this happens because freebsd uses 64bit long doubles by default
339 (double precision) and gcc incorrectly uses the precision setting of the
340 host platform instead of the target one, but i did not observe this on linux.
341 (as a workaround sometimes double-double arithmetics was used
342 to initialize long doubles on i386, but most of these should be
343 fixed in musl's math code now)
344
345 <li>Compiler optimizations:
346 <p>
347 Runtime and compile time semantics may be different
348 gcc often does unwanted or even invalid compile
349 time optimizations.
350 (constant folding where floating point exception
351 flags should be raised at runtime, or the result
352 depends on runtime floating point environment,
353 or constant expressions are just evaluated with
354 different precision than at runtime).
355 <p>
356 C99 actually allows most of these optimizations
357 but they can be turned off with STDC pragmas (see
358 <a href="http://repo.or.cz/w/c-standard.git/blob_plain/HEAD:/n1256.html#6.10.6">6.10.6</a>).
359 Unfortunately <a href="http://gcc.gnu.org/c99status.html">gcc does not support these pragmas</a>
360 nor clang (<a href="http://llvm.org/bugs/show_bug.cgi?id=8100">clang bug 8100</a>).
361 <p>
362 FENV_ACCESS ON tells the compiler that the code wants
363 to access the floating point environment (eg. set different rounding mode)
364 (see <a href="http://gcc.gnu.org/bugzilla/show_bug.cgi?id=34678">gcc bug34678</a>).
365 <p>
366 (see <a href="http://gcc.gnu.org/bugzilla/show_bug.cgi?id=37845">gcc bug37845</a> for FP_CONTRACT pragma
367 which is relevant when the architecture has fma instruction, x86_64, i386, arm do not have it).
368 <p>
369 The workaround is again using named volatile
370 variables for constants like
371 <pre>
372 static const volatile two52 = 0x1p52;
373 </pre>
374 and using the '-frounding-math' gcc flag.
375
376 <li>ld80 vs ld128
377 <p>
378 The two representations are sufficiently different
379 that treating them together is awkward.
380 (Especially the explicit msb bit in ld80 can cause
381 different behaviour).
382 <p>
383 In the freebsd libm code a few architecture specific
384 macros and a union handle these issues, but the
385 result is often less clear than treating ld80
386 and ld128 separately.
387
388 <li>Signed zeros
389 <p>Signed zeros can be tricky. They cannot be checked
390 using the usual comparision operators (+0.0 == -0.0 is true),
391 but they give different results in some cases
392 (1/-0.0 == -inf) and can make similarly looking
393 expressions different eg.
394 (x + 0) is not the same as x, the former is +0.0 when x is -0.0
395 <p>
396 (To check for -0, the signbit macro can be used
397 or the copysign function or bit manipulation.)
398
399 <li>Error handling
400 <p>
401 Arithmetics may set various floating point exception flags as a side effect.
402 These can be queried and manipulated (fetestexcept, feraiseexcept,..).
403 <p>
404 So special care is needed
405 when a library function wants to avoid changing
406 the floating point status flags.
407 eg. if one wants to check for -0 silently then
408 <pre>
409 if (x == 0.0 &amp;&amp; 1/x &lt; 0) { /* x is a -0 */ }
410 </pre>
411 is not ok: == raises invalid exception when x is nan,
412 and even if we filter nans out 1/x will raise the
413 divbyzero flag.
414 <p>
415 When a library wants to raise a flag deliberately
416 but feraiseexcept is not available for some reason,
417 then simple arithmetics can be be used just for their
418 exception raising side effect
419 (eg. 1/0.0 to raise divbyzero), however beaware
420 of compiler optimizations (constant folding and dead code elimination,..).
421 <p>
422 Unfortunately gcc does not always take fp exceptions into
423 account: a simple x = 1e300*1e300; may not raise overflow
424 exception at runtime, but get optimized into x = +inf.
425 see compiler optimizations above.
426 <p>
427 Another x87 gcc bug related to fp exceptions is that in some cases
428 comparision operators (==, &lt;, etc) don't raise invalid
429 when an operand is nan
430 (eventhough this is required by ieee + c99 annex F).
431 (see <a href="http://gcc.gnu.org/bugzilla/show_bug.cgi?id=52451">gcc bug52451</a>).
432 <p>
433 The ieee standard defines signaling and quiet nan
434 floating-point numbers as well.
435 The c99 standard only considers quiet nan, but it allows
436 signaling nans to be supported as well.
437 Without signaling nans x * 1 is equivalent to x,
438 but if signaling nan is supported then the former
439 raises an invalid exception.
440 This may complicate things further if one wants to write
441 portable fp math code.
442 <p>
443 A further libm design issue is the math_errhandling macro:
444 it specifies the way math function errors can be checked
445 which is either fp exceptions or the errno variable or both.
446 The fp exception approach can be supported with enough care
447 but errno is hard to support: certain library functions
448 are implemented as a single asm instruction (eg sqrt),
449 the only way to set errno is to query the fp exception flags
450 and then set the errno variable based on that.
451 So eventhough errno may be convenient, in libm it is
452 not the right thing to do.
453 <p>
454 For soft-float targets however errno seems to be the only option
455 (which means annex K cannot be fully supported, as it requires
456 the support of exception flags).
457 The problem is that at context switches the fpu status should
458 be saved and restored which is done by the kernel on hard-fp
459 architectures when the state is in an fpu status word.
460 In case of soft-fp emulation this must be done by the c runtime:
461 context switches between threads can be supported with thread local
462 storage of the exception state, but signal handlers may do floating-point
463 arithmetics which should not alter the fenv state.
464 Wrapping signal handlers is not possible/difficult for various
465 reasons and the compiler cannot know which functions will be used
466 as signal handlers, so the c runtime has no way to guarantee that
467 signal handlers do not alter the fenv.
468
469 <li>Complex arithmetics
470 <p>
471 gcc turns
472 <pre>
473 x*I
474 </pre>
475 into
476 <pre>
477 (x+0*I)*(0+I) = 0*x + x*I
478 </pre>
479 So if x=inf then the result is nan+inf*I instead of inf*I
480 (an fmul instruction is generated for 0*x)
481 <p>
482 (There were various complex constant folding issues as well in gcc).
483 <p>
484 So a+b*I cannot be used to create complex numbers,
485 instead some double[2] manipulation should be used to
486 make sure there is no fmul in the generated code
487 (freebsd uses a static inline cpack function)
488 (It's not clear which is better: using union hacks
489 everywhere in the complex code or creal, cimag, cpack)
490 <p>
491 Complex code is hard to make portable across compilers
492 as there are no good compiler support, it is rarely used
493 and there are various options available in the standard:
494 complex support is optional, imaginary type
495 is optional.
496 <p>
497 It's not clear how I (or _Complex_I) should be defined
498 in complex.h
499 (literal of the float imaginary unit is compiler specific,
500 in gcc it can be 1.0fi).
501
502 <li>Signed int
503 <p>
504 The freebsd libm code has many inconsistencies
505 (naming conventions, 0x1p0 notation vs decimal notation,..),
506 one of them is the integer type used for bit manipulations:
507 The bits of a double are unpacked into one of
508 int, int32_t, uint32_t and u_int32_t
509 integer types.
510 <p>
511 int32_t is used the most often which is not wrong in itself
512 but it is used incorrectly in many places.
513 <p>
514 int is a bit worse because unlike int32_t it is not guaranteed
515 to be 32bit two's complement representation. (but of course in
516 practice they are the same)
517 <p>
518 The issues found so far are left shift of negative integers
519 (undefined behaviour), right shift of negative integers
520 (implementation defined behaviour), signed overflow
521 (implementation defined behaviour), unsigned to signed conversion
522 (implementation defined behaviour).
523 <p>
524 It is easy to avoid these issues without performance impact,
525 but a bit of care should be taken around bit manipulations.
526 </ul>
527
528 <h3><a name="implementations" href="#implementations">libm implementations</a></h3>
529 <ul>
530 <li>
531 unix v7 libm by Robert Morris (rhm) around 1979<br>
532 see: "Computer Approximations" by Hart & Cheney, 1968<br>
533 used in: plan9, go
534 <li>
535 cephes by Stephen L. Moshier, 1984-1992<br>
536 <a href="http://www.netlib.org/cephes/">http://www.netlib.org/cephes/</a><br>
537 see: "Methods and Programs for Mathematical Functions" by Moshier 1989
538 <li>
539 fdlibm by K. C. Ng around 1993, updated in 1995?<br>
540 (1993: copyright notice: "Developed at SunPro ..")<br>
541 (1995: copyright notice: "Developed at SunSoft ..")<br>
542 eg see: "Argument Reduction for Huge Arguments: Good to the Last Bit" by Ng 1992<br>
543 <a href="http://www.netlib.org/fdlibm">http://www.netlib.org/fdlibm</a><br>
544 used in: netbsd, openbsd, freebsd, bionic, musl
545 <li>
546 libultim by Abraham Ziv around 2001 (lgpl)<br>
547 (also known as the ibm accurate portable math lib)<br>
548 see: "Fast evaluation of elementary mathematical functions with correctly rounded last bit" by Ziv 1991<br>
549 <a href="http://web.archive.org/web/20050207110205/http://oss.software.ibm.com/mathlib/">http://web.archive.org/web/20050207110205/http://oss.software.ibm.com/mathlib/</a><br>
550 used in: glibc
551 <li>
552 libmcr by K. C. Ng, 2004<br>
553 (sun's correctly rounded libm)
554 <li>
555 mathcw by Nelson H. F. Beebe, 2010?<br>
556 <a href="http://ftp.math.utah.edu/pub/mathcw/">http://ftp.math.utah.edu/pub/mathcw/</a><br>
557 (no sources available?)
558 <li>
559 sleef by Naoki Shibata, 2010<br>
560 (simd lib for evaluating elementary functions)<br>
561 <a href="http://shibatch.sourceforge.net/">http://shibatch.sourceforge.net/</a>
562 <li>
563 crlibm by ens-lyon, 2004-2010<br>
564 <a href="http://lipforge.ens-lyon.fr/www/crlibm/">http://lipforge.ens-lyon.fr/www/crlibm/</a><br>
565 see: <a href="http://lipforge.ens-lyon.fr/frs/?group_id=8&amp;release_id=123">crlibm.pdf</a><br>
566 see: "Elementary Functions" by Jean-Michel Muller 2005<br>
567 see: "Handbook of Floating-Point Arithmetic" by (many authors from Lyon) 2009<br>
568 <li>
569 various other closed ones: intel libm, hp libm for itanium,..
570 </ul>
571
572 <h3><a name="tests" href="#tests">libm tests</a></h3>
573 <ul>
574 <li><a href="http://www.netlib.org/fp/ucbtest.tgz">ucbtest.tgz</a>
575 <li><a href="http://www.jhauser.us/arithmetic/TestFloat.html">TestFloat</a>
576 <li><a href="http://cant.ua.ac.be/old/ieeecc754.html">ieeecc754</a>
577 <li><a href="http://www.loria.fr/~zimmerma/mpcheck/">mpcheck</a>,
578 <a href="http://gforge.inria.fr/projects/mpcheck/">mpcheck</a>
579 <li><a href="http://people.inf.ethz.ch/gonnet/FPAccuracy/Analysis.html">FPAccuracy</a>
580 <li><a href="http://www.math.utah.edu/~beebe/software/ieee/">beebe's ieee tests</a>
581 <li><a href="http://www.math.utah.edu/pub/elefunt/">elefunt</a>
582 <li><a href="http://www.vinc17.org/research/testlibm/index.en.html">testlibm</a>
583 <li><a href="http://www.vinc17.org/research/fptest.en.html">fptest</a>
584 <li>tests in crlibm
585 </ul>
586 <p>
587 multiprecision libs (useful for tests)
588 <ul>
589 <li><a href="http://mpfr.org/">mpfr</a>
590 <li><a href="http://www.multiprecision.org/index.php?prog=mpc">mpc</a>
591 <li><a href="http://pari.math.u-bordeaux.fr/">pari</a>
592 <li><a href="http://www.apfloat.org/apfloat/">apfloat</a>
593 <li><a href="http://code.google.com/p/fastfunlib/">fastfunlib</a>
594 <li>scs_lib in crlibm
595 </ul>
596
597 <p>other links
598 <ul>
599 <li>ieee standard: http://754r.ucbtest.org/
600 <li>extended precision issues: http://www.vinc17.org/research/extended.en.html
601 <li>correctly rounded mult: http://perso.ens-lyon.fr/jean-michel.muller/MultConstant.html
602 <li>table based sincos: http://perso.ens-lyon.fr/damien.stehle/IMPROVEDGAL.html
603 <li>finding worst cases: http://perso.ens-lyon.fr/damien.stehle/WCLR.html
604 <li>finding worst cases: http://perso.ens-lyon.fr/damien.stehle/DECIMALEXP.html
605 <li>finding worst cases: http://www.loria.fr/equipes/spaces/slz.en.html
606 <li>finding worst cases: http://perso.ens-lyon.fr/jean-michel.muller/Intro-to-TMD.htm
607 <li>generating libm functions: http://lipforge.ens-lyon.fr/www/metalibm/
608 <li>fast conversion to fixedpoint: http://stereopsis.com/sree/fpu2006.html
609 <li>double-double, quad-double arithmetics: http://crd-legacy.lbl.gov/~dhbailey/mpdist/
610 <li>papers by kahan: http://www.cs.berkeley.edu/~wkahan/
611 <li>fp paper by goldberg: http://download.oracle.com/docs/cd/E19957-01/806-3568/ncg_goldberg.html
612 <li>math functions in general: http://dlmf.nist.gov/
613 </ul>
614
615 <p><small>(<a href="/git/?p=www">page history</a>, <a href="/">home</a>)</small>
616 </body></html>