overhaul posix semaphores to fix destructability race
authorRich Felker <dalias@aerifal.cx>
Tue, 2 Aug 2011 23:19:09 +0000 (19:19 -0400)
committerRich Felker <dalias@aerifal.cx>
Tue, 2 Aug 2011 23:19:09 +0000 (19:19 -0400)
commit88c4e720317845a8e01aee03f142ba82674cd23d
tree54c92b29227e097c994e7d902e7c35dca60fe109
parent88798393cab009ce78fe498051072db71ba9d035
overhaul posix semaphores to fix destructability race

the race condition these changes address is described in glibc bug
report number 12674:

http://sourceware.org/bugzilla/show_bug.cgi?id=12674

up until now, musl has shared the bug, and i had not been able to
figure out how to eliminate it. in short, the problem is that it's not
valid for sem_post to inspect the waiters count after incrementing the
semaphore value, because another thread may have already successfully
returned from sem_wait, (rightly) deemed itself the only remaining
user of the semaphore, and chosen to destroy and free it (or unmap the
shared memory it's stored in). POSIX is not explicit in blessing this
usage, but it gives a very explicit analogous example with mutexes
(which, in musl and glibc, also suffer from the same race condition
bug) in the rationale for pthread_mutex_destroy.

the new semaphore implementation augments the waiter count with a
redundant waiter indication in the semaphore value itself,
representing the presence of "last minute" waiters that may have
arrived after sem_post read the waiter count. this allows sem_post to
read the waiter count prior to incrementing the semaphore value,
rather than after incrementing it, so as to avoid accessing the
semaphore memory whatsoever after the increment takes place.

a similar, but much simpler, fix should be possible for mutexes and
other locking primitives whose usage rules are stricter than
semaphores.
src/thread/sem_post.c
src/thread/sem_timedwait.c
src/thread/sem_trywait.c