TLS fixes, mainly alignment handling
[musl] / src / ldso / dynlink.c
index 3f9bc14..21c3eba 100644 (file)
@@ -40,6 +40,9 @@ typedef Elf64_Sym Sym;
 #define R_SYM(x) ((x)>>32)
 #endif
 
+#define MAXP2(a,b) (-(-(a)&-(b)))
+#define ALIGN(x,y) ((x)+(y)-1 & -(y))
+
 struct debug {
        int ver;
        void *head;
@@ -72,6 +75,7 @@ struct dso {
        void **new_dtv;
        unsigned char *new_tls;
        int new_dtv_idx, new_tls_idx;
+       struct dso *fini_next;
        char *shortname;
        char buf[];
 };
@@ -86,7 +90,7 @@ struct symdef {
 void __init_ssp(size_t *);
 void *__install_initial_tls(void *);
 
-static struct dso *head, *tail, *libc;
+static struct dso *head, *tail, *libc, *fini_head;
 static char *env_path, *sys_path, *r_path;
 static int ssp_used;
 static int runtime;
@@ -96,7 +100,8 @@ static jmp_buf rtld_fail;
 static pthread_rwlock_t lock;
 static struct debug debug;
 static size_t *auxv;
-static size_t tls_cnt, tls_size;
+static size_t tls_cnt, tls_offset, tls_start, tls_align = 4*sizeof(size_t);
+static pthread_mutex_t init_fini_lock = { ._m_type = PTHREAD_MUTEX_RECURSIVE };
 
 struct debug *_dl_debug_addr = &debug;
 
@@ -523,8 +528,11 @@ static struct dso *load_library(const char *name)
        if (pathname != name) p->shortname = strrchr(p->name, '/')+1;
        if (p->tls_image) {
                p->tls_id = ++tls_cnt;
-               tls_size += p->tls_size + p->tls_align + 8*sizeof(size_t) - 1
-                       & -4*sizeof(size_t);
+               tls_align = MAXP2(tls_align, p->tls_align);
+               tls_offset += p->tls_size + p->tls_align - 1;
+               tls_offset -= (tls_offset + (uintptr_t)p->tls_image)
+                       & (p->tls_align-1);
+               p->tls_offset = tls_offset;
                p->new_dtv = (void *)(-sizeof(size_t) &
                        (uintptr_t)(p->name+strlen(p->name)+sizeof(size_t)));
                p->new_tls = (void *)(p->new_dtv + n_th*(tls_cnt+1));
@@ -642,18 +650,37 @@ static void find_map_range(Phdr *ph, size_t cnt, size_t stride, struct dso *p)
        p->map_len = max_addr - min_addr;
 }
 
+static void do_fini()
+{
+       struct dso *p;
+       size_t dyn[DYN_CNT] = {0};
+       for (p=fini_head; p; p=p->fini_next) {
+               if (!p->constructed) continue;
+               decode_vec(p->dynv, dyn, DYN_CNT);
+               ((void (*)(void))(p->base + dyn[DT_FINI]))();
+       }
+}
+
 static void do_init_fini(struct dso *p)
 {
        size_t dyn[DYN_CNT] = {0};
+       int need_locking = __libc.threads_minus_1;
+       /* Allow recursive calls that arise when a library calls
+        * dlopen from one of its constructors, but block any
+        * other threads until all ctors have finished. */
+       if (need_locking) pthread_mutex_lock(&init_fini_lock);
        for (; p; p=p->prev) {
-               if (p->constructed) return;
+               if (p->constructed) continue;
+               p->constructed = 1;
                decode_vec(p->dynv, dyn, DYN_CNT);
-               if (dyn[0] & (1<<DT_FINI))
-                       atexit((void (*)(void))(p->base + dyn[DT_FINI]));
+               if (dyn[0] & (1<<DT_FINI)) {
+                       p->fini_next = fini_head;
+                       fini_head = p;
+               }
                if (dyn[0] & (1<<DT_INIT))
                        ((void (*)(void))(p->base + dyn[DT_INIT]))();
-               p->constructed = 1;
        }
+       if (need_locking) pthread_mutex_unlock(&init_fini_lock);
 }
 
 void _dl_debug_state(void)
@@ -662,21 +689,26 @@ void _dl_debug_state(void)
 
 void *__copy_tls(unsigned char *mem)
 {
+       pthread_t td;
        struct dso *p;
+
+       if (!tls_cnt) return mem;
+
        void **dtv = (void *)mem;
        dtv[0] = (void *)tls_cnt;
-       mem = (void *)(dtv + tls_cnt + 1);
-       for (p=tail; p; p=p->prev) {
+
+       mem += __libc.tls_size - sizeof(struct pthread);
+       mem -= (uintptr_t)mem & (tls_align-1);
+       mem -= tls_start;
+       td = (pthread_t)mem;
+
+       for (p=head; p; p=p->next) {
                if (!p->tls_id) continue;
-               mem += -p->tls_len & (4*sizeof(size_t)-1);
-               mem += ((uintptr_t)p->tls_image - (uintptr_t)mem)
-                       & (p->tls_align-1);
-               dtv[p->tls_id] = mem;
-               memcpy(mem, p->tls_image, p->tls_len);
-               mem += p->tls_size;
+               dtv[p->tls_id] = mem - p->tls_offset;
+               memcpy(dtv[p->tls_id], p->tls_image, p->tls_len);
        }
-       ((pthread_t)mem)->dtv = dtv;
-       return mem;
+       td->dtv = dtv;
+       return td;
 }
 
 void *__tls_get_addr(size_t *v)
@@ -716,11 +748,18 @@ void *__tls_get_addr(size_t *v)
                (p->tls_size + p->tls_align) * a_fetch_add(&p->new_tls_idx,1);
        mem += ((uintptr_t)p->tls_image - (uintptr_t)mem) & (p->tls_align-1);
        self->dtv[v[0]] = mem;
-       memcpy(mem, p->tls_image, p->tls_size);
+       memcpy(mem, p->tls_image, p->tls_len);
        pthread_sigmask(SIG_SETMASK, &set, 0);
        return mem + v[1];
 }
 
+static void update_tls_size()
+{
+       size_t below_tp = (1+tls_cnt) * sizeof(void *) + tls_offset;
+       size_t above_tp = sizeof(struct pthread) + tls_start + tls_align;
+       __libc.tls_size = ALIGN(below_tp + above_tp, tls_align);
+}
+
 void *__dynlink(int argc, char **argv)
 {
        size_t aux[AUX_CNT] = {0};
@@ -828,9 +867,11 @@ void *__dynlink(int argc, char **argv)
                aux[AT_ENTRY] = ehdr->e_entry;
        }
        if (app->tls_size) {
-               app->tls_id = ++tls_cnt;
-               tls_size += app->tls_size+app->tls_align + 8*sizeof(size_t)-1
-                       & -4*sizeof(size_t);
+               app->tls_id = tls_cnt = 1;
+               tls_offset = app->tls_offset = app->tls_size;
+               tls_start = -((uintptr_t)app->tls_image + app->tls_size)
+                       & (app->tls_align-1);
+               tls_align = MAXP2(tls_align, app->tls_align);
        }
        app->global = 1;
        app->constructed = 1;
@@ -879,12 +920,10 @@ void *__dynlink(int argc, char **argv)
        load_deps(app);
        make_global(app);
 
-       /* Make an initial pass setting up TLS before performing relocs.
-        * This provides the TP-based offset of each DSO's TLS for
-        * use in TP-relative relocations. After relocations, we need
-        * to copy the TLS images again in case they had relocs. */
-       tls_size += sizeof(struct pthread) + 4*sizeof(size_t);
-       __libc.tls_size = tls_size;
+       reloc_all(app->next);
+       reloc_all(app);
+
+       update_tls_size();
        if (tls_cnt) {
                struct dso *p;
                void *mem = mmap(0, __libc.tls_size, PROT_READ|PROT_WRITE,
@@ -892,23 +931,11 @@ void *__dynlink(int argc, char **argv)
                if (mem==MAP_FAILED ||
                    !__install_initial_tls(__copy_tls(mem))) {
                        dprintf(2, "%s: Error getting %zu bytes thread-local storage: %m\n",
-                               argv[0], tls_size);
+                               argv[0], __libc.tls_size);
                        _exit(127);
                }
-               for (p=head; p; p=p->next) {
-                       if (!p->tls_id) continue;
-                       p->tls_offset = (char *)__pthread_self()
-                               - (char *)__pthread_self()->dtv[p->tls_id];
-               }
        }
 
-       reloc_all(app->next);
-       reloc_all(app);
-
-       /* The initial DTV is located at the base of the memory
-        * allocated for TLS. Repeat copying TLS to pick up relocs. */
-       if (tls_cnt) __copy_tls((void *)__pthread_self()->dtv);
-
        if (ldso_fail) _exit(127);
        if (ldd_mode) _exit(0);
 
@@ -932,6 +959,7 @@ void *__dynlink(int argc, char **argv)
 
        if (ssp_used) __init_ssp(auxv);
 
+       atexit(do_fini);
        do_init_fini(tail);
 
        errno = 0;
@@ -941,7 +969,7 @@ void *__dynlink(int argc, char **argv)
 void *dlopen(const char *file, int mode)
 {
        struct dso *volatile p, *orig_tail, *next;
-       size_t orig_tls_cnt;
+       size_t orig_tls_cnt, orig_tls_offset, orig_tls_align;
        size_t i;
        int cs;
 
@@ -953,6 +981,8 @@ void *dlopen(const char *file, int mode)
 
        p = 0;
        orig_tls_cnt = tls_cnt;
+       orig_tls_offset = tls_offset;
+       orig_tls_align = tls_align;
        orig_tail = tail;
 
        if (setjmp(rtld_fail)) {
@@ -967,7 +997,8 @@ void *dlopen(const char *file, int mode)
                        free(p);
                }
                tls_cnt = orig_tls_cnt;
-               tls_size = __libc.tls_size;
+               tls_offset = orig_tls_offset;
+               tls_align = orig_tls_align;
                tail = orig_tail;
                tail->next = 0;
                p = 0;
@@ -1002,16 +1033,16 @@ void *dlopen(const char *file, int mode)
                p->global = 1;
        }
 
-       __libc.tls_size = tls_size;
+       update_tls_size();
 
        if (ssp_used) __init_ssp(auxv);
 
        _dl_debug_state();
-
-       do_init_fini(tail);
+       orig_tail = tail;
 end:
        __release_ptc();
        pthread_rwlock_unlock(&lock);
+       if (p) do_init_fini(orig_tail);
        pthread_setcancelstate(cs, 0);
        return p;
 }