2005-05-03 Gonzalo Paniagua Javier <gonzalo@ximian.com>
[mono.git] / libgc / pthread_stop_world.c
1 #include "private/pthread_support.h"
2
3 #if defined(GC_PTHREADS) && !defined(GC_SOLARIS_THREADS) \
4      && !defined(GC_IRIX_THREADS) && !defined(GC_WIN32_THREADS) \
5      && !defined(GC_DARWIN_THREADS) && !defined(GC_AIX_THREADS)
6
7 #include <signal.h>
8 #include <semaphore.h>
9 #include <errno.h>
10 #include <unistd.h>
11
12 #if DEBUG_THREADS
13
14 #ifndef NSIG
15 # if defined(MAXSIG)
16 #  define NSIG (MAXSIG+1)
17 # elif defined(_NSIG)
18 #  define NSIG _NSIG
19 # elif defined(__SIGRTMAX)
20 #  define NSIG (__SIGRTMAX+1)
21 # else
22   --> please fix it
23 # endif
24 #endif
25
26 void GC_print_sig_mask()
27 {
28     sigset_t blocked;
29     int i;
30
31     if (pthread_sigmask(SIG_BLOCK, NULL, &blocked) != 0)
32         ABORT("pthread_sigmask");
33     GC_printf0("Blocked: ");
34     for (i = 1; i < NSIG; i++) {
35         if (sigismember(&blocked, i)) { GC_printf1("%ld ",(long) i); }
36     }
37     GC_printf0("\n");
38 }
39
40 #endif
41
42 /* Remove the signals that we want to allow in thread stopping  */
43 /* handler from a set.                                          */
44 void GC_remove_allowed_signals(sigset_t *set)
45 {
46 #   ifdef NO_SIGNALS
47       if (sigdelset(set, SIGINT) != 0
48           || sigdelset(set, SIGQUIT) != 0
49           || sigdelset(set, SIGABRT) != 0
50           || sigdelset(set, SIGTERM) != 0) {
51         ABORT("sigdelset() failed");
52       }
53 #   endif
54
55 #   ifdef MPROTECT_VDB
56       /* Handlers write to the thread structure, which is in the heap,  */
57       /* and hence can trigger a protection fault.                      */
58       if (sigdelset(set, SIGSEGV) != 0
59 #         ifdef SIGBUS
60             || sigdelset(set, SIGBUS) != 0
61 #         endif
62           ) {
63         ABORT("sigdelset() failed");
64       }
65 #   endif
66 }
67
68 static sigset_t suspend_handler_mask;
69
70 word GC_stop_count;     /* Incremented at the beginning of GC_stop_world. */
71
72 #ifdef GC_OSF1_THREADS
73   GC_bool GC_retry_signals = TRUE;
74 #else
75   GC_bool GC_retry_signals = FALSE;
76 #endif
77
78 /*
79  * We use signals to stop threads during GC.
80  * 
81  * Suspended threads wait in signal handler for SIG_THR_RESTART.
82  * That's more portable than semaphores or condition variables.
83  * (We do use sem_post from a signal handler, but that should be portable.)
84  *
85  * The thread suspension signal SIG_SUSPEND is now defined in gc_priv.h.
86  * Note that we can't just stop a thread; we need it to save its stack
87  * pointer(s) and acknowledge.
88  */
89
90 #ifndef SIG_THR_RESTART
91 #  if defined(GC_HPUX_THREADS) || defined(GC_OSF1_THREADS)
92 #    ifdef _SIGRTMIN
93 #      define SIG_THR_RESTART _SIGRTMIN + 5
94 #    else
95 #      define SIG_THR_RESTART SIGRTMIN + 5
96 #    endif
97 #  else
98 #   define SIG_THR_RESTART SIGXCPU
99 #  endif
100 #endif
101
102 sem_t GC_suspend_ack_sem;
103
104 static void _GC_suspend_handler(int sig)
105 {
106     int dummy;
107     pthread_t my_thread = pthread_self();
108     GC_thread me;
109 #   ifdef PARALLEL_MARK
110         word my_mark_no = GC_mark_no;
111         /* Marker can't proceed until we acknowledge.  Thus this is     */
112         /* guaranteed to be the mark_no correspending to our            */
113         /* suspension, i.e. the marker can't have incremented it yet.   */
114 #   endif
115     word my_stop_count = GC_stop_count;
116
117     if (sig != SIG_SUSPEND) ABORT("Bad signal in suspend_handler");
118
119 #if DEBUG_THREADS
120     GC_printf1("Suspending 0x%lx\n", my_thread);
121 #endif
122
123     me = GC_lookup_thread(my_thread);
124     /* The lookup here is safe, since I'm doing this on behalf  */
125     /* of a thread which holds the allocation lock in order     */
126     /* to stop the world.  Thus concurrent modification of the  */
127     /* data structure is impossible.                            */
128     if (me -> stop_info.last_stop_count == my_stop_count) {
129         /* Duplicate signal.  OK if we are retrying.    */
130         if (!GC_retry_signals) {
131             WARN("Duplicate suspend signal in thread %lx\n",
132                  pthread_self());
133         }
134         return;
135     }
136 #   ifdef SPARC
137         me -> stop_info.stack_ptr = (ptr_t)GC_save_regs_in_stack();
138 #   else
139         me -> stop_info.stack_ptr = (ptr_t)(&dummy);
140 #   endif
141 #   ifdef IA64
142         me -> backing_store_ptr = (ptr_t)GC_save_regs_in_stack();
143 #   endif
144
145     /* Tell the thread that wants to stop the world that this   */
146     /* thread has been stopped.  Note that sem_post() is        */
147     /* the only async-signal-safe primitive in LinuxThreads.    */
148     sem_post(&GC_suspend_ack_sem);
149     me -> stop_info.last_stop_count = my_stop_count;
150
151     /* Wait until that thread tells us to restart by sending    */
152     /* this thread a SIG_THR_RESTART signal.                    */
153     /* SIG_THR_RESTART should be masked at this point.  Thus there      */
154     /* is no race.                                              */
155     do {
156             me->stop_info.signal = 0;
157             sigsuspend(&suspend_handler_mask);        /* Wait for signal */
158     } while (me->stop_info.signal != SIG_THR_RESTART);
159     /* If the RESTART signal gets lost, we can still lose.  That should be  */
160     /* less likely than losing the SUSPEND signal, since we don't do much   */
161     /* between the sem_post and sigsuspend.                                 */
162     /* We'd need more handshaking to work around that, since we don't want  */
163     /* to accidentally leave a RESTART signal pending, thus causing us to   */
164     /* continue prematurely in a future round.                              */ 
165
166 #if DEBUG_THREADS
167     GC_printf1("Continuing 0x%lx\n", my_thread);
168 #endif
169 }
170
171 void GC_suspend_handler(int sig)
172 {
173         int old_errno = errno;
174         _GC_suspend_handler(sig);
175         errno = old_errno;
176 }
177
178 static void _GC_restart_handler(int sig)
179 {
180     pthread_t my_thread = pthread_self();
181     GC_thread me;
182
183     if (sig != SIG_THR_RESTART) ABORT("Bad signal in suspend_handler");
184
185     /* Let the GC_suspend_handler() know that we got a SIG_THR_RESTART. */
186     /* The lookup here is safe, since I'm doing this on behalf  */
187     /* of a thread which holds the allocation lock in order     */
188     /* to stop the world.  Thus concurrent modification of the  */
189     /* data structure is impossible.                            */
190     me = GC_lookup_thread(my_thread);
191     me->stop_info.signal = SIG_THR_RESTART;
192
193     /*
194     ** Note: even if we didn't do anything useful here,
195     ** it would still be necessary to have a signal handler,
196     ** rather than ignoring the signals, otherwise
197     ** the signals will not be delivered at all, and
198     ** will thus not interrupt the sigsuspend() above.
199     */
200
201 #if DEBUG_THREADS
202     GC_printf1("In GC_restart_handler for 0x%lx\n", pthread_self());
203 #endif
204 }
205
206 # ifdef IA64
207 #   define IF_IA64(x) x
208 # else
209 #   define IF_IA64(x)
210 # endif
211 /* We hold allocation lock.  Should do exactly the right thing if the   */
212 /* world is stopped.  Should not fail if it isn't.                      */
213 static void pthread_push_all_stacks()
214 {
215     GC_bool found_me = FALSE;
216     int i;
217     GC_thread p;
218     ptr_t lo, hi;
219     /* On IA64, we also need to scan the register backing store. */
220     IF_IA64(ptr_t bs_lo; ptr_t bs_hi;)
221     pthread_t me = pthread_self();
222     
223     if (!GC_thr_initialized) GC_thr_init();
224     #if DEBUG_THREADS
225         GC_printf1("Pushing stacks from thread 0x%lx\n", (unsigned long) me);
226     #endif
227     for (i = 0; i < THREAD_TABLE_SZ; i++) {
228       for (p = GC_threads[i]; p != 0; p = p -> next) {
229         if (p -> flags & FINISHED) continue;
230         if (pthread_equal(p -> id, me)) {
231 #           ifdef SPARC
232                 lo = (ptr_t)GC_save_regs_in_stack();
233 #           else
234                 lo = GC_approx_sp();
235 #           endif
236             found_me = TRUE;
237             IF_IA64(bs_hi = (ptr_t)GC_save_regs_in_stack();)
238         } else {
239             lo = p -> stop_info.stack_ptr;
240             IF_IA64(bs_hi = p -> backing_store_ptr;)
241         }
242         if ((p -> flags & MAIN_THREAD) == 0) {
243             hi = p -> stack_end;
244             IF_IA64(bs_lo = p -> backing_store_end);
245         } else {
246             /* The original stack. */
247             hi = GC_stackbottom;
248             IF_IA64(bs_lo = BACKING_STORE_BASE;)
249         }
250         #if DEBUG_THREADS
251             GC_printf3("Stack for thread 0x%lx = [%lx,%lx)\n",
252                 (unsigned long) p -> id,
253                 (unsigned long) lo, (unsigned long) hi);
254         #endif
255         if (0 == lo) ABORT("GC_push_all_stacks: sp not set!\n");
256 #       ifdef STACK_GROWS_UP
257           /* We got them backwards! */
258           GC_push_all_stack(hi, lo);
259 #       else
260           GC_push_all_stack(lo, hi);
261 #       endif
262 #       ifdef IA64
263 #         if DEBUG_THREADS
264             GC_printf3("Reg stack for thread 0x%lx = [%lx,%lx)\n",
265                 (unsigned long) p -> id,
266                 (unsigned long) bs_lo, (unsigned long) bs_hi);
267 #         endif
268           if (pthread_equal(p -> id, me)) {
269             GC_push_all_eager(bs_lo, bs_hi);
270           } else {
271             GC_push_all_stack(bs_lo, bs_hi);
272           }
273 #       endif
274       }
275     }
276     if (!found_me && !GC_in_thread_creation)
277       ABORT("Collecting from unknown thread.");
278 }
279
280 void GC_restart_handler(int sig)
281 {
282         int old_errno = errno;
283         _GC_restart_handler (sig);
284         errno = old_errno;
285 }
286
287 /* We hold allocation lock.  Should do exactly the right thing if the   */
288 /* world is stopped.  Should not fail if it isn't.                      */
289 void GC_push_all_stacks()
290 {
291     gc_thread_vtable->push_all_stacks();
292 }
293
294 /* There seems to be a very rare thread stopping problem.  To help us  */
295 /* debug that, we save the ids of the stopping thread. */
296 pthread_t GC_stopping_thread;
297 int GC_stopping_pid;
298
299 /* We hold the allocation lock.  Suspend all threads that might */
300 /* still be running.  Return the number of suspend signals that */
301 /* were sent. */
302 int GC_suspend_all()
303 {
304     int n_live_threads = 0;
305     int i;
306     GC_thread p;
307     int result;
308     pthread_t my_thread = pthread_self();
309     
310     GC_stopping_thread = my_thread;    /* debugging only.      */
311     GC_stopping_pid = getpid();                /* debugging only.      */
312     for (i = 0; i < THREAD_TABLE_SZ; i++) {
313       for (p = GC_threads[i]; p != 0; p = p -> next) {
314         if (p -> id != my_thread) {
315             if (p -> flags & FINISHED) continue;
316             if (p -> stop_info.last_stop_count == GC_stop_count) continue;
317             if (p -> thread_blocked) /* Will wait */ continue;
318             n_live_threads++;
319             #if DEBUG_THREADS
320               GC_printf1("Sending suspend signal to 0x%lx\n", p -> id);
321             #endif
322         
323         result = pthread_kill(p -> id, SIG_SUSPEND);
324             switch(result) {
325                 case ESRCH:
326                     /* Not really there anymore.  Possible? */
327                     n_live_threads--;
328                     break;
329                 case 0:
330                     break;
331                 default:
332                     ABORT("pthread_kill failed");
333             }
334         }
335       }
336     }
337     return n_live_threads;
338 }
339
340 /* Caller holds allocation lock.        */
341 static void pthread_stop_world()
342 {
343     int i;
344     int n_live_threads;
345     int code;
346
347     #if DEBUG_THREADS
348     GC_printf1("Stopping the world from 0x%lx\n", pthread_self());
349     #endif
350        
351     n_live_threads = GC_suspend_all();
352
353       if (GC_retry_signals) {
354           unsigned long wait_usecs = 0;  /* Total wait since retry.     */
355 #         define WAIT_UNIT 3000
356 #         define RETRY_INTERVAL 100000
357           for (;;) {
358               int ack_count;
359
360               sem_getvalue(&GC_suspend_ack_sem, &ack_count);
361               if (ack_count == n_live_threads) break;
362               if (wait_usecs > RETRY_INTERVAL) {
363                   int newly_sent = GC_suspend_all();
364
365 #                 ifdef CONDPRINT
366                     if (GC_print_stats) {
367                       GC_printf1("Resent %ld signals after timeout\n",
368                                  newly_sent);
369                     }
370 #                 endif
371                   sem_getvalue(&GC_suspend_ack_sem, &ack_count);
372                   if (newly_sent < n_live_threads - ack_count) {
373                       WARN("Lost some threads during GC_stop_world?!\n",0);
374                       n_live_threads = ack_count + newly_sent;
375                   }
376                   wait_usecs = 0;
377               }
378               usleep(WAIT_UNIT);
379               wait_usecs += WAIT_UNIT;
380           }
381       }
382     for (i = 0; i < n_live_threads; i++) {
383           while (0 != (code = sem_wait(&GC_suspend_ack_sem))) {
384               if (errno != EINTR) {
385                  GC_err_printf1("Sem_wait returned %ld\n", (unsigned long)code);
386                  ABORT("sem_wait for handler failed");
387               }
388           }
389     }
390     #if DEBUG_THREADS
391       GC_printf1("World stopped from 0x%lx\n", pthread_self());
392     #endif
393     GC_stopping_thread = 0;  /* debugging only */
394 }
395
396 /* Caller holds allocation lock.        */
397 void GC_stop_world()
398 {
399     /* Make sure all free list construction has stopped before we start. */
400     /* No new construction can start, since free list construction is   */
401     /* required to acquire and release the GC lock before it starts,    */
402     /* and we have the lock.                                            */
403 #   ifdef PARALLEL_MARK
404       GC_acquire_mark_lock();
405       GC_ASSERT(GC_fl_builder_count == 0);
406       /* We should have previously waited for it to become zero. */
407 #   endif /* PARALLEL_MARK */
408     ++GC_stop_count;
409     gc_thread_vtable->stop_world ();
410 #   ifdef PARALLEL_MARK
411       GC_release_mark_lock();
412 #   endif
413 }
414
415 /* Caller holds allocation lock, and has held it continuously since     */
416 /* the world stopped.                                                   */
417 static void pthread_start_world()
418 {
419     pthread_t my_thread = pthread_self();
420     register int i;
421     register GC_thread p;
422     register int n_live_threads = 0;
423     register int result;
424
425 #   if DEBUG_THREADS
426       GC_printf0("World starting\n");
427 #   endif
428
429     for (i = 0; i < THREAD_TABLE_SZ; i++) {
430       for (p = GC_threads[i]; p != 0; p = p -> next) {
431         if (p -> id != my_thread) {
432             if (p -> flags & FINISHED) continue;
433             if (p -> thread_blocked) continue;
434             n_live_threads++;
435             #if DEBUG_THREADS
436               GC_printf1("Sending restart signal to 0x%lx\n", p -> id);
437             #endif
438         
439         result = pthread_kill(p -> id, SIG_THR_RESTART);
440             switch(result) {
441                 case ESRCH:
442                     /* Not really there anymore.  Possible? */
443                     n_live_threads--;
444                     break;
445                 case 0:
446                     break;
447                 default:
448                     ABORT("pthread_kill failed");
449             }
450         }
451       }
452     }
453     #if DEBUG_THREADS
454       GC_printf0("World started\n");
455     #endif
456 }
457
458 void GC_start_world()
459 {
460     gc_thread_vtable->start_world();
461 }
462
463 static void pthread_stop_init() {
464     struct sigaction act;
465     
466     if (sem_init(&GC_suspend_ack_sem, 0, 0) != 0)
467         ABORT("sem_init failed");
468
469     act.sa_flags = SA_RESTART;
470     if (sigfillset(&act.sa_mask) != 0) {
471         ABORT("sigfillset() failed");
472     }
473     GC_remove_allowed_signals(&act.sa_mask);
474     /* SIG_THR_RESTART is set in the resulting mask.            */
475     /* It is unmasked by the handler when necessary.            */
476     act.sa_handler = GC_suspend_handler;
477     if (sigaction(SIG_SUSPEND, &act, NULL) != 0) {
478         ABORT("Cannot set SIG_SUSPEND handler");
479     }
480
481     act.sa_handler = GC_restart_handler;
482     if (sigaction(SIG_THR_RESTART, &act, NULL) != 0) {
483         ABORT("Cannot set SIG_THR_RESTART handler");
484     }
485
486     /* Inititialize suspend_handler_mask. It excludes SIG_THR_RESTART. */
487       if (sigfillset(&suspend_handler_mask) != 0) ABORT("sigfillset() failed");
488       GC_remove_allowed_signals(&suspend_handler_mask);
489       if (sigdelset(&suspend_handler_mask, SIG_THR_RESTART) != 0)
490           ABORT("sigdelset() failed");
491
492     /* Check for GC_RETRY_SIGNALS.      */
493       if (0 != GETENV("GC_RETRY_SIGNALS")) {
494           GC_retry_signals = TRUE;
495       }
496       if (0 != GETENV("GC_NO_RETRY_SIGNALS")) {
497           GC_retry_signals = FALSE;
498       }
499 #     ifdef CONDPRINT
500           if (GC_print_stats && GC_retry_signals) {
501               GC_printf0("Will retry suspend signal if necessary.\n");
502           }
503 #     endif
504 }
505
506 /* We hold the allocation lock. */
507 void GC_stop_init()
508 {
509     gc_thread_vtable->initialize ();
510 }
511
512 /*
513  * This is used by the Mono Debugger to stop/start the world.
514  */
515 GCThreadFunctions pthread_thread_vtable = {
516     pthread_stop_init,
517  
518     pthread_stop_world,
519     pthread_push_all_stacks,
520     pthread_start_world
521 };
522
523 GCThreadFunctions *gc_thread_vtable = &pthread_thread_vtable;
524
525 #endif