[dtrace] Allocation of TLABs. Allocation of objects directly from nursery.
[mono.git] / mono / metadata / sgen-alloc.c
1 /*
2  * sgen-alloc.c: Object allocation routines + managed allocators
3  *
4  * Author:
5  *      Paolo Molaro (lupus@ximian.com)
6  *  Rodrigo Kumpera (kumpera@gmail.com)
7  *
8  * Copyright 2005-2011 Novell, Inc (http://www.novell.com)
9  * Copyright 2011 Xamarin Inc (http://www.xamarin.com)
10  * Copyright 2011 Xamarin, Inc.
11  *
12  * Permission is hereby granted, free of charge, to any person obtaining
13  * a copy of this software and associated documentation files (the
14  * "Software"), to deal in the Software without restriction, including
15  * without limitation the rights to use, copy, modify, merge, publish,
16  * distribute, sublicense, and/or sell copies of the Software, and to
17  * permit persons to whom the Software is furnished to do so, subject to
18  * the following conditions:
19  * 
20  * The above copyright notice and this permission notice shall be
21  * included in all copies or substantial portions of the Software.
22  * 
23  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
24  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
25  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
26  * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
27  * LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
28  * OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
29  * WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
30  */
31
32 /*
33  * ######################################################################
34  * ########  Object allocation
35  * ######################################################################
36  * This section of code deals with allocating memory for objects.
37  * There are several ways:
38  * *) allocate large objects
39  * *) allocate normal objects
40  * *) fast lock-free allocation
41  * *) allocation of pinned objects
42  */
43
44 #include "config.h"
45 #ifdef HAVE_SGEN_GC
46
47 #include "metadata/sgen-gc.h"
48 #include "metadata/sgen-protocol.h"
49 #include "metadata/sgen-memory-governor.h"
50 #include "metadata/profiler-private.h"
51 #include "metadata/marshal.h"
52 #include "metadata/method-builder.h"
53 #include "utils/mono-memory-model.h"
54 #include "utils/mono-counters.h"
55
56 #define ALIGN_UP                SGEN_ALIGN_UP
57 #define ALLOC_ALIGN             SGEN_ALLOC_ALIGN
58 #define ALLOC_ALIGN_BITS        SGEN_ALLOC_ALIGN_BITS
59 #define MAX_SMALL_OBJ_SIZE      SGEN_MAX_SMALL_OBJ_SIZE
60 #define ALIGN_TO(val,align) ((((guint64)val) + ((align) - 1)) & ~((align) - 1))
61
62 #define OPDEF(a,b,c,d,e,f,g,h,i,j) \
63         a = i,
64
65 enum {
66 #include "mono/cil/opcode.def"
67         CEE_LAST
68 };
69
70 #undef OPDEF
71
72 #ifdef HEAVY_STATISTICS
73 static long long stat_objects_alloced = 0;
74 static long long stat_bytes_alloced = 0;
75 static long long stat_bytes_alloced_los = 0;
76
77 #endif
78
79 /*
80  * Allocation is done from a Thread Local Allocation Buffer (TLAB). TLABs are allocated
81  * from nursery fragments.
82  * tlab_next is the pointer to the space inside the TLAB where the next object will 
83  * be allocated.
84  * tlab_temp_end is the pointer to the end of the temporary space reserved for
85  * the allocation: it allows us to set the scan starts at reasonable intervals.
86  * tlab_real_end points to the end of the TLAB.
87  */
88
89 /*
90  * FIXME: What is faster, a TLS variable pointing to a structure, or separate TLS 
91  * variables for next+temp_end ?
92  */
93 #ifdef HAVE_KW_THREAD
94 static __thread char *tlab_start;
95 static __thread char *tlab_next;
96 static __thread char *tlab_temp_end;
97 static __thread char *tlab_real_end;
98 /* Used by the managed allocator/wbarrier */
99 static __thread char **tlab_next_addr;
100 #endif
101
102 #ifdef HAVE_KW_THREAD
103 #define TLAB_START      tlab_start
104 #define TLAB_NEXT       tlab_next
105 #define TLAB_TEMP_END   tlab_temp_end
106 #define TLAB_REAL_END   tlab_real_end
107 #else
108 #define TLAB_START      (__thread_info__->tlab_start)
109 #define TLAB_NEXT       (__thread_info__->tlab_next)
110 #define TLAB_TEMP_END   (__thread_info__->tlab_temp_end)
111 #define TLAB_REAL_END   (__thread_info__->tlab_real_end)
112 #endif
113
114 static void*
115 alloc_degraded (MonoVTable *vtable, size_t size, gboolean for_mature)
116 {
117         static int last_major_gc_warned = -1;
118         static int num_degraded = 0;
119
120         if (!for_mature) {
121                 if (last_major_gc_warned < stat_major_gcs) {
122                         ++num_degraded;
123                         if (num_degraded == 1 || num_degraded == 3)
124                                 fprintf (stderr, "Warning: Degraded allocation.  Consider increasing nursery-size if the warning persists.\n");
125                         else if (num_degraded == 10)
126                                 fprintf (stderr, "Warning: Repeated degraded allocation.  Consider increasing nursery-size.\n");
127                         last_major_gc_warned = stat_major_gcs;
128                 }
129                 InterlockedExchangeAdd (&degraded_mode, size);
130         }
131
132         sgen_ensure_free_space (size);
133
134         return major_collector.alloc_degraded (vtable, size);
135 }
136
137 /*
138  * Provide a variant that takes just the vtable for small fixed-size objects.
139  * The aligned size is already computed and stored in vt->gc_descr.
140  * Note: every SGEN_SCAN_START_SIZE or so we are given the chance to do some special
141  * processing. We can keep track of where objects start, for example,
142  * so when we scan the thread stacks for pinned objects, we can start
143  * a search for the pinned object in SGEN_SCAN_START_SIZE chunks.
144  */
145 static void*
146 mono_gc_alloc_obj_nolock (MonoVTable *vtable, size_t size)
147 {
148         /* FIXME: handle OOM */
149         void **p;
150         char *new_next;
151         TLAB_ACCESS_INIT;
152
153         HEAVY_STAT (++stat_objects_alloced);
154         if (size <= SGEN_MAX_SMALL_OBJ_SIZE)
155                 HEAVY_STAT (stat_bytes_alloced += size);
156         else
157                 HEAVY_STAT (stat_bytes_alloced_los += size);
158
159         size = ALIGN_UP (size);
160
161         g_assert (vtable->gc_descr);
162
163         if (G_UNLIKELY (has_per_allocation_action)) {
164                 static int alloc_count;
165                 int current_alloc = InterlockedIncrement (&alloc_count);
166
167                 if (collect_before_allocs) {
168                         if (((current_alloc % collect_before_allocs) == 0) && nursery_section) {
169                                 sgen_perform_collection (0, GENERATION_NURSERY, "collect-before-alloc-triggered");
170                                 if (!degraded_mode && sgen_can_alloc_size (size) && size <= SGEN_MAX_SMALL_OBJ_SIZE) {
171                                         // FIXME:
172                                         g_assert_not_reached ();
173                                 }
174                         }
175                 } else if (verify_before_allocs) {
176                         if ((current_alloc % verify_before_allocs) == 0)
177                                 sgen_check_whole_heap_stw ();
178                 }
179         }
180
181         /*
182          * We must already have the lock here instead of after the
183          * fast path because we might be interrupted in the fast path
184          * (after confirming that new_next < TLAB_TEMP_END) by the GC,
185          * and we'll end up allocating an object in a fragment which
186          * no longer belongs to us.
187          *
188          * The managed allocator does not do this, but it's treated
189          * specially by the world-stopping code.
190          */
191
192         if (size > SGEN_MAX_SMALL_OBJ_SIZE) {
193                 p = sgen_los_alloc_large_inner (vtable, size);
194         } else {
195                 /* tlab_next and tlab_temp_end are TLS vars so accessing them might be expensive */
196
197                 p = (void**)TLAB_NEXT;
198                 /* FIXME: handle overflow */
199                 new_next = (char*)p + size;
200                 TLAB_NEXT = new_next;
201
202                 if (G_LIKELY (new_next < TLAB_TEMP_END)) {
203                         /* Fast path */
204
205                         /* 
206                          * FIXME: We might need a memory barrier here so the change to tlab_next is 
207                          * visible before the vtable store.
208                          */
209
210                         DEBUG (6, fprintf (gc_debug_file, "Allocated object %p, vtable: %p (%s), size: %zd\n", p, vtable, vtable->klass->name, size));
211                         binary_protocol_alloc (p , vtable, size);
212                         g_assert (*p == NULL);
213                         mono_atomic_store_seq (p, vtable);
214
215                         return p;
216                 }
217
218                 /* Slow path */
219
220                 /* there are two cases: the object is too big or we run out of space in the TLAB */
221                 /* we also reach here when the thread does its first allocation after a minor 
222                  * collection, since the tlab_ variables are initialized to NULL.
223                  * there can be another case (from ORP), if we cooperate with the runtime a bit:
224                  * objects that need finalizers can have the high bit set in their size
225                  * so the above check fails and we can readily add the object to the queue.
226                  * This avoids taking again the GC lock when registering, but this is moot when
227                  * doing thread-local allocation, so it may not be a good idea.
228                  */
229                 if (TLAB_NEXT >= TLAB_REAL_END) {
230                         int available_in_tlab;
231                         /* 
232                          * Run out of space in the TLAB. When this happens, some amount of space
233                          * remains in the TLAB, but not enough to satisfy the current allocation
234                          * request. Currently, we retire the TLAB in all cases, later we could
235                          * keep it if the remaining space is above a treshold, and satisfy the
236                          * allocation directly from the nursery.
237                          */
238                         TLAB_NEXT -= size;
239                         /* when running in degraded mode, we continue allocing that way
240                          * for a while, to decrease the number of useless nursery collections.
241                          */
242                         if (degraded_mode && degraded_mode < DEFAULT_NURSERY_SIZE) {
243                                 p = alloc_degraded (vtable, size, FALSE);
244                                 binary_protocol_alloc_degraded (p, vtable, size);
245                                 return p;
246                         }
247
248                         available_in_tlab = TLAB_REAL_END - TLAB_NEXT;
249                         if (size > tlab_size || available_in_tlab > SGEN_MAX_NURSERY_WASTE) {
250                                 /* Allocate directly from the nursery */
251                                 do {
252                                         p = sgen_nursery_alloc (size);
253                                         if (!p) {
254                                                 sgen_ensure_free_space (size);
255                                                 if (degraded_mode) {
256                                                         p = alloc_degraded (vtable, size, FALSE);
257                                                         binary_protocol_alloc_degraded (p, vtable, size);
258                                                         return p;
259                                                 } else {
260                                                         p = sgen_nursery_alloc (size);
261                                                 }
262                                         }
263                                 } while (!p);
264                                 if (!p) {
265                                         // no space left
266                                         g_assert (0);
267                                 }
268                                 if (p)
269                                         MONO_GC_NURSERY_OBJ_ALLOC (p, size, NULL);
270
271                                 if (nursery_clear_policy == CLEAR_AT_TLAB_CREATION) {
272                                         memset (p, 0, size);
273                                 }
274                         } else {
275                                 size_t alloc_size = 0;
276                                 if (TLAB_START)
277                                         DEBUG (3, fprintf (gc_debug_file, "Retire TLAB: %p-%p [%ld]\n", TLAB_START, TLAB_REAL_END, (long)(TLAB_REAL_END - TLAB_NEXT - size)));
278                                 sgen_nursery_retire_region (p, available_in_tlab);
279
280                                 do {
281                                         p = sgen_nursery_alloc_range (tlab_size, size, &alloc_size);
282                                         if (!p) {
283                                                 sgen_ensure_free_space (tlab_size);
284                                                 if (degraded_mode) {
285                                                         p = alloc_degraded (vtable, size, FALSE);
286                                                         binary_protocol_alloc_degraded (p, vtable, size);
287                                                         return p;
288                                                 } else {
289                                                         p = sgen_nursery_alloc_range (tlab_size, size, &alloc_size);
290                                                 }               
291                                         }
292                                 } while (!p);
293                                         
294                                 if (!p) {
295                                         // no space left
296                                         g_assert (0);
297                                 }
298
299                                 /* Allocate a new TLAB from the current nursery fragment */
300                                 TLAB_START = (char*)p;
301                                 TLAB_NEXT = TLAB_START;
302                                 TLAB_REAL_END = TLAB_START + alloc_size;
303                                 TLAB_TEMP_END = TLAB_START + MIN (SGEN_SCAN_START_SIZE, alloc_size);
304
305                                 if (nursery_clear_policy == CLEAR_AT_TLAB_CREATION) {
306                                         memset (TLAB_START, 0, alloc_size);
307                                 }
308
309                                 MONO_GC_NURSERY_TLAB_ALLOC (p, alloc_size);
310
311                                 /* Allocate from the TLAB */
312                                 p = (void*)TLAB_NEXT;
313                                 TLAB_NEXT += size;
314                                 sgen_set_nursery_scan_start ((char*)p);
315                         }
316                 } else {
317                         /* Reached tlab_temp_end */
318
319                         /* record the scan start so we can find pinned objects more easily */
320                         sgen_set_nursery_scan_start ((char*)p);
321                         /* we just bump tlab_temp_end as well */
322                         TLAB_TEMP_END = MIN (TLAB_REAL_END, TLAB_NEXT + SGEN_SCAN_START_SIZE);
323                         DEBUG (5, fprintf (gc_debug_file, "Expanding local alloc: %p-%p\n", TLAB_NEXT, TLAB_TEMP_END));
324                 }
325         }
326
327         if (G_LIKELY (p)) {
328                 DEBUG (6, fprintf (gc_debug_file, "Allocated object %p, vtable: %p (%s), size: %zd\n", p, vtable, vtable->klass->name, size));
329                 binary_protocol_alloc (p, vtable, size);
330                 mono_atomic_store_seq (p, vtable);
331         }
332
333         return p;
334 }
335
336 static void*
337 mono_gc_try_alloc_obj_nolock (MonoVTable *vtable, size_t size)
338 {
339         void **p;
340         char *new_next;
341         TLAB_ACCESS_INIT;
342
343         size = ALIGN_UP (size);
344
345         g_assert (vtable->gc_descr);
346         if (size > SGEN_MAX_SMALL_OBJ_SIZE)
347                 return NULL;
348
349         if (G_UNLIKELY (size > tlab_size)) {
350                 /* Allocate directly from the nursery */
351                 p = sgen_nursery_alloc (size);
352                 if (!p)
353                         return NULL;
354                 MONO_GC_NURSERY_OBJ_ALLOC (p, size, NULL);
355                 sgen_set_nursery_scan_start ((char*)p);
356
357                 /*FIXME we should use weak memory ops here. Should help specially on x86. */
358                 if (nursery_clear_policy == CLEAR_AT_TLAB_CREATION)
359                         memset (p, 0, size);
360         } else {
361                 int available_in_tlab;
362                 char *real_end;
363                 /* tlab_next and tlab_temp_end are TLS vars so accessing them might be expensive */
364
365                 p = (void**)TLAB_NEXT;
366                 /* FIXME: handle overflow */
367                 new_next = (char*)p + size;
368
369                 real_end = TLAB_REAL_END;
370                 available_in_tlab = real_end - (char*)p;
371
372                 if (G_LIKELY (new_next < real_end)) {
373                         TLAB_NEXT = new_next;
374
375                         /* Second case, we overflowed temp end */
376                         if (G_UNLIKELY (new_next >= TLAB_TEMP_END)) {
377                                 sgen_set_nursery_scan_start (new_next);
378                                 /* we just bump tlab_temp_end as well */
379                                 TLAB_TEMP_END = MIN (TLAB_REAL_END, TLAB_NEXT + SGEN_SCAN_START_SIZE);
380                                 DEBUG (5, fprintf (gc_debug_file, "Expanding local alloc: %p-%p\n", TLAB_NEXT, TLAB_TEMP_END));         
381                         }
382                 } else if (available_in_tlab > SGEN_MAX_NURSERY_WASTE) {
383                         /* Allocate directly from the nursery */
384                         p = sgen_nursery_alloc (size);
385                         if (!p)
386                                 return NULL;
387                         MONO_GC_NURSERY_OBJ_ALLOC (p, size, NULL);
388
389                         if (nursery_clear_policy == CLEAR_AT_TLAB_CREATION)
390                                 memset (p, 0, size);                    
391                 } else {
392                         size_t alloc_size = 0;
393
394                         sgen_nursery_retire_region (p, available_in_tlab);
395                         new_next = sgen_nursery_alloc_range (tlab_size, size, &alloc_size);
396                         p = (void**)new_next;
397                         if (!p)
398                                 return NULL;
399
400                         TLAB_START = (char*)new_next;
401                         TLAB_NEXT = new_next + size;
402                         TLAB_REAL_END = new_next + alloc_size;
403                         TLAB_TEMP_END = new_next + MIN (SGEN_SCAN_START_SIZE, alloc_size);
404                         sgen_set_nursery_scan_start ((char*)p);
405
406                         if (nursery_clear_policy == CLEAR_AT_TLAB_CREATION)
407                                 memset (new_next, 0, alloc_size);
408
409                         MONO_GC_NURSERY_TLAB_ALLOC (new_next, alloc_size);
410                 }
411         }
412
413         HEAVY_STAT (++stat_objects_alloced);
414         HEAVY_STAT (stat_bytes_alloced += size);
415
416         DEBUG (6, fprintf (gc_debug_file, "Allocated object %p, vtable: %p (%s), size: %zd\n", p, vtable, vtable->klass->name, size));
417         binary_protocol_alloc (p, vtable, size);
418         g_assert (*p == NULL); /* FIXME disable this in non debug builds */
419
420         mono_atomic_store_seq (p, vtable);
421
422         return p;
423 }
424
425 void*
426 mono_gc_alloc_obj (MonoVTable *vtable, size_t size)
427 {
428         void *res;
429 #ifndef DISABLE_CRITICAL_REGION
430         TLAB_ACCESS_INIT;
431         ENTER_CRITICAL_REGION;
432         res = mono_gc_try_alloc_obj_nolock (vtable, size);
433         if (res) {
434                 EXIT_CRITICAL_REGION;
435                 return res;
436         }
437         EXIT_CRITICAL_REGION;
438 #endif
439         LOCK_GC;
440         res = mono_gc_alloc_obj_nolock (vtable, size);
441         UNLOCK_GC;
442         if (G_UNLIKELY (!res))
443                 return mono_gc_out_of_memory (size);
444         return res;
445 }
446
447 void*
448 mono_gc_alloc_vector (MonoVTable *vtable, size_t size, uintptr_t max_length)
449 {
450         MonoArray *arr;
451 #ifndef DISABLE_CRITICAL_REGION
452         TLAB_ACCESS_INIT;
453         ENTER_CRITICAL_REGION;
454         arr = mono_gc_try_alloc_obj_nolock (vtable, size);
455         if (arr) {
456                 /*This doesn't require fencing since EXIT_CRITICAL_REGION already does it for us*/
457                 arr->max_length = max_length;
458                 EXIT_CRITICAL_REGION;
459                 return arr;
460         }
461         EXIT_CRITICAL_REGION;
462 #endif
463
464         LOCK_GC;
465
466         arr = mono_gc_alloc_obj_nolock (vtable, size);
467         if (G_UNLIKELY (!arr)) {
468                 UNLOCK_GC;
469                 return mono_gc_out_of_memory (size);
470         }
471
472         arr->max_length = max_length;
473
474         UNLOCK_GC;
475
476         return arr;
477 }
478
479 void*
480 mono_gc_alloc_array (MonoVTable *vtable, size_t size, uintptr_t max_length, uintptr_t bounds_size)
481 {
482         MonoArray *arr;
483         MonoArrayBounds *bounds;
484
485 #ifndef DISABLE_CRITICAL_REGION
486         TLAB_ACCESS_INIT;
487         ENTER_CRITICAL_REGION;
488         arr = mono_gc_try_alloc_obj_nolock (vtable, size);
489         if (arr) {
490                 /*This doesn't require fencing since EXIT_CRITICAL_REGION already does it for us*/
491                 arr->max_length = max_length;
492
493                 bounds = (MonoArrayBounds*)((char*)arr + size - bounds_size);
494                 arr->bounds = bounds;
495                 EXIT_CRITICAL_REGION;
496                 return arr;
497         }
498         EXIT_CRITICAL_REGION;
499 #endif
500
501         LOCK_GC;
502
503         arr = mono_gc_alloc_obj_nolock (vtable, size);
504         if (G_UNLIKELY (!arr)) {
505                 UNLOCK_GC;
506                 return mono_gc_out_of_memory (size);
507         }
508
509         arr->max_length = max_length;
510
511         bounds = (MonoArrayBounds*)((char*)arr + size - bounds_size);
512         arr->bounds = bounds;
513
514         UNLOCK_GC;
515
516         return arr;
517 }
518
519 void*
520 mono_gc_alloc_string (MonoVTable *vtable, size_t size, gint32 len)
521 {
522         MonoString *str;
523 #ifndef DISABLE_CRITICAL_REGION
524         TLAB_ACCESS_INIT;
525         ENTER_CRITICAL_REGION;
526         str = mono_gc_try_alloc_obj_nolock (vtable, size);
527         if (str) {
528                 /*This doesn't require fencing since EXIT_CRITICAL_REGION already does it for us*/
529                 str->length = len;
530                 EXIT_CRITICAL_REGION;
531                 return str;
532         }
533         EXIT_CRITICAL_REGION;
534 #endif
535
536         LOCK_GC;
537
538         str = mono_gc_alloc_obj_nolock (vtable, size);
539         if (G_UNLIKELY (!str)) {
540                 UNLOCK_GC;
541                 return mono_gc_out_of_memory (size);
542         }
543
544         str->length = len;
545
546         UNLOCK_GC;
547
548         return str;
549 }
550
551 /*
552  * To be used for interned strings and possibly MonoThread, reflection handles.
553  * We may want to explicitly free these objects.
554  */
555 void*
556 mono_gc_alloc_pinned_obj (MonoVTable *vtable, size_t size)
557 {
558         void **p;
559         size = ALIGN_UP (size);
560         LOCK_GC;
561
562         if (size > SGEN_MAX_SMALL_OBJ_SIZE) {
563                 /* large objects are always pinned anyway */
564                 p = sgen_los_alloc_large_inner (vtable, size);
565         } else {
566                 DEBUG (9, g_assert (vtable->klass->inited));
567                 p = major_collector.alloc_small_pinned_obj (size, SGEN_VTABLE_HAS_REFERENCES (vtable));
568         }
569         if (G_LIKELY (p)) {
570                 DEBUG (6, fprintf (gc_debug_file, "Allocated pinned object %p, vtable: %p (%s), size: %zd\n", p, vtable, vtable->klass->name, size));
571                 binary_protocol_alloc_pinned (p, vtable, size);
572                 mono_atomic_store_seq (p, vtable);
573         }
574         UNLOCK_GC;
575         return p;
576 }
577
578 void*
579 mono_gc_alloc_mature (MonoVTable *vtable)
580 {
581         void **res;
582         size_t size = ALIGN_UP (vtable->klass->instance_size);
583         LOCK_GC;
584         res = alloc_degraded (vtable, size, TRUE);
585         mono_atomic_store_seq (res, vtable);
586         UNLOCK_GC;
587         if (G_UNLIKELY (vtable->klass->has_finalize))
588                 mono_object_register_finalizer ((MonoObject*)res);
589
590         return res;
591 }
592
593 void*
594 mono_gc_alloc_fixed (size_t size, void *descr)
595 {
596         /* FIXME: do a single allocation */
597         void *res = calloc (1, size);
598         if (!res)
599                 return NULL;
600         if (!mono_gc_register_root (res, size, descr)) {
601                 free (res);
602                 res = NULL;
603         }
604         return res;
605 }
606
607 void
608 mono_gc_free_fixed (void* addr)
609 {
610         mono_gc_deregister_root (addr);
611         free (addr);
612 }
613
614 void
615 sgen_init_tlab_info (SgenThreadInfo* info)
616 {
617 #ifndef HAVE_KW_THREAD
618         SgenThreadInfo *__thread_info__ = info;
619 #endif
620
621         info->tlab_start_addr = &TLAB_START;
622         info->tlab_next_addr = &TLAB_NEXT;
623         info->tlab_temp_end_addr = &TLAB_TEMP_END;
624         info->tlab_real_end_addr = &TLAB_REAL_END;
625
626 #ifdef HAVE_KW_THREAD
627         tlab_next_addr = &tlab_next;
628 #endif
629 }
630
631 /*
632  * Clear the thread local TLAB variables for all threads.
633  */
634 void
635 sgen_clear_tlabs (void)
636 {
637         SgenThreadInfo *info;
638
639         FOREACH_THREAD (info) {
640                 /* A new TLAB will be allocated when the thread does its first allocation */
641                 *info->tlab_start_addr = NULL;
642                 *info->tlab_next_addr = NULL;
643                 *info->tlab_temp_end_addr = NULL;
644                 *info->tlab_real_end_addr = NULL;
645         } END_FOREACH_THREAD
646 }
647
648 static MonoMethod* alloc_method_cache [ATYPE_NUM];
649
650 #ifdef MANAGED_ALLOCATION
651 /* FIXME: Do this in the JIT, where specialized allocation sequences can be created
652  * for each class. This is currently not easy to do, as it is hard to generate basic 
653  * blocks + branches, but it is easy with the linear IL codebase.
654  *
655  * For this to work we'd need to solve the TLAB race, first.  Now we
656  * require the allocator to be in a few known methods to make sure
657  * that they are executed atomically via the restart mechanism.
658  */
659 static MonoMethod*
660 create_allocator (int atype)
661 {
662         int p_var, size_var;
663         guint32 slowpath_branch, max_size_branch;
664         MonoMethodBuilder *mb;
665         MonoMethod *res;
666         MonoMethodSignature *csig;
667         static gboolean registered = FALSE;
668         int tlab_next_addr_var, new_next_var;
669         int num_params, i;
670         const char *name = NULL;
671         AllocatorWrapperInfo *info;
672
673 #ifdef HAVE_KW_THREAD
674         int tlab_next_addr_offset = -1;
675         int tlab_temp_end_offset = -1;
676
677         MONO_THREAD_VAR_OFFSET (tlab_next_addr, tlab_next_addr_offset);
678         MONO_THREAD_VAR_OFFSET (tlab_temp_end, tlab_temp_end_offset);
679
680         g_assert (tlab_next_addr_offset != -1);
681         g_assert (tlab_temp_end_offset != -1);
682 #endif
683
684         if (!registered) {
685                 mono_register_jit_icall (mono_gc_alloc_obj, "mono_gc_alloc_obj", mono_create_icall_signature ("object ptr int"), FALSE);
686                 mono_register_jit_icall (mono_gc_alloc_vector, "mono_gc_alloc_vector", mono_create_icall_signature ("object ptr int int"), FALSE);
687                 registered = TRUE;
688         }
689
690         if (atype == ATYPE_SMALL) {
691                 num_params = 1;
692                 name = "AllocSmall";
693         } else if (atype == ATYPE_NORMAL) {
694                 num_params = 1;
695                 name = "Alloc";
696         } else if (atype == ATYPE_VECTOR) {
697                 num_params = 2;
698                 name = "AllocVector";
699         } else {
700                 g_assert_not_reached ();
701         }
702
703         csig = mono_metadata_signature_alloc (mono_defaults.corlib, num_params);
704         csig->ret = &mono_defaults.object_class->byval_arg;
705         for (i = 0; i < num_params; ++i)
706                 csig->params [i] = &mono_defaults.int_class->byval_arg;
707
708         mb = mono_mb_new (mono_defaults.object_class, name, MONO_WRAPPER_ALLOC);
709         size_var = mono_mb_add_local (mb, &mono_defaults.int32_class->byval_arg);
710         if (atype == ATYPE_NORMAL || atype == ATYPE_SMALL) {
711                 /* size = vtable->klass->instance_size; */
712                 mono_mb_emit_ldarg (mb, 0);
713                 mono_mb_emit_icon (mb, G_STRUCT_OFFSET (MonoVTable, klass));
714                 mono_mb_emit_byte (mb, CEE_ADD);
715                 mono_mb_emit_byte (mb, CEE_LDIND_I);
716                 mono_mb_emit_icon (mb, G_STRUCT_OFFSET (MonoClass, instance_size));
717                 mono_mb_emit_byte (mb, CEE_ADD);
718                 /* FIXME: assert instance_size stays a 4 byte integer */
719                 mono_mb_emit_byte (mb, CEE_LDIND_U4);
720                 mono_mb_emit_stloc (mb, size_var);
721         } else if (atype == ATYPE_VECTOR) {
722                 MonoExceptionClause *clause;
723                 int pos, pos_leave;
724                 MonoClass *oom_exc_class;
725                 MonoMethod *ctor;
726
727                 /* n >  MONO_ARRAY_MAX_INDEX -> OverflowException */
728                 mono_mb_emit_ldarg (mb, 1);
729                 mono_mb_emit_icon (mb, MONO_ARRAY_MAX_INDEX);
730                 pos = mono_mb_emit_short_branch (mb, CEE_BLE_UN_S);
731                 mono_mb_emit_exception (mb, "OverflowException", NULL);
732                 mono_mb_patch_short_branch (mb, pos);
733
734                 clause = mono_image_alloc0 (mono_defaults.corlib, sizeof (MonoExceptionClause));
735                 clause->try_offset = mono_mb_get_label (mb);
736
737                 /* vtable->klass->sizes.element_size */
738                 mono_mb_emit_ldarg (mb, 0);
739                 mono_mb_emit_icon (mb, G_STRUCT_OFFSET (MonoVTable, klass));
740                 mono_mb_emit_byte (mb, CEE_ADD);
741                 mono_mb_emit_byte (mb, CEE_LDIND_I);
742                 mono_mb_emit_icon (mb, G_STRUCT_OFFSET (MonoClass, sizes.element_size));
743                 mono_mb_emit_byte (mb, CEE_ADD);
744                 mono_mb_emit_byte (mb, CEE_LDIND_U4);
745
746                 /* * n */
747                 mono_mb_emit_ldarg (mb, 1);
748                 mono_mb_emit_byte (mb, CEE_MUL_OVF_UN);
749                 /* + sizeof (MonoArray) */
750                 mono_mb_emit_icon (mb, sizeof (MonoArray));
751                 mono_mb_emit_byte (mb, CEE_ADD_OVF_UN);
752                 mono_mb_emit_stloc (mb, size_var);
753
754                 pos_leave = mono_mb_emit_branch (mb, CEE_LEAVE);
755
756                 /* catch */
757                 clause->flags = MONO_EXCEPTION_CLAUSE_NONE;
758                 clause->try_len = mono_mb_get_pos (mb) - clause->try_offset;
759                 clause->data.catch_class = mono_class_from_name (mono_defaults.corlib,
760                                 "System", "OverflowException");
761                 g_assert (clause->data.catch_class);
762                 clause->handler_offset = mono_mb_get_label (mb);
763
764                 oom_exc_class = mono_class_from_name (mono_defaults.corlib,
765                                 "System", "OutOfMemoryException");
766                 g_assert (oom_exc_class);
767                 ctor = mono_class_get_method_from_name (oom_exc_class, ".ctor", 0);
768                 g_assert (ctor);
769
770                 mono_mb_emit_byte (mb, CEE_POP);
771                 mono_mb_emit_op (mb, CEE_NEWOBJ, ctor);
772                 mono_mb_emit_byte (mb, CEE_THROW);
773
774                 clause->handler_len = mono_mb_get_pos (mb) - clause->handler_offset;
775                 mono_mb_set_clauses (mb, 1, clause);
776                 mono_mb_patch_branch (mb, pos_leave);
777                 /* end catch */
778         } else {
779                 g_assert_not_reached ();
780         }
781
782         /* size += ALLOC_ALIGN - 1; */
783         mono_mb_emit_ldloc (mb, size_var);
784         mono_mb_emit_icon (mb, ALLOC_ALIGN - 1);
785         mono_mb_emit_byte (mb, CEE_ADD);
786         /* size &= ~(ALLOC_ALIGN - 1); */
787         mono_mb_emit_icon (mb, ~(ALLOC_ALIGN - 1));
788         mono_mb_emit_byte (mb, CEE_AND);
789         mono_mb_emit_stloc (mb, size_var);
790
791         /* if (size > MAX_SMALL_OBJ_SIZE) goto slowpath */
792         if (atype != ATYPE_SMALL) {
793                 mono_mb_emit_ldloc (mb, size_var);
794                 mono_mb_emit_icon (mb, MAX_SMALL_OBJ_SIZE);
795                 max_size_branch = mono_mb_emit_short_branch (mb, MONO_CEE_BGT_UN_S);
796         }
797
798         /*
799          * We need to modify tlab_next, but the JIT only supports reading, so we read
800          * another tls var holding its address instead.
801          */
802
803         /* tlab_next_addr (local) = tlab_next_addr (TLS var) */
804         tlab_next_addr_var = mono_mb_add_local (mb, &mono_defaults.int_class->byval_arg);
805         EMIT_TLS_ACCESS (mb, tlab_next_addr, tlab_next_addr_offset);
806         mono_mb_emit_stloc (mb, tlab_next_addr_var);
807
808         /* p = (void**)tlab_next; */
809         p_var = mono_mb_add_local (mb, &mono_defaults.int_class->byval_arg);
810         mono_mb_emit_ldloc (mb, tlab_next_addr_var);
811         mono_mb_emit_byte (mb, CEE_LDIND_I);
812         mono_mb_emit_stloc (mb, p_var);
813         
814         /* new_next = (char*)p + size; */
815         new_next_var = mono_mb_add_local (mb, &mono_defaults.int_class->byval_arg);
816         mono_mb_emit_ldloc (mb, p_var);
817         mono_mb_emit_ldloc (mb, size_var);
818         mono_mb_emit_byte (mb, CEE_CONV_I);
819         mono_mb_emit_byte (mb, CEE_ADD);
820         mono_mb_emit_stloc (mb, new_next_var);
821
822         /* if (G_LIKELY (new_next < tlab_temp_end)) */
823         mono_mb_emit_ldloc (mb, new_next_var);
824         EMIT_TLS_ACCESS (mb, tlab_temp_end, tlab_temp_end_offset);
825         slowpath_branch = mono_mb_emit_short_branch (mb, MONO_CEE_BLT_UN_S);
826
827         /* Slowpath */
828         if (atype != ATYPE_SMALL)
829                 mono_mb_patch_short_branch (mb, max_size_branch);
830
831         mono_mb_emit_byte (mb, MONO_CUSTOM_PREFIX);
832         mono_mb_emit_byte (mb, CEE_MONO_NOT_TAKEN);
833
834         /* FIXME: mono_gc_alloc_obj takes a 'size_t' as an argument, not an int32 */
835         mono_mb_emit_ldarg (mb, 0);
836         mono_mb_emit_ldloc (mb, size_var);
837         if (atype == ATYPE_NORMAL || atype == ATYPE_SMALL) {
838                 mono_mb_emit_icall (mb, mono_gc_alloc_obj);
839         } else if (atype == ATYPE_VECTOR) {
840                 mono_mb_emit_ldarg (mb, 1);
841                 mono_mb_emit_icall (mb, mono_gc_alloc_vector);
842         } else {
843                 g_assert_not_reached ();
844         }
845         mono_mb_emit_byte (mb, CEE_RET);
846
847         /* Fastpath */
848         mono_mb_patch_short_branch (mb, slowpath_branch);
849
850         /* FIXME: Memory barrier */
851
852         /* tlab_next = new_next */
853         mono_mb_emit_ldloc (mb, tlab_next_addr_var);
854         mono_mb_emit_ldloc (mb, new_next_var);
855         mono_mb_emit_byte (mb, CEE_STIND_I);
856
857         /*The tlab store must be visible before the the vtable store. This could be replaced with a DDS but doing it with IL would be tricky. */
858         mono_mb_emit_byte ((mb), MONO_CUSTOM_PREFIX);
859         mono_mb_emit_op (mb, CEE_MONO_MEMORY_BARRIER, StoreStoreBarrier);
860
861         /* *p = vtable; */
862         mono_mb_emit_ldloc (mb, p_var);
863         mono_mb_emit_ldarg (mb, 0);
864         mono_mb_emit_byte (mb, CEE_STIND_I);
865
866         if (atype == ATYPE_VECTOR) {
867                 /* arr->max_length = max_length; */
868                 mono_mb_emit_ldloc (mb, p_var);
869                 mono_mb_emit_ldflda (mb, G_STRUCT_OFFSET (MonoArray, max_length));
870                 mono_mb_emit_ldarg (mb, 1);
871 #ifdef MONO_BIG_ARRAYS
872                 mono_mb_emit_byte (mb, CEE_STIND_I);
873 #else
874                 mono_mb_emit_byte (mb, CEE_STIND_I4);
875 #endif
876         }
877
878         /*
879         We must make sure both vtable and max_length are globaly visible before returning to managed land.
880         */
881         mono_mb_emit_byte ((mb), MONO_CUSTOM_PREFIX);
882         mono_mb_emit_op (mb, CEE_MONO_MEMORY_BARRIER, StoreStoreBarrier);
883
884         /* return p */
885         mono_mb_emit_ldloc (mb, p_var);
886         mono_mb_emit_byte (mb, CEE_RET);
887
888         res = mono_mb_create_method (mb, csig, 8);
889         mono_mb_free (mb);
890         mono_method_get_header (res)->init_locals = FALSE;
891
892         info = mono_image_alloc0 (mono_defaults.corlib, sizeof (AllocatorWrapperInfo));
893         info->gc_name = "sgen";
894         info->alloc_type = atype;
895         mono_marshal_set_wrapper_info (res, info);
896
897         return res;
898 }
899 #endif
900
901 /*
902  * Generate an allocator method implementing the fast path of mono_gc_alloc_obj ().
903  * The signature of the called method is:
904  *      object allocate (MonoVTable *vtable)
905  */
906 MonoMethod*
907 mono_gc_get_managed_allocator (MonoVTable *vtable, gboolean for_box)
908 {
909 #ifdef MANAGED_ALLOCATION
910         MonoClass *klass = vtable->klass;
911
912 #ifdef HAVE_KW_THREAD
913         int tlab_next_offset = -1;
914         int tlab_temp_end_offset = -1;
915         MONO_THREAD_VAR_OFFSET (tlab_next, tlab_next_offset);
916         MONO_THREAD_VAR_OFFSET (tlab_temp_end, tlab_temp_end_offset);
917
918         if (tlab_next_offset == -1 || tlab_temp_end_offset == -1)
919                 return NULL;
920 #endif
921
922         if (!mono_runtime_has_tls_get ())
923                 return NULL;
924         if (klass->instance_size > tlab_size)
925                 return NULL;
926         if (klass->has_finalize || klass->marshalbyref || (mono_profiler_get_events () & MONO_PROFILE_ALLOCATIONS))
927                 return NULL;
928         if (klass->rank)
929                 return NULL;
930         if (klass->byval_arg.type == MONO_TYPE_STRING)
931                 return NULL;
932         if (collect_before_allocs)
933                 return NULL;
934
935         if (ALIGN_TO (klass->instance_size, ALLOC_ALIGN) < MAX_SMALL_OBJ_SIZE)
936                 return mono_gc_get_managed_allocator_by_type (ATYPE_SMALL);
937         else
938                 return mono_gc_get_managed_allocator_by_type (ATYPE_NORMAL);
939 #else
940         return NULL;
941 #endif
942 }
943
944 MonoMethod*
945 mono_gc_get_managed_array_allocator (MonoVTable *vtable, int rank)
946 {
947 #ifdef MANAGED_ALLOCATION
948         MonoClass *klass = vtable->klass;
949
950 #ifdef HAVE_KW_THREAD
951         int tlab_next_offset = -1;
952         int tlab_temp_end_offset = -1;
953         MONO_THREAD_VAR_OFFSET (tlab_next, tlab_next_offset);
954         MONO_THREAD_VAR_OFFSET (tlab_temp_end, tlab_temp_end_offset);
955
956         if (tlab_next_offset == -1 || tlab_temp_end_offset == -1)
957                 return NULL;
958 #endif
959
960         if (rank != 1)
961                 return NULL;
962         if (!mono_runtime_has_tls_get ())
963                 return NULL;
964         if (mono_profiler_get_events () & MONO_PROFILE_ALLOCATIONS)
965                 return NULL;
966         if (has_per_allocation_action)
967                 return NULL;
968         g_assert (!mono_class_has_finalizer (klass) && !klass->marshalbyref);
969
970         return mono_gc_get_managed_allocator_by_type (ATYPE_VECTOR);
971 #else
972         return NULL;
973 #endif
974 }
975
976 MonoMethod*
977 mono_gc_get_managed_allocator_by_type (int atype)
978 {
979 #ifdef MANAGED_ALLOCATION
980         MonoMethod *res;
981
982         if (!mono_runtime_has_tls_get ())
983                 return NULL;
984
985         mono_loader_lock ();
986         res = alloc_method_cache [atype];
987         if (!res)
988                 res = alloc_method_cache [atype] = create_allocator (atype);
989         mono_loader_unlock ();
990         return res;
991 #else
992         return NULL;
993 #endif
994 }
995
996 guint32
997 mono_gc_get_managed_allocator_types (void)
998 {
999         return ATYPE_NUM;
1000 }
1001
1002 gboolean
1003 sgen_is_managed_allocator (MonoMethod *method)
1004 {
1005         int i;
1006
1007         for (i = 0; i < ATYPE_NUM; ++i)
1008                 if (method == alloc_method_cache [i])
1009                         return TRUE;
1010         return FALSE;
1011 }
1012
1013 #ifdef HEAVY_STATISTICS
1014 void
1015 sgen_alloc_init_heavy_stats (void)
1016 {
1017         mono_counters_register ("# objects allocated", MONO_COUNTER_GC | MONO_COUNTER_LONG, &stat_objects_alloced);     
1018         mono_counters_register ("bytes allocated", MONO_COUNTER_GC | MONO_COUNTER_LONG, &stat_bytes_alloced);
1019         mono_counters_register ("bytes allocated in LOS", MONO_COUNTER_GC | MONO_COUNTER_LONG, &stat_bytes_alloced_los);
1020 }
1021 #endif
1022
1023 #endif /*HAVE_SGEN_GC*/