2008-07-17 Rodrigo Kumpera <rkumpera@novell.com>
[mono.git] / mono / mini / tramp-x86.c
1 /*
2  * tramp-x86.c: JIT trampoline code for x86
3  *
4  * Authors:
5  *   Dietmar Maurer (dietmar@ximian.com)
6  *
7  * (C) 2001 Ximian, Inc.
8  */
9
10 #include <config.h>
11 #include <glib.h>
12
13 #include <mono/metadata/appdomain.h>
14 #include <mono/metadata/metadata-internals.h>
15 #include <mono/metadata/marshal.h>
16 #include <mono/metadata/tabledefs.h>
17 #include <mono/metadata/mono-debug.h>
18 #include <mono/metadata/mono-debug-debugger.h>
19 #include <mono/arch/x86/x86-codegen.h>
20
21 #ifdef HAVE_VALGRIND_MEMCHECK_H
22 #include <valgrind/memcheck.h>
23 #endif
24
25 #include "mini.h"
26 #include "mini-x86.h"
27
28 static guint8* nullified_class_init_trampoline;
29
30 /*
31  * mono_arch_get_unbox_trampoline:
32  * @gsctx: the generic sharing context
33  * @m: method pointer
34  * @addr: pointer to native code for @m
35  *
36  * when value type methods are called through the vtable we need to unbox the
37  * this argument. This method returns a pointer to a trampoline which does
38  * unboxing before calling the method
39  */
40 gpointer
41 mono_arch_get_unbox_trampoline (MonoGenericSharingContext *gsctx, MonoMethod *m, gpointer addr)
42 {
43         guint8 *code, *start;
44         int this_pos = 4;
45         MonoDomain *domain = mono_domain_get ();
46
47         if (MONO_TYPE_ISSTRUCT (mono_method_signature (m)->ret))
48                 this_pos = 8;
49             
50         mono_domain_lock (domain);
51         start = code = mono_code_manager_reserve (domain->code_mp, 16);
52         mono_domain_unlock (domain);
53
54         x86_alu_membase_imm (code, X86_ADD, X86_ESP, this_pos, sizeof (MonoObject));
55         x86_jump_code (code, addr);
56         g_assert ((code - start) < 16);
57
58         return start;
59 }
60
61 void
62 mono_arch_patch_callsite (guint8 *method_start, guint8 *orig_code, guint8 *addr)
63 {
64         guint8 *code;
65         guint8 buf [8];
66         gboolean can_write = mono_breakpoint_clean_code (method_start, orig_code, 8, buf, sizeof (buf));
67
68         code = buf + 8;
69         if (mono_running_on_valgrind ())
70                 can_write = FALSE;
71
72         /* go to the start of the call instruction
73          *
74          * address_byte = (m << 6) | (o << 3) | reg
75          * call opcode: 0xff address_byte displacement
76          * 0xff m=1,o=2 imm8
77          * 0xff m=2,o=2 imm32
78          */
79         code -= 6;
80         orig_code -= 6;
81         if ((code [1] == 0xe8)) {
82                 if (can_write) {
83                         InterlockedExchange ((gint32*)(orig_code + 2), (guint)addr - ((guint)orig_code + 1) - 5);
84
85 #ifdef HAVE_VALGRIND_MEMCHECK_H
86                                 /* Tell valgrind to recompile the patched code */
87                                 //VALGRIND_DISCARD_TRANSLATIONS (code + 2, code + 6);
88 #endif
89                 }
90         } else if (code [1] == 0xe9) {
91                 /* A PLT entry: jmp <DISP> */
92                 if (can_write)
93                         InterlockedExchange ((gint32*)(orig_code + 2), (guint)addr - ((guint)orig_code + 1) - 5);
94         } else {
95                 printf ("Invalid trampoline sequence: %x %x %x %x %x %x %x\n", code [0], code [1], code [2], code [3],
96                                 code [4], code [5], code [6]);
97                 g_assert_not_reached ();
98         }
99 }
100
101 void
102 mono_arch_patch_plt_entry (guint8 *code, guint8 *addr)
103 {
104         /* A PLT entry: jmp <DISP> */
105         g_assert (code [0] == 0xe9);
106
107         if (!mono_running_on_valgrind ())
108                 InterlockedExchange ((gint32*)(code + 1), (guint)addr - (guint)code - 5);
109 }
110
111 void
112 mono_arch_nullify_class_init_trampoline (guint8 *code, gssize *regs)
113 {
114         guint8 buf [16];
115         gboolean can_write = mono_breakpoint_clean_code (NULL, code, 6, buf, sizeof (buf));
116
117         if (!can_write)
118                 return;
119
120         code -= 5;
121         if (code [0] == 0xe8) {
122                 if (!mono_running_on_valgrind ()) {
123                         guint32 ops;
124                         /*
125                          * Thread safe code patching using the algorithm from the paper
126                          * 'Practicing JUDO: Java Under Dynamic Optimizations'
127                          */
128                         /* 
129                          * First atomically change the the first 2 bytes of the call to a
130                          * spinning jump.
131                          */
132                         ops = 0xfeeb;
133                         InterlockedExchange ((gint32*)code, ops);
134
135                         /* Then change the other bytes to a nop */
136                         code [2] = 0x90;
137                         code [3] = 0x90;
138                         code [4] = 0x90;
139
140                         /* Then atomically change the first 4 bytes to a nop as well */
141                         ops = 0x90909090;
142                         InterlockedExchange ((gint32*)code, ops);
143 #ifdef HAVE_VALGRIND_MEMCHECK_H
144                         /* FIXME: the calltree skin trips on the self modifying code above */
145
146                         /* Tell valgrind to recompile the patched code */
147                         //VALGRIND_DISCARD_TRANSLATIONS (code, code + 8);
148 #endif
149                 }
150         } else if (code [0] == 0x90 || code [0] == 0xeb) {
151                 /* Already changed by another thread */
152                 ;
153         } else if ((code [-1] == 0xff) && (x86_modrm_reg (code [0]) == 0x2)) {
154                 /* call *<OFFSET>(<REG>) -> Call made from AOT code */
155                 gpointer *vtable_slot;
156
157                 vtable_slot = mono_arch_get_vcall_slot_addr (code + 5, (gpointer*)regs);
158                 g_assert (vtable_slot);
159
160                 *vtable_slot = nullified_class_init_trampoline;
161         } else {
162                         printf ("Invalid trampoline sequence: %x %x %x %x %x %x %x\n", code [0], code [1], code [2], code [3],
163                                 code [4], code [5], code [6]);
164                         g_assert_not_reached ();
165                 }
166 }
167
168 void
169 mono_arch_nullify_plt_entry (guint8 *code)
170 {
171         if (!mono_running_on_valgrind ()) {
172                 guint32 ops;
173
174                 ops = 0xfeeb;
175                 InterlockedExchange ((gint32*)code, ops);
176
177                 /* Then change the other bytes to a nop */
178                 code [2] = 0x90;
179                 code [3] = 0x90;
180                 code [4] = 0x90;
181
182                 /* Change the first byte to a nop */
183                 ops = 0xc3;
184                 InterlockedExchange ((gint32*)code, ops);
185         }
186 }
187
188 guchar*
189 mono_arch_create_trampoline_code (MonoTrampolineType tramp_type)
190 {
191         guint8 *buf, *code, *tramp;
192         int pushed_args, pushed_args_caller_saved;
193
194         code = buf = mono_global_codeman_reserve (256);
195
196         /* Note that there is a single argument to the trampoline
197          * and it is stored at: esp + pushed_args * sizeof (gpointer)
198          * the ret address is at: esp + (pushed_args + 1) * sizeof (gpointer)
199          */
200
201         /* If this is a generic class init the argument is not on the
202          * stack yet but in MONO_ARCH_VTABLE_REG.  We first check
203          * whether the vtable is already initialized in which case we
204          * just return.  Otherwise we push it and continue.
205          */
206         if (tramp_type == MONO_TRAMPOLINE_GENERIC_CLASS_INIT) {
207                 static int byte_offset = -1;
208                 static guint8 bitmask;
209
210                 guint8 *jump;
211
212                 if (byte_offset < 0)
213                         mono_marshal_find_bitfield_offset (MonoVTable, initialized, &byte_offset, &bitmask);
214
215                 x86_test_membase_imm (buf, MONO_ARCH_VTABLE_REG, byte_offset, bitmask);
216                 jump = buf;
217                 x86_branch8 (buf, X86_CC_Z, -1, 1);
218
219                 x86_ret (buf);
220
221                 x86_patch (jump, buf);
222                 x86_push_reg (buf, MONO_ARCH_VTABLE_REG);
223         }
224
225         /* Put all registers into an array on the stack
226          * If this code is changed, make sure to update the offset value in
227          * mono_arch_find_this_argument () in mini-x86.c.
228          */
229         x86_push_reg (buf, X86_EDI);
230         x86_push_reg (buf, X86_ESI);
231         x86_push_reg (buf, X86_EBP);
232         x86_push_reg (buf, X86_ESP);
233         x86_push_reg (buf, X86_EBX);
234         x86_push_reg (buf, X86_EDX);
235         x86_push_reg (buf, X86_ECX);
236         x86_push_reg (buf, X86_EAX);
237
238         pushed_args_caller_saved = pushed_args = 8;
239
240         /* Align stack on apple */
241         x86_alu_reg_imm (buf, X86_SUB, X86_ESP, 4);
242
243         pushed_args ++;
244
245         /* save LMF begin */
246
247         /* save the IP (caller ip) */
248         if (tramp_type == MONO_TRAMPOLINE_JUMP)
249                 x86_push_imm (buf, 0);
250         else
251                 x86_push_membase (buf, X86_ESP, (pushed_args + 1) * sizeof (gpointer));
252
253         pushed_args++;
254
255         x86_push_reg (buf, X86_EBP);
256         x86_push_reg (buf, X86_ESI);
257         x86_push_reg (buf, X86_EDI);
258         x86_push_reg (buf, X86_EBX);
259
260         pushed_args += 4;
261
262         /* save ESP */
263         x86_push_reg (buf, X86_ESP);
264         /* Adjust ESP so it points to the previous frame */
265         x86_alu_membase_imm (buf, X86_ADD, X86_ESP, 0, (pushed_args + 2) * 4);
266
267         pushed_args ++;
268
269         /* save method info */
270         if ((tramp_type == MONO_TRAMPOLINE_JIT) || (tramp_type == MONO_TRAMPOLINE_JUMP))
271                 x86_push_membase (buf, X86_ESP, pushed_args * sizeof (gpointer));
272         else
273                 x86_push_imm (buf, 0);
274
275         pushed_args++;
276
277         /* On apple, the stack is correctly aligned to 16 bytes because pushed_args is
278          * 16 and there is the extra trampoline arg + the return ip pushed by call
279          * FIXME: Note that if an exception happens while some args are pushed
280          * on the stack, the stack will be misaligned.
281          */
282         g_assert (pushed_args == 16);
283
284         /* get the address of lmf for the current thread */
285         x86_call_code (buf, mono_get_lmf_addr);
286         /* push lmf */
287         x86_push_reg (buf, X86_EAX); 
288         /* push *lfm (previous_lmf) */
289         x86_push_membase (buf, X86_EAX, 0);
290         /* Signal to mono_arch_find_jit_info () that this is a trampoline frame */
291         x86_alu_membase_imm (buf, X86_ADD, X86_ESP, 0, 1);
292         /* *(lmf) = ESP */
293         x86_mov_membase_reg (buf, X86_EAX, 0, X86_ESP, 4);
294         /* save LFM end */
295
296         pushed_args += 2;
297
298         /* starting the call sequence */
299
300         /* FIXME: Push the trampoline address */
301         x86_push_imm (buf, 0);
302
303         pushed_args++;
304
305         /* push the method info */
306         x86_push_membase (buf, X86_ESP, pushed_args * sizeof (gpointer));
307
308         pushed_args++;
309
310         /* push the return address onto the stack */
311         if (tramp_type == MONO_TRAMPOLINE_JUMP)
312                 x86_push_imm (buf, 0);
313         else
314                 x86_push_membase (buf, X86_ESP, (pushed_args + 1) * sizeof (gpointer));
315         pushed_args++;
316         /* push the address of the register array */
317         x86_lea_membase (buf, X86_EAX, X86_ESP, (pushed_args - 8) * sizeof (gpointer));
318         x86_push_reg (buf, X86_EAX);
319
320         pushed_args++;
321
322 #ifdef __APPLE__
323         /* check the stack is aligned after the ret ip is pushed */
324         /*x86_mov_reg_reg (buf, X86_EDX, X86_ESP, 4);
325         x86_alu_reg_imm (buf, X86_AND, X86_EDX, 15);
326         x86_alu_reg_imm (buf, X86_CMP, X86_EDX, 0);
327         x86_branch_disp (buf, X86_CC_Z, 3, FALSE);
328         x86_breakpoint (buf);*/
329 #endif
330
331         tramp = (guint8*)mono_get_trampoline_func (tramp_type);
332         x86_call_code (buf, tramp);
333
334         x86_alu_reg_imm (buf, X86_ADD, X86_ESP, 4*4);
335
336         pushed_args -= 4;
337
338         /* Check for thread interruption */
339         /* This is not perf critical code so no need to check the interrupt flag */
340         x86_push_reg (buf, X86_EAX);
341         x86_call_code (buf, (guint8*)mono_thread_force_interruption_checkpoint);
342         x86_pop_reg (buf, X86_EAX);
343
344         /* Restore LMF */
345
346         /* ebx = previous_lmf */
347         x86_pop_reg (buf, X86_EBX);
348         pushed_args--;
349         x86_alu_reg_imm (buf, X86_SUB, X86_EBX, 1);
350
351         /* edi = lmf */
352         x86_pop_reg (buf, X86_EDI);
353         pushed_args--;
354
355         /* *(lmf) = previous_lmf */
356         x86_mov_membase_reg (buf, X86_EDI, 0, X86_EBX, 4);
357
358         /* discard method info */
359         x86_pop_reg (buf, X86_ESI);
360         pushed_args--;
361
362         /* discard ESP */
363         x86_pop_reg (buf, X86_ESI);
364         pushed_args--;
365
366         /* restore caller saved regs */
367         x86_pop_reg (buf, X86_EBX);
368         x86_pop_reg (buf, X86_EDI);
369         x86_pop_reg (buf, X86_ESI);
370         x86_pop_reg (buf, X86_EBP);
371
372         pushed_args -= 4;
373
374         /* discard save IP */
375         x86_alu_reg_imm (buf, X86_ADD, X86_ESP, 4);
376         pushed_args--;
377
378         /* restore LMF end */
379
380         /* Restore caller saved registers */
381         x86_mov_reg_membase (buf, X86_ECX, X86_ESP, (pushed_args - pushed_args_caller_saved + X86_ECX) * 4, 4);
382         x86_mov_reg_membase (buf, X86_EDX, X86_ESP, (pushed_args - pushed_args_caller_saved + X86_EDX) * 4, 4);
383
384         /* Pop saved reg array + stack align + method ptr */
385         x86_alu_reg_imm (buf, X86_ADD, X86_ESP, 10 * 4);
386
387         pushed_args -= 10;
388
389         /* We've popped one more stack item than we've pushed (the
390            method ptr argument), so we must end up at -1. */
391         g_assert (pushed_args == -1);
392
393         if (tramp_type == MONO_TRAMPOLINE_CLASS_INIT ||
394                         tramp_type == MONO_TRAMPOLINE_GENERIC_CLASS_INIT ||
395                         tramp_type == MONO_TRAMPOLINE_RGCTX_LAZY_FETCH)
396                 x86_ret (buf);
397         else
398                 /* call the compiled method */
399                 x86_jump_reg (buf, X86_EAX);
400
401         g_assert ((buf - code) <= 256);
402
403         if (tramp_type == MONO_TRAMPOLINE_CLASS_INIT) {
404                 /* Initialize the nullified class init trampoline used in the AOT case */
405                 nullified_class_init_trampoline = buf = mono_global_codeman_reserve (16);
406                 x86_ret (buf);
407         }
408
409         return code;
410 }
411
412 #define TRAMPOLINE_SIZE 10
413
414 gpointer
415 mono_arch_create_specific_trampoline (gpointer arg1, MonoTrampolineType tramp_type, MonoDomain *domain, guint32 *code_len)
416 {
417         guint8 *code, *buf, *tramp;
418         
419         tramp = mono_get_trampoline_code (tramp_type);
420
421         mono_domain_lock (domain);
422         code = buf = mono_code_manager_reserve_align (domain->code_mp, TRAMPOLINE_SIZE, 4);
423         mono_domain_unlock (domain);
424
425         x86_push_imm (buf, arg1);
426         x86_jump_code (buf, tramp);
427         g_assert ((buf - code) <= TRAMPOLINE_SIZE);
428
429         mono_arch_flush_icache (code, buf - code);
430
431         if (code_len)
432                 *code_len = buf - code;
433
434         return code;
435 }
436
437 gpointer
438 mono_arch_create_rgctx_lazy_fetch_trampoline (guint32 slot)
439 {
440         guint8 *tramp = mono_get_trampoline_code (MONO_TRAMPOLINE_RGCTX_LAZY_FETCH);
441         guint8 *code, *buf;
442         guint8 **rgctx_null_jumps;
443         int tramp_size;
444         int depth, index;
445         int i;
446         gboolean mrgctx;
447
448         g_assert (tramp);
449
450         mrgctx = MONO_RGCTX_SLOT_IS_MRGCTX (slot);
451         index = MONO_RGCTX_SLOT_INDEX (slot);
452         if (mrgctx)
453                 index += sizeof (MonoMethodRuntimeGenericContext) / sizeof (gpointer);
454         for (depth = 0; ; ++depth) {
455                 int size = mono_class_rgctx_get_array_size (depth, mrgctx);
456
457                 if (index < size - 1)
458                         break;
459                 index -= size - 1;
460         }
461
462         tramp_size = 36 + 6 * depth;
463
464         code = buf = mono_global_codeman_reserve (tramp_size);
465
466         rgctx_null_jumps = g_malloc (sizeof (guint8*) * (depth + 2));
467
468         /* load vtable/mrgctx ptr */
469         x86_mov_reg_membase (buf, X86_EAX, X86_ESP, 4, 4);
470         if (!mrgctx) {
471                 /* load rgctx ptr from vtable */
472                 x86_mov_reg_membase (buf, X86_EAX, X86_EAX, G_STRUCT_OFFSET (MonoVTable, runtime_generic_context), 4);
473                 /* is the rgctx ptr null? */
474                 x86_test_reg_reg (buf, X86_EAX, X86_EAX);
475                 /* if yes, jump to actual trampoline */
476                 rgctx_null_jumps [0] = buf;
477                 x86_branch8 (buf, X86_CC_Z, -1, 1);
478         }
479
480         for (i = 0; i < depth; ++i) {
481                 /* load ptr to next array */
482                 if (mrgctx && i == 0)
483                         x86_mov_reg_membase (buf, X86_EAX, X86_EAX, sizeof (MonoMethodRuntimeGenericContext), 4);
484                 else
485                         x86_mov_reg_membase (buf, X86_EAX, X86_EAX, 0, 4);
486                 /* is the ptr null? */
487                 x86_test_reg_reg (buf, X86_EAX, X86_EAX);
488                 /* if yes, jump to actual trampoline */
489                 rgctx_null_jumps [i + 1] = buf;
490                 x86_branch8 (buf, X86_CC_Z, -1, 1);
491         }
492
493         /* fetch slot */
494         x86_mov_reg_membase (buf, X86_EAX, X86_EAX, sizeof (gpointer) * (index + 1), 4);
495         /* is the slot null? */
496         x86_test_reg_reg (buf, X86_EAX, X86_EAX);
497         /* if yes, jump to actual trampoline */
498         rgctx_null_jumps [depth + 1] = buf;
499         x86_branch8 (buf, X86_CC_Z, -1, 1);
500         /* otherwise return */
501         x86_ret (buf);
502
503         for (i = mrgctx ? 1 : 0; i <= depth + 1; ++i)
504                 x86_patch (rgctx_null_jumps [i], buf);
505
506         g_free (rgctx_null_jumps);
507
508         /*
509          * our stack looks like this (tos on top):
510          *
511          * | ret addr   |
512          * | vtable ptr |
513          * | ...        |
514          *
515          * the trampoline code expects it to look like this:
516          *
517          * | vtable ptr |
518          * | ret addr   |
519          * | ...        |
520          *
521          * whereas our caller expects to still have one argument on
522          * the stack when we return, so we transform the stack into
523          * this:
524          *
525          * | vtable ptr |
526          * | ret addr   |
527          * | dummy      |
528          * | ...        |
529          *
530          * which actually only requires us to push the vtable ptr, and
531          * the "old" vtable ptr becomes the dummy.
532          */
533
534         x86_push_membase (buf, X86_ESP, 4);
535
536         x86_mov_reg_imm (buf, X86_EAX, slot);
537         x86_jump_code (buf, tramp);
538
539         mono_arch_flush_icache (code, buf - code);
540
541         g_assert (buf - code <= tramp_size);
542
543         return code;
544 }
545
546 guint32
547 mono_arch_get_rgctx_lazy_fetch_offset (gpointer *regs)
548 {
549         return (guint32)(regs [X86_EAX]);
550 }
551
552 void
553 mono_arch_invalidate_method (MonoJitInfo *ji, void *func, gpointer func_arg)
554 {
555         /* FIXME: This is not thread safe */
556         guint8 *code = ji->code_start;
557
558         x86_push_imm (code, func_arg);
559         x86_call_code (code, (guint8*)func);
560 }