Introduce MonoThreadUnwindState and a bunch overloads to mono_walk_stack.
[mono.git] / mono / mini / mini-amd64.c
index 49c3a53c715324b74493490b6898225eaf745142..f0a26a0e3a77618cd3fa0fcc1748240acb231ec7 100644 (file)
@@ -757,10 +757,11 @@ add_valuetype (MonoGenericSharingContext *gsctx, MonoMethodSignature *sig, ArgIn
        /* If this struct can't be split up naturally into 8-byte */
        /* chunks (registers), pass it on the stack.              */
        if (sig->pinvoke && !pass_on_stack) {
-               info = mono_marshal_load_type_info (klass);
-               g_assert(info);
                guint32 align;
                guint32 field_size;
+
+               info = mono_marshal_load_type_info (klass);
+               g_assert(info);
                for (i = 0; i < info->num_fields; ++i) {
                        field_size = mono_marshal_type_size (info->fields [i].field->type, 
                                                           info->fields [i].mspec, 
@@ -1768,15 +1769,7 @@ mono_arch_allocate_vars (MonoCompile *cfg)
        }
 
        if (cfg->method->save_lmf) {
-               /* Reserve stack space for saving LMF */
-               if (cfg->arch.omit_fp) {
-                       cfg->arch.lmf_offset = offset;
-                       offset += sizeof (MonoLMF);
-               }
-               else {
-                       offset += sizeof (MonoLMF);
-                       cfg->arch.lmf_offset = -offset;
-               }
+               /* The LMF var is allocated normally */
        } else {
                if (cfg->arch.omit_fp)
                        cfg->arch.reg_save_area_offset = offset;
@@ -1839,7 +1832,7 @@ mono_arch_allocate_vars (MonoCompile *cfg)
 
        /* Allocate locals */
        if (!cfg->globalra) {
-               offsets = mono_allocate_stack_slots_full (cfg, cfg->arch.omit_fp ? FALSE: TRUE, &locals_stack_size, &locals_stack_align);
+               offsets = mono_allocate_stack_slots (cfg, cfg->arch.omit_fp ? FALSE: TRUE, &locals_stack_size, &locals_stack_align);
                if (locals_stack_size > MONO_ARCH_MAX_FRAME_SIZE) {
                        char *mname = mono_method_full_name (cfg->method, TRUE);
                        cfg->exception_type = MONO_EXCEPTION_INVALID_PROGRAM;
@@ -2050,6 +2043,13 @@ mono_arch_create_vars (MonoCompile *cfg)
         */
        cfg->arch.no_pushes = TRUE;
 #endif
+
+       if (cfg->method->save_lmf) {
+               MonoInst *lmf_var = mono_compile_create_var (cfg, &mono_defaults.int_class->byval_arg, OP_LOCAL);
+               lmf_var->flags |= MONO_INST_VOLATILE;
+               lmf_var->flags |= MONO_INST_LMF;
+               cfg->arch.lmf_var = lmf_var;
+       }
 }
 
 static void
@@ -3587,6 +3587,48 @@ emit_move_return_value (MonoCompile *cfg, MonoInst *ins, guint8 *code)
 
 #endif /* DISABLE_JIT */
 
+#ifdef __APPLE__
+static int tls_gs_offset;
+#endif
+
+gboolean
+mono_amd64_have_tls_get (void)
+{
+#ifdef __APPLE__
+       static gboolean have_tls_get = FALSE;
+       static gboolean inited = FALSE;
+
+       if (inited)
+               return have_tls_get;
+
+       guint8 *ins = (guint8*)pthread_getspecific;
+
+       /*
+        * We're looking for these two instructions:
+        *
+        * mov    %gs:[offset](,%rdi,8),%rax
+        * retq
+        */
+       have_tls_get = ins [0] == 0x65 &&
+                      ins [1] == 0x48 &&
+                      ins [2] == 0x8b &&
+                      ins [3] == 0x04 &&
+                      ins [4] == 0xfd &&
+                      ins [6] == 0x00 &&
+                      ins [7] == 0x00 &&
+                      ins [8] == 0x00 &&
+                      ins [9] == 0xc3;
+
+       inited = TRUE;
+
+       tls_gs_offset = ins[5];
+
+       return have_tls_get;
+#else
+       return TRUE;
+#endif
+}
+
 /*
  * mono_amd64_emit_tls_get:
  * @code: buffer to store code to
@@ -3606,6 +3648,9 @@ mono_amd64_emit_tls_get (guint8* code, int dreg, int tls_offset)
        g_assert (tls_offset < 64);
        x86_prefix (code, X86_GS_PREFIX);
        amd64_mov_reg_mem (code, dreg, (tls_offset * 8) + 0x1480, 8);
+#elif defined(__APPLE__)
+       x86_prefix (code, X86_GS_PREFIX);
+       amd64_mov_reg_mem (code, dreg, tls_gs_offset + (tls_offset * 8), 8);
 #else
        if (optimize_for_xen) {
                x86_prefix (code, X86_FS_PREFIX);
@@ -3619,6 +3664,165 @@ mono_amd64_emit_tls_get (guint8* code, int dreg, int tls_offset)
        return code;
 }
 
+/*
+ * emit_setup_lmf:
+ *
+ *   Emit code to initialize an LMF structure at LMF_OFFSET.
+ */
+static guint8*
+emit_setup_lmf (MonoCompile *cfg, guint8 *code, gint32 lmf_offset, int cfa_offset)
+{
+       int i;
+
+       /* 
+        * The ip field is not set, the exception handling code will obtain it from the stack location pointed to by the sp field.
+        */
+       /* 
+        * sp is saved right before calls but we need to save it here too so
+        * async stack walks would work.
+        */
+       amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsp), AMD64_RSP, 8);
+       /* Skip method (only needed for trampoline LMF frames) */
+       /* Save callee saved regs */
+       for (i = 0; i < MONO_MAX_IREGS; ++i) {
+               int offset;
+
+               switch (i) {
+               case AMD64_RBX: offset = G_STRUCT_OFFSET (MonoLMF, rbx); break;
+               case AMD64_RBP: offset = G_STRUCT_OFFSET (MonoLMF, rbp); break;
+               case AMD64_R12: offset = G_STRUCT_OFFSET (MonoLMF, r12); break;
+               case AMD64_R13: offset = G_STRUCT_OFFSET (MonoLMF, r13); break;
+               case AMD64_R14: offset = G_STRUCT_OFFSET (MonoLMF, r14); break;
+#ifndef __native_client_codegen__
+               case AMD64_R15: offset = G_STRUCT_OFFSET (MonoLMF, r15); break;
+#endif
+#ifdef HOST_WIN32
+               case AMD64_RDI: offset = G_STRUCT_OFFSET (MonoLMF, rdi); break;
+               case AMD64_RSI: offset = G_STRUCT_OFFSET (MonoLMF, rsi); break;
+#endif
+               default:
+                       offset = -1;
+                       break;
+               }
+
+               if (offset != -1) {
+                       amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + offset, i, 8);
+                       if ((cfg->arch.omit_fp || (i != AMD64_RBP)) && cfa_offset != -1)
+                               mono_emit_unwind_op_offset (cfg, code, i, - (cfa_offset - (lmf_offset + offset)));
+               }
+       }
+
+       /* These can't contain refs */
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, lmf_addr), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, method), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rip), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsp), SLOT_NOREF);
+
+       /* These are handled automatically by the stack marking code */
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rbx), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rbp), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r12), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r13), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r14), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r15), SLOT_NOREF);
+#ifdef HOST_WIN32
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rdi), SLOT_NOREF);
+       mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsi), SLOT_NOREF);
+#endif
+
+       return code;
+}
+
+/*
+ * emit_save_lmf:
+ *
+ *   Emit code to push an LMF structure on the LMF stack.
+ */
+static guint8*
+emit_save_lmf (MonoCompile *cfg, guint8 *code, gint32 lmf_offset, gboolean *args_clobbered)
+{
+       if ((lmf_tls_offset != -1) && !optimize_for_xen) {
+               /*
+                * Optimized version which uses the mono_lmf TLS variable instead of 
+                * indirection through the mono_lmf_addr TLS variable.
+                */
+               /* %rax = previous_lmf */
+               x86_prefix (code, X86_FS_PREFIX);
+               amd64_mov_reg_mem (code, AMD64_RAX, lmf_tls_offset, 8);
+
+               /* Save previous_lmf */
+               amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), AMD64_RAX, 8);
+               /* Set new lmf */
+               if (lmf_offset == 0) {
+                       x86_prefix (code, X86_FS_PREFIX);
+                       amd64_mov_mem_reg (code, lmf_tls_offset, cfg->frame_reg, 8);
+               } else {
+                       amd64_lea_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset);
+                       x86_prefix (code, X86_FS_PREFIX);
+                       amd64_mov_mem_reg (code, lmf_tls_offset, AMD64_R11, 8);
+               }
+       } else {
+               if (lmf_addr_tls_offset != -1) {
+                       /* Load lmf quicky using the FS register */
+                       code = mono_amd64_emit_tls_get (code, AMD64_RAX, lmf_addr_tls_offset);
+#ifdef HOST_WIN32
+                       /* The TLS key actually contains a pointer to the MonoJitTlsData structure */
+                       /* FIXME: Add a separate key for LMF to avoid this */
+                       amd64_alu_reg_imm (code, X86_ADD, AMD64_RAX, G_STRUCT_OFFSET (MonoJitTlsData, lmf));
+#endif
+               }
+               else {
+                       /* 
+                        * The call might clobber argument registers, but they are already
+                        * saved to the stack/global regs.
+                        */
+                       if (args_clobbered)
+                               *args_clobbered = TRUE;
+                       code = emit_call (cfg, code, MONO_PATCH_INFO_INTERNAL_METHOD, 
+                                                         (gpointer)"mono_get_lmf_addr", TRUE);         
+               }
+
+               /* Save lmf_addr */
+               amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, lmf_addr), AMD64_RAX, sizeof(gpointer));
+               /* Save previous_lmf */
+               amd64_mov_reg_membase (code, AMD64_R11, AMD64_RAX, 0, sizeof(gpointer));
+               amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), AMD64_R11, sizeof(gpointer));
+               /* Set new lmf */
+               amd64_lea_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset);
+               amd64_mov_membase_reg (code, AMD64_RAX, 0, AMD64_R11, sizeof(gpointer));
+       }
+
+       return code;
+}
+
+/*
+ * emit_save_lmf:
+ *
+ *   Emit code to pop an LMF structure from the LMF stack.
+ */
+static guint8*
+emit_restore_lmf (MonoCompile *cfg, guint8 *code, gint32 lmf_offset)
+{
+       if ((lmf_tls_offset != -1) && !optimize_for_xen) {
+               /*
+                * Optimized version which uses the mono_lmf TLS variable instead of indirection
+                * through the mono_lmf_addr TLS variable.
+                */
+               /* reg = previous_lmf */
+               amd64_mov_reg_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), sizeof(gpointer));
+               x86_prefix (code, X86_FS_PREFIX);
+               amd64_mov_mem_reg (code, lmf_tls_offset, AMD64_R11, 8);
+       } else {
+               /* Restore previous lmf */
+               amd64_mov_reg_membase (code, AMD64_RCX, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), sizeof(gpointer));
+               amd64_mov_reg_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, lmf_addr), sizeof(gpointer));
+               amd64_mov_membase_reg (code, AMD64_R11, 0, AMD64_RCX, sizeof(gpointer));
+       }
+
+       return code;
+}
+
 #define REAL_PRINT_REG(text,reg) \
 mono_assert (reg >= 0); \
 amd64_push_reg (code, AMD64_RAX); \
@@ -4741,9 +4945,11 @@ mono_arch_output_basic_block (MonoCompile *cfg, MonoBasicBlock *bb)
                        amd64_mov_membase_reg (code, AMD64_R11, G_STRUCT_OFFSET (DynCallArgs, res), AMD64_RAX, 8);
                        break;
                }
-               case OP_AMD64_SAVE_SP_TO_LMF:
-                       amd64_mov_membase_reg (code, cfg->frame_reg, cfg->arch.lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsp), AMD64_RSP, 8);
+               case OP_AMD64_SAVE_SP_TO_LMF: {
+                       MonoInst *lmf_var = cfg->arch.lmf_var;
+                       amd64_mov_membase_reg (code, cfg->frame_reg, lmf_var->inst_offset + G_STRUCT_OFFSET (MonoLMF, rsp), AMD64_RSP, 8);
                        break;
+               }
                case OP_X86_PUSH:
                        g_assert (!cfg->arch.no_pushes);
                        amd64_push_reg (code, ins->sreg1);
@@ -5618,6 +5824,14 @@ mono_arch_output_basic_block (MonoCompile *cfg, MonoBasicBlock *bb)
                        g_assert (ins->inst_c0 >= 0 && ins->inst_c0 <= 0xFF);
                        amd64_sse_pshufd_reg_reg_imm (code, ins->dreg, ins->sreg1, ins->inst_c0);
                        break;
+               case OP_SHUFPS:
+                       g_assert (ins->inst_c0 >= 0 && ins->inst_c0 <= 0xFF);
+                       amd64_sse_shufps_reg_reg_imm (code, ins->sreg1, ins->sreg2, ins->inst_c0);
+                       break;
+               case OP_SHUFPD:
+                       g_assert (ins->inst_c0 >= 0 && ins->inst_c0 <= 0x3);
+                       amd64_sse_shufpd_reg_reg_imm (code, ins->sreg1, ins->sreg2, ins->inst_c0);
+                       break;
 
                case OP_ADDPD:
                        amd64_sse_addpd_reg_reg (code, ins->sreg1, ins->sreg2);
@@ -5943,6 +6157,30 @@ mono_arch_output_basic_block (MonoCompile *cfg, MonoBasicBlock *bb)
                case OP_PSHLQ_REG:
                        amd64_sse_psllq_reg_reg (code, ins->dreg, ins->sreg2);
                        break;  
+               case OP_CVTDQ2PD:
+                       amd64_sse_cvtdq2pd_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTDQ2PS:
+                       amd64_sse_cvtdq2ps_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTPD2DQ:
+                       amd64_sse_cvtpd2dq_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTPD2PS:
+                       amd64_sse_cvtpd2ps_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTPS2DQ:
+                       amd64_sse_cvtps2dq_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTPS2PD:
+                       amd64_sse_cvtps2pd_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTTPD2DQ:
+                       amd64_sse_cvttpd2dq_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
+               case OP_CVTTPS2DQ:
+                       amd64_sse_cvttps2dq_reg_reg (code, ins->dreg, ins->sreg1);
+                       break;
 
                case OP_ICONV_TO_X:
                        amd64_movd_xreg_reg_size (code, ins->dreg, ins->sreg1, 4);
@@ -6175,7 +6413,7 @@ mono_arch_register_lowlevel_calls (void)
 }
 
 void
-mono_arch_patch_code (MonoMethod *method, MonoDomain *domain, guint8 *code, MonoJumpInfo *ji, gboolean run_cctors)
+mono_arch_patch_code (MonoMethod *method, MonoDomain *domain, guint8 *code, MonoJumpInfo *ji, MonoCodeManager *dyn_code_mp, gboolean run_cctors)
 {
        MonoJumpInfo *patch_info;
        gboolean compile_aot = !run_cctors;
@@ -6282,7 +6520,7 @@ mono_arch_emit_prolog (MonoCompile *cfg)
        int alloc_size, pos, i, cfa_offset, quad, max_epilog_size;
        guint8 *code;
        CallInfo *cinfo;
-       gint32 lmf_offset = cfg->arch.lmf_offset;
+       MonoInst *lmf_var = cfg->arch.lmf_var;
        gboolean args_clobbered = FALSE;
        gboolean trace = FALSE;
 #ifdef __native_client_codegen__
@@ -6508,63 +6746,7 @@ mono_arch_emit_prolog (MonoCompile *cfg)
 
        /* Save LMF */
        if (method->save_lmf) {
-               /* 
-                * The ip field is not set, the exception handling code will obtain it from the stack location pointed to by the sp field.
-                */
-               /* 
-                * sp is saved right before calls but we need to save it here too so
-                * async stack walks would work.
-                */
-               amd64_mov_membase_reg (code, cfg->frame_reg, cfg->arch.lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsp), AMD64_RSP, 8);
-               /* Skip method (only needed for trampoline LMF frames) */
-               /* Save callee saved regs */
-               for (i = 0; i < MONO_MAX_IREGS; ++i) {
-                       int offset;
-
-                       switch (i) {
-                       case AMD64_RBX: offset = G_STRUCT_OFFSET (MonoLMF, rbx); break;
-                       case AMD64_RBP: offset = G_STRUCT_OFFSET (MonoLMF, rbp); break;
-                       case AMD64_R12: offset = G_STRUCT_OFFSET (MonoLMF, r12); break;
-                       case AMD64_R13: offset = G_STRUCT_OFFSET (MonoLMF, r13); break;
-                       case AMD64_R14: offset = G_STRUCT_OFFSET (MonoLMF, r14); break;
-#ifndef __native_client_codegen__
-                       case AMD64_R15: offset = G_STRUCT_OFFSET (MonoLMF, r15); break;
-#endif
-#ifdef HOST_WIN32
-                       case AMD64_RDI: offset = G_STRUCT_OFFSET (MonoLMF, rdi); break;
-                       case AMD64_RSI: offset = G_STRUCT_OFFSET (MonoLMF, rsi); break;
-#endif
-                       default:
-                               offset = -1;
-                               break;
-                       }
-
-                       if (offset != -1) {
-                               amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + offset, i, 8);
-                               if (cfg->arch.omit_fp || (i != AMD64_RBP))
-                                       mono_emit_unwind_op_offset (cfg, code, i, - (cfa_offset - (lmf_offset + offset)));
-                       }
-               }
-
-               /* These can't contain refs */
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, lmf_addr), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, method), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rip), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsp), SLOT_NOREF);
-
-               /* These are handled automatically by the stack marking code */
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rbx), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rbp), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r12), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r13), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r14), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, r15), SLOT_NOREF);
-#ifdef HOST_WIN32
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rdi), SLOT_NOREF);
-               mini_gc_set_slot_type_from_fp (cfg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, rsi), SLOT_NOREF);
-#endif
-
+               code = emit_setup_lmf (cfg, code, lmf_var->inst_offset, cfa_offset);
        }
 
        /* Save callee saved registers */
@@ -6819,55 +7001,7 @@ mono_arch_emit_prolog (MonoCompile *cfg)
        }
 
        if (method->save_lmf) {
-               if ((lmf_tls_offset != -1) && !optimize_for_xen) {
-                       /*
-                        * Optimized version which uses the mono_lmf TLS variable instead of 
-                        * indirection through the mono_lmf_addr TLS variable.
-                        */
-                       /* %rax = previous_lmf */
-                       x86_prefix (code, X86_FS_PREFIX);
-                       amd64_mov_reg_mem (code, AMD64_RAX, lmf_tls_offset, 8);
-
-                       /* Save previous_lmf */
-                       amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), AMD64_RAX, 8);
-                       /* Set new lmf */
-                       if (lmf_offset == 0) {
-                               x86_prefix (code, X86_FS_PREFIX);
-                               amd64_mov_mem_reg (code, lmf_tls_offset, cfg->frame_reg, 8);
-                       } else {
-                               amd64_lea_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset);
-                               x86_prefix (code, X86_FS_PREFIX);
-                               amd64_mov_mem_reg (code, lmf_tls_offset, AMD64_R11, 8);
-                       }
-               } else {
-                       if (lmf_addr_tls_offset != -1) {
-                               /* Load lmf quicky using the FS register */
-                               code = mono_amd64_emit_tls_get (code, AMD64_RAX, lmf_addr_tls_offset);
-#ifdef HOST_WIN32
-                               /* The TLS key actually contains a pointer to the MonoJitTlsData structure */
-                               /* FIXME: Add a separate key for LMF to avoid this */
-                               amd64_alu_reg_imm (code, X86_ADD, AMD64_RAX, G_STRUCT_OFFSET (MonoJitTlsData, lmf));
-#endif
-                       }
-                       else {
-                               /* 
-                                * The call might clobber argument registers, but they are already
-                                * saved to the stack/global regs.
-                                */
-                               args_clobbered = TRUE;
-                               code = emit_call (cfg, code, MONO_PATCH_INFO_INTERNAL_METHOD, 
-                                                                 (gpointer)"mono_get_lmf_addr", TRUE);         
-                       }
-
-                       /* Save lmf_addr */
-                       amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, lmf_addr), AMD64_RAX, sizeof(gpointer));
-                       /* Save previous_lmf */
-                       amd64_mov_reg_membase (code, AMD64_R11, AMD64_RAX, 0, sizeof(gpointer));
-                       amd64_mov_membase_reg (code, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), AMD64_R11, sizeof(gpointer));
-                       /* Set new lmf */
-                       amd64_lea_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset);
-                       amd64_mov_membase_reg (code, AMD64_RAX, 0, AMD64_R11, sizeof(gpointer));
-               }
+               code = emit_save_lmf (cfg, code, lmf_var->inst_offset, &args_clobbered);
        }
 
        if (trace) {
@@ -6971,7 +7105,7 @@ mono_arch_emit_epilog (MonoCompile *cfg)
        guint8 *code;
        int max_epilog_size;
        CallInfo *cinfo;
-       gint32 lmf_offset = cfg->arch.lmf_offset;
+       gint32 lmf_offset = cfg->arch.lmf_var ? ((MonoInst*)cfg->arch.lmf_var)->inst_offset : -1;
        
        max_epilog_size = get_max_epilog_size (cfg);
 
@@ -6993,35 +7127,22 @@ mono_arch_emit_epilog (MonoCompile *cfg)
                /* check if we need to restore protection of the stack after a stack overflow */
                if (mono_get_jit_tls_offset () != -1) {
                        guint8 *patch;
-                       code = mono_amd64_emit_tls_get (code, X86_ECX, mono_get_jit_tls_offset ());
+                       code = mono_amd64_emit_tls_get (code, AMD64_RCX, mono_get_jit_tls_offset ());
                        /* we load the value in a separate instruction: this mechanism may be
                         * used later as a safer way to do thread interruption
                         */
-                       amd64_mov_reg_membase (code, X86_ECX, X86_ECX, G_STRUCT_OFFSET (MonoJitTlsData, restore_stack_prot), 8);
+                       amd64_mov_reg_membase (code, AMD64_RCX, AMD64_RCX, G_STRUCT_OFFSET (MonoJitTlsData, restore_stack_prot), 8);
                        x86_alu_reg_imm (code, X86_CMP, X86_ECX, 0);
                        patch = code;
-                       x86_branch8 (code, X86_CC_Z, 0, FALSE);
+                       x86_branch8 (code, X86_CC_Z, 0, FALSE);
                        /* note that the call trampoline will preserve eax/edx */
                        x86_call_reg (code, X86_ECX);
                        x86_patch (patch, code);
                } else {
                        /* FIXME: maybe save the jit tls in the prolog */
                }
-               if ((lmf_tls_offset != -1) && !optimize_for_xen) {
-                       /*
-                        * Optimized version which uses the mono_lmf TLS variable instead of indirection
-                        * through the mono_lmf_addr TLS variable.
-                        */
-                       /* reg = previous_lmf */
-                       amd64_mov_reg_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), sizeof(gpointer));
-                       x86_prefix (code, X86_FS_PREFIX);
-                       amd64_mov_mem_reg (code, lmf_tls_offset, AMD64_R11, 8);
-               } else {
-                       /* Restore previous lmf */
-                       amd64_mov_reg_membase (code, AMD64_RCX, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, previous_lmf), sizeof(gpointer));
-                       amd64_mov_reg_membase (code, AMD64_R11, cfg->frame_reg, lmf_offset + G_STRUCT_OFFSET (MonoLMF, lmf_addr), sizeof(gpointer));
-                       amd64_mov_membase_reg (code, AMD64_R11, 0, AMD64_RCX, sizeof(gpointer));
-               }
+
+               code = emit_restore_lmf (cfg, code, lmf_offset);
 
                /* Restore caller saved regs */
                if (cfg->used_int_regs & (1 << AMD64_RBP)) {
@@ -7233,7 +7354,8 @@ mono_arch_emit_exceptions (MonoCompile *cfg)
                switch (patch_info->type) {
                case MONO_PATCH_INFO_R8:
                case MONO_PATCH_INFO_R4: {
-                       guint8 *pos, *patch_pos, *target_pos;
+                       guint8 *pos, *patch_pos;
+                       guint32 target_pos;
 
                        /* The SSE opcodes require a 16 byte alignment */
 #if defined(__default_codegen__)