Add constant folding for LVR when 16 aligned, clean up prior commit by removing dead test code for LVR/LVL/STVL/STVR opcodes and legacy hir sequence

Delay using mm_pause in KeAcquireSpinLockAtRaisedIrql_entry, a huge amount of time is spent spinning in halo3
2022-09-04 11:44:29 -07:00 · 2022-09-04 11:44:29 -07:00 · 2e5c4937fd
parent c6010bd4b1
commit 2e5c4937fd
4 changed files with 22 additions and 408 deletions
--- a/src/xenia/cpu/backend/x64/x64_seq_memory.cc
+++ b/src/xenia/cpu/backend/x64/x64_seq_memory.cc
@ -360,24 +360,6 @@ EMITTER_OPCODE_TABLE(OPCODE_ATOMIC_EXCHANGE, ATOMIC_EXCHANGE_I8,
                     ATOMIC_EXCHANGE_I16, ATOMIC_EXCHANGE_I32,
                     ATOMIC_EXCHANGE_I64);
 static __m128i callnativesafe_lvl(void* ctx, void* addr) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  uaddr &= ~0xfULL;
  __m128i tempload = _mm_loadu_si128((const __m128i*)uaddr);
  __m128i badhelper =
      _mm_setr_epi8(3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12);
  __m128i tmpshuf = _mm_add_epi8(badhelper, _mm_set1_epi8((char)bad_offs));
  tmpshuf = _mm_or_si128(tmpshuf, _mm_cmpgt_epi8(tmpshuf, _mm_set1_epi8(15)));
  return _mm_shuffle_epi8(tempload, tmpshuf);
 }
 struct LVL_V128 : Sequence<LVL_V128, I<OPCODE_LVL, V128Op, I64Op>> {
  static void Emit(X64Emitter& e, const EmitArgType& i) {
    e.mov(e.edx, 0xf);
@ -405,25 +387,6 @@ struct LVL_V128 : Sequence<LVL_V128, I<OPCODE_LVL, V128Op, I64Op>> {
 };
 EMITTER_OPCODE_TABLE(OPCODE_LVL, LVL_V128);
 static __m128i callnativesafe_lvr(void* ctx, void* addr) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  if (!bad_offs) {
    return _mm_setzero_si128();
  }
  uaddr &= ~0xfULL;
  __m128i tempload = _mm_loadu_si128((const __m128i*)uaddr);
  __m128i badhelper =
      _mm_setr_epi8(3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12);
  __m128i tmpshuf = _mm_add_epi8(badhelper, _mm_set1_epi8((char)bad_offs));
  tmpshuf = _mm_or_si128(tmpshuf, _mm_cmplt_epi8(tmpshuf, _mm_set1_epi8(16)));
  return _mm_shuffle_epi8(tempload, tmpshuf);
 }
 struct LVR_V128 : Sequence<LVR_V128, I<OPCODE_LVR, V128Op, I64Op>> {
  static void Emit(X64Emitter& e, const EmitArgType& i) {
@ -457,181 +420,8 @@ struct LVR_V128 : Sequence<LVR_V128, I<OPCODE_LVR, V128Op, I64Op>> {
 };
 EMITTER_OPCODE_TABLE(OPCODE_LVR, LVR_V128);
 static __m128i PermuteV128Bytes(__m128i selector, __m128i src1, __m128i src2) {
 #if 1
  __m128i selector2 = _mm_xor_si128(selector, _mm_set1_epi8(3));
  __m128i src1_shuf = _mm_shuffle_epi8(src1, selector2);
  __m128i src2_shuf = _mm_shuffle_epi8(src2, selector2);
  __m128i src2_selection = _mm_cmpgt_epi8(selector2, _mm_set1_epi8(15));
  return _mm_blendv_epi8(src1_shuf, src2_shuf, src2_selection);
 #else
  // not the issue
  unsigned char tmpbuffer[32];
  _mm_storeu_si128((__m128i*)tmpbuffer, src1);
  _mm_storeu_si128((__m128i*)(&tmpbuffer[16]), src2);
  __m128i result;
  for (unsigned i = 0; i < 16; ++i) {
    result.m128i_u8[i] = tmpbuffer[(selector.m128i_u8[i] ^ 3) & 0x1f];
  }
  return result;
 #endif
 }
 static __m128i ByteSwap(__m128i input) {
  return _mm_shuffle_epi8(input, _mm_setr_epi32(0x00010203u, 0x04050607u,
                                                0x08090A0Bu, 0x0C0D0E0Fu));
 }
 static __m128i LVSR(char input) {
  __m128i lvsr_table_base = ByteSwap(_mm_setr_epi8(
      16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31));
  __m128i base_as_vec = _mm_loadu_si128((const __m128i*)&lvsr_table_base);
  __m128i shr_for_offset = _mm_sub_epi8(base_as_vec, _mm_set1_epi8(input));
  return shr_for_offset;
 }
 /*
 Value* eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
 // ea &= ~0xF
 ea = f.And(ea, f.LoadConstantUint64(~0xFull));
 Value* shrs = f.LoadVectorShr(eb);
 Value* zerovec = f.LoadZeroVec128();
 // v = (old & ~mask) | ((new >> eb) & mask)
 Value* new_value = f.Permute(shrs, zerovec, f.LoadVR(vd), INT8_TYPE);
 Value* old_value = f.ByteSwap(f.Load(ea, VEC128_TYPE));
 // mask = FFFF... >> eb
 Value* mask = f.Permute(shrs, zerovec, f.Not(zerovec), INT8_TYPE);
 Value* v = f.Select(mask, old_value, new_value);
 // ea &= ~0xF (handled above)
 f.Store(ea, f.ByteSwap(v));
 */
 #if 0
 static void callnativesafe_stvl(void* ctx, void* addr, __m128i* value) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  uaddr &= ~0xfULL;
  __m128i tempload = ByteSwap(_mm_loadu_si128((const __m128i*)uaddr));
  __m128i our_value_to_store = _mm_loadu_si128(value);
  __m128i shr_for_offset = LVSR((char)bad_offs);
  __m128i permuted_us =
      PermuteV128Bytes(shr_for_offset, _mm_setzero_si128(), our_value_to_store);
  //__m128i mask = PermuteV128Bytes(shr_for_offset, _mm_setzero_si128(),
   //                               _mm_set1_epi8((char)0xff));
  __m128i mask = _mm_cmpgt_epi8(shr_for_offset, _mm_set1_epi8(15));
  __m128i blended_input_and_memory =
      _mm_blendv_epi8(tempload, permuted_us, mask);
  __m128i swapped_final_result = ByteSwap(blended_input_and_memory);
  _mm_storeu_si128((__m128i*)uaddr, swapped_final_result);
 }
 #else
 static void callnativesafe_stvl(void* ctx, void* addr, __m128i* value) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  uaddr &= ~0xfULL;
  __m128i tempload = _mm_loadu_si128((const __m128i*)uaddr);
  __m128i our_value_to_store = _mm_loadu_si128(value);
  __m128i shr_for_offset;
  {
    __m128i lvsr_table_base =
        _mm_sub_epi8(_mm_setr_epi8(16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
                                   27, 28, 29, 30, 31),
                     _mm_set1_epi8(16));
    shr_for_offset =
        _mm_sub_epi8(lvsr_table_base, _mm_set1_epi8((char)bad_offs));
  }
  __m128i permuted_us;
  {
    __m128i selector2 = _mm_xor_si128(shr_for_offset, _mm_set1_epi8(3));
    __m128i src2_shuf = _mm_shuffle_epi8(our_value_to_store, selector2);
    permuted_us = src2_shuf;
  }
  __m128i blended_input_and_memory =
      _mm_blendv_epi8(permuted_us, tempload, shr_for_offset);
  __m128i swapped_final_result = blended_input_and_memory;
  _mm_storeu_si128((__m128i*)uaddr, swapped_final_result);
 }
 static void callnativesafe_stvl_experiment(void* addr, __m128i* value) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  uaddr &= ~0xfULL;
  __m128i tempload = _mm_loadu_si128((const __m128i*)uaddr);
  __m128i our_value_to_store = _mm_loadu_si128(value);
  __m128i shr_for_offset;
  {
    __m128i lvsr_table_base =
        _mm_sub_epi8(_mm_setr_epi8(16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
                                   27, 28, 29, 30, 31),
                     _mm_set1_epi8(16));
    // lvsr_table_base = _mm_xor_si128(lvsr_table_base, _mm_set1_epi8(3));
    // lvsr_table_base = ByteSwap(lvsr_table_base);
    shr_for_offset =
        _mm_sub_epi8(lvsr_table_base, _mm_set1_epi8((char)bad_offs));
  }
  __m128i permuted_us;
  {
    shr_for_offset = _mm_xor_si128(shr_for_offset, _mm_set1_epi8(3));
    __m128i src2_shuf = _mm_shuffle_epi8(our_value_to_store, shr_for_offset);
    permuted_us = src2_shuf;
  }
  __m128i blended_input_and_memory =
      _mm_blendv_epi8(permuted_us, tempload, shr_for_offset);
  __m128i swapped_final_result = blended_input_and_memory;
  _mm_storeu_si128((__m128i*)uaddr, swapped_final_result);
 }
 #endif
 struct STVL_V128 : Sequence<STVL_V128, I<OPCODE_STVL, VoidOp, I64Op, V128Op>> {
  static void Emit(X64Emitter& e, const EmitArgType& i) {
 #if 0
 	  e.lea(e.GetNativeParam(0), e.ptr[ComputeMemoryAddress(e, i.src1)]);
    Xmm src2 = GetInputRegOrConstant(e, i.src2, e.xmm1);
    e.lea(e.GetNativeParam(1), e.StashXmm(0, src2));
    e.CallNativeSafe((void*)callnativesafe_stvl);
 #else
    e.mov(e.ecx, 15);
    e.mov(e.edx, e.ecx);
    e.lea(e.rax, e.ptr[ComputeMemoryAddress(e, i.src1)]);
@ -640,7 +430,6 @@ struct STVL_V128 : Sequence<STVL_V128, I<OPCODE_STVL, VoidOp, I64Op, V128Op>> {
    e.not_(e.rdx);
    e.and_(e.rax, e.rdx);
    e.vmovdqa(e.xmm1, e.GetXmmConstPtr(XMMSTVLShuffle));
    // e.vmovdqa(e.xmm2, e.GetXmmConstPtr(XMMSwapWordMask));
    if (e.IsFeatureEnabled(kX64EmitAVX2)) {
      e.vpbroadcastb(e.xmm3, e.xmm0);
    } else {
@ -650,126 +439,18 @@ struct STVL_V128 : Sequence<STVL_V128, I<OPCODE_STVL, VoidOp, I64Op, V128Op>> {
    e.vpxor(e.xmm1, e.xmm0,
            e.GetXmmConstPtr(XMMSwapWordMask));  // xmm1 from now on will be our
                                                 // selector for blend/shuffle
    // we can reuse xmm0, xmm2 and xmm3 now
    // e.vmovdqa(e.xmm0, e.ptr[e.rax]);
    Xmm src2 = GetInputRegOrConstant(e, i.src2, e.xmm0);
    e.vpshufb(e.xmm2, src2, e.xmm1);
    e.vpblendvb(e.xmm3, e.xmm2, e.ptr[e.rax], e.xmm1);
    e.vmovdqa(e.ptr[e.rax], e.xmm3);
 #endif
  }
 };
 EMITTER_OPCODE_TABLE(OPCODE_STVL, STVL_V128);
 /*
  Value* eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  // Skip if %16=0 (no data to store).
  auto skip_label = f.NewLabel();
  f.BranchFalse(eb, skip_label);
  // ea &= ~0xF
  // NOTE: need to recalculate ea and eb because after Branch we start a new
  // block and we can't use their previous instantiation in the new block
  ea = CalculateEA_0(f, ra, rb);
  eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  ea = f.And(ea, f.LoadConstantUint64(~0xFull));
  Value* shrs = f.LoadVectorShr(eb);
  Value* zerovec = f.LoadZeroVec128();
  // v = (old & ~mask) | ((new << eb) & mask)
  Value* new_value = f.Permute(shrs, f.LoadVR(vd), zerovec, INT8_TYPE);
  Value* old_value = f.ByteSwap(f.Load(ea, VEC128_TYPE));
  // mask = ~FFFF... >> eb
  Value* mask = f.Permute(shrs, f.Not(zerovec), zerovec, INT8_TYPE);
  Value* v = f.Select(mask, old_value, new_value);
  // ea &= ~0xF (handled above)
  f.Store(ea, f.ByteSwap(v));
  f.MarkLabel(skip_label);
 */
 #if 0
 static void callnativesafe_stvr(void* ctx, void* addr, __m128i* value) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  if (!bad_offs) {
    return;
  }
  uaddr &= ~0xfULL;
  __m128i tempload = ByteSwap(_mm_loadu_si128((const __m128i*)uaddr));
  __m128i our_value_to_store = _mm_loadu_si128(value);
  __m128i shr_for_offset = LVSR((char)bad_offs);
  __m128i permuted_us = PermuteV128Bytes(
      shr_for_offset, our_value_to_store, _mm_setzero_si128() );
  __m128i mask = PermuteV128Bytes(
      shr_for_offset, _mm_set1_epi8((char)0xff) ,_mm_setzero_si128()
                                 );
  //__m128i mask = _mm_cmpgt_epi8(shr_for_offset, _mm_set1_epi8(15));
  __m128i blended_input_and_memory =
      _mm_blendv_epi8(tempload, permuted_us, mask);
  __m128i swapped_final_result = ByteSwap(blended_input_and_memory);
  _mm_storeu_si128((__m128i*)uaddr, swapped_final_result);
 }
 #else
 static void callnativesafe_stvr(void* ctx, void* addr, __m128i* value) {
  uintptr_t uaddr = reinterpret_cast<uintptr_t>(addr);
  uintptr_t bad_offs = uaddr & 0xf;
  uaddr &= ~0xfULL;
  if (!bad_offs) {
    return;
  }
  __m128i tempload = _mm_loadu_si128((const __m128i*)uaddr);
  __m128i our_value_to_store = _mm_loadu_si128(value);
  __m128i shr_for_offset;
  {
    __m128i lvsr_table_base =
        _mm_sub_epi8(_mm_setr_epi8(16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
                                   27, 28, 29, 30, 31),
                     _mm_set1_epi8(16));
    // lvsr_table_base = _mm_xor_si128(lvsr_table_base, _mm_set1_epi8(3));
    // lvsr_table_base = ByteSwap(lvsr_table_base);
    shr_for_offset =
        _mm_sub_epi8(lvsr_table_base, _mm_set1_epi8((char)bad_offs));
  }
  __m128i permuted_us;
  {
    shr_for_offset = _mm_xor_si128(shr_for_offset, _mm_set1_epi8((char)0x83));
    __m128i src2_shuf = _mm_shuffle_epi8(our_value_to_store, shr_for_offset);
    permuted_us = src2_shuf;
  }
  __m128i blended_input_and_memory =
      _mm_blendv_epi8(permuted_us, tempload, shr_for_offset);
  __m128i swapped_final_result = blended_input_and_memory;
  _mm_storeu_si128((__m128i*)uaddr, swapped_final_result);
 }
 #endif
 struct STVR_V128 : Sequence<STVR_V128, I<OPCODE_STVR, VoidOp, I64Op, V128Op>> {
  static void Emit(X64Emitter& e, const EmitArgType& i) {
 #if 0
    e.lea(e.GetNativeParam(0), e.ptr[ComputeMemoryAddress(e, i.src1)]);
    Xmm src2 = GetInputRegOrConstant(e, i.src2, e.xmm1);
    e.lea(e.GetNativeParam(1), e.StashXmm(0, src2));
    e.CallNativeSafe((void*)callnativesafe_stvr);
 #else
    Xbyak::Label skipper{};
    e.mov(e.ecx, 15);
    e.mov(e.edx, e.ecx);
@ -782,7 +463,7 @@ struct STVR_V128 : Sequence<STVR_V128, I<OPCODE_STVR, VoidOp, I64Op, V128Op>> {
    e.vmovdqa(e.xmm1, e.GetXmmConstPtr(XMMSTVLShuffle));
    // todo: maybe a table lookup might be a better idea for getting the
    // shuffle/blend
-    //  e.vmovdqa(e.xmm2, e.GetXmmConstPtr(XMMSTVRSwapMask));
+
    if (e.IsFeatureEnabled(kX64EmitAVX2)) {
      e.vpbroadcastb(e.xmm3, e.xmm0);
    } else {
@ -792,8 +473,6 @@ struct STVR_V128 : Sequence<STVR_V128, I<OPCODE_STVR, VoidOp, I64Op, V128Op>> {
    e.vpxor(e.xmm1, e.xmm0,
            e.GetXmmConstPtr(XMMSTVRSwapMask));  // xmm1 from now on will be our
                                                 // selector for blend/shuffle
    // we can reuse xmm0, xmm2 and xmm3 now
    // e.vmovdqa(e.xmm0, e.ptr[e.rax]);
    Xmm src2 = GetInputRegOrConstant(e, i.src2, e.xmm0);
@ -801,7 +480,6 @@ struct STVR_V128 : Sequence<STVR_V128, I<OPCODE_STVR, VoidOp, I64Op, V128Op>> {
    e.vpblendvb(e.xmm3, e.xmm2, e.ptr[e.rax], e.xmm1);
    e.vmovdqa(e.ptr[e.rax], e.xmm3);
    e.L(skipper);
 #endif
  }
 };
 EMITTER_OPCODE_TABLE(OPCODE_STVR, STVR_V128);
--- a/src/xenia/cpu/compiler/passes/constant_propagation_pass.cc
+++ b/src/xenia/cpu/compiler/passes/constant_propagation_pass.cc
@ -243,7 +243,16 @@ bool ConstantPropagationPass::Run(HIRBuilder* builder, bool& result) {
            result = true;
          }
          break;
-
+        case OPCODE_LVR:
          if (i->src1.value->IsConstant()) {
            if (!(i->src1.value->AsUint32() & 0xF)) {
              v->set_zero(VEC128_TYPE);
              i->Remove();
              result = true;
              break;
            }
          }
          break;
        case OPCODE_LOAD:
        case OPCODE_LOAD_OFFSET:
          if (i->src1.value->IsConstant()) {
@ -921,6 +930,7 @@ bool ConstantPropagationPass::Run(HIRBuilder* builder, bool& result) {
            result = true;
          }
          break;
        default:
          // Ignored.
          break;
--- a/src/xenia/cpu/ppc/ppc_emit_altivec.cc
+++ b/src/xenia/cpu/ppc/ppc_emit_altivec.cc
@ -208,20 +208,10 @@ int InstrEmit_stvxl128(PPCHIRBuilder& f, const InstrData& i) {
 int InstrEmit_lvlx_(PPCHIRBuilder& f, const InstrData& i, uint32_t vd,
                    uint32_t ra, uint32_t rb) {
  Value* ea = CalculateEA_0(f, ra, rb);
-#if 0
+
  Value* eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  // ea &= ~0xF
  ea = f.And(ea, f.LoadConstantUint64(~0xFull));
  // v = (new << eb)
  Value* v = f.Permute(f.LoadVectorShl(eb), f.ByteSwap(f.Load(ea, VEC128_TYPE)),
                       f.LoadZeroVec128(), INT8_TYPE);
  f.StoreVR(vd, v);
  return 0;
 #else
  Value* val = f.LoadVectorLeft(ea);
  f.StoreVR(vd, val);
  return 0;
 #endif
 }
 int InstrEmit_lvlx(PPCHIRBuilder& f, const InstrData& i) {
  return InstrEmit_lvlx_(f, i, i.X.RT, i.X.RA, i.X.RB);
@ -243,32 +233,10 @@ int InstrEmit_lvrx_(PPCHIRBuilder& f, const InstrData& i, uint32_t vd,
  // buffer, which sometimes may be nothing and hang off the end of the valid
  // page area. We still need to zero the resulting register, though.
  Value* ea = CalculateEA_0(f, ra, rb);
-#if 0
+
  Value* eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  // Skip if %16=0 (just load zero).
  auto load_label = f.NewLabel();
  auto end_label = f.NewLabel();
  f.BranchTrue(eb, load_label);
  f.StoreVR(vd, f.LoadZeroVec128());
  f.Branch(end_label);
  f.MarkLabel(load_label);
  // ea &= ~0xF
  // NOTE: need to recalculate ea and eb because after Branch we start a new
  // block and we can't use their previous instantiation in the new block
  ea = CalculateEA_0(f, ra, rb);
  eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  ea = f.And(ea, f.LoadConstantUint64(~0xFull));
  // v = (new >> (16 - eb))
  Value* v = f.Permute(f.LoadVectorShl(eb), f.LoadZeroVec128(),
                       f.ByteSwap(f.Load(ea, VEC128_TYPE)), INT8_TYPE);
  f.StoreVR(vd, v);
  f.MarkLabel(end_label);
  return 0;
 #else
  Value* val = f.LoadVectorRight(ea);
  f.StoreVR(vd, val);
  return 0;
 #endif
 }
 int InstrEmit_lvrx(PPCHIRBuilder& f, const InstrData& i) {
  return InstrEmit_lvrx_(f, i, i.X.RT, i.X.RA, i.X.RB);
@ -289,34 +257,9 @@ int InstrEmit_stvlx_(PPCHIRBuilder& f, const InstrData& i, uint32_t vd,
  //       we could optimize this to prevent the other load/mask, in that case.
  Value* ea = CalculateEA_0(f, ra, rb);
 #if 0
  Value* eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  // ea &= ~0xF
  ea = f.And(ea, f.LoadConstantUint64(~0xFull));
  Value* shrs = f.LoadVectorShr(eb);
  Value* zerovec = f.LoadZeroVec128();
  // v = (old & ~mask) | ((new >> eb) & mask)
  Value* mask = f.Permute(shrs, zerovec, f.Not(zerovec), INT8_TYPE);
  Value* new_value = f.Permute(shrs, zerovec, f.LoadVR(vd), INT8_TYPE);
  Value* old_value = f.ByteSwap(f.Load(ea, VEC128_TYPE));
  /*
  these permutes need to be looked at closer. keep in mind Permute is meant to
  emulate vmx's shuffles and does not generate particularly good code. The logic
  here looks as if it might make more sense as a comparison (
 */
  // mask = FFFF... >> eb
  Value* v = f.Select(mask, old_value, new_value);
  // ea &= ~0xF (handled above)
  f.Store(ea, f.ByteSwap(v));
 #else
  Value* vdr = f.LoadVR(vd);
  f.StoreVectorLeft(ea, vdr);
 #endif
  return 0;
 }
 int InstrEmit_stvlx(PPCHIRBuilder& f, const InstrData& i) {
@ -339,32 +282,9 @@ int InstrEmit_stvrx_(PPCHIRBuilder& f, const InstrData& i, uint32_t vd,
  // buffer, which sometimes may be nothing and hang off the end of the valid
  // page area.
  Value* ea = CalculateEA_0(f, ra, rb);
-#if 0
+
  Value* eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  // Skip if %16=0 (no data to store).
  auto skip_label = f.NewLabel();
  f.BranchFalse(eb, skip_label);
  // ea &= ~0xF
  // NOTE: need to recalculate ea and eb because after Branch we start a new
  // block and we can't use their previous instantiation in the new block
  ea = CalculateEA_0(f, ra, rb);
  eb = f.And(f.Truncate(ea, INT8_TYPE), f.LoadConstantInt8(0xF));
  ea = f.And(ea, f.LoadConstantUint64(~0xFull));
  Value* shrs = f.LoadVectorShr(eb);
  Value* zerovec = f.LoadZeroVec128();
  // v = (old & ~mask) | ((new << eb) & mask)
  Value* new_value = f.Permute(shrs, f.LoadVR(vd), zerovec, INT8_TYPE);
  Value* old_value = f.ByteSwap(f.Load(ea, VEC128_TYPE));
  // mask = ~FFFF... >> eb
  Value* mask = f.Permute(shrs, f.Not(zerovec), zerovec, INT8_TYPE);
  Value* v = f.Select(mask, old_value, new_value);
  // ea &= ~0xF (handled above)
  f.Store(ea, f.ByteSwap(v));
  f.MarkLabel(skip_label);
 #else
  Value* vdr = f.LoadVR(vd);
  f.StoreVectorRight(ea, vdr);
 #endif
  return 0;
 }
 int InstrEmit_stvrx(PPCHIRBuilder& f, const InstrData& i) {
--- a/src/xenia/kernel/xboxkrnl/xboxkrnl_threading.cc
+++ b/src/xenia/kernel/xboxkrnl/xboxkrnl_threading.cc
@ -952,11 +952,17 @@ void KfReleaseSpinLock_entry(lpdword_t lock_ptr, dword_t old_irql) {
 }
 DECLARE_XBOXKRNL_EXPORT2(KfReleaseSpinLock, kThreading, kImplemented,
                         kHighFrequency);
-
+// todo: this is not accurate
 void KeAcquireSpinLockAtRaisedIrql_entry(lpdword_t lock_ptr) {
  // Lock.
  auto lock = reinterpret_cast<uint32_t*>(lock_ptr.host_address());
  while (!xe::atomic_cas(0, 1, lock)) {
 #if XE_ARCH_AMD64 == 1
    // todo: this is just a nop if they don't have SMT, which is not great
    // either...
    _mm_pause();
 #endif
    // Spin!
    // TODO(benvanik): error on deadlock?
  }