<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Mon, May 22, 2017 at 4:54 PM, Gian-Carlo Pascutto <span dir="ltr"><<a href="mailto:gcp@sjeng.org" target="_blank">gcp@sjeng.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span class="gmail-">On 22-05-17 15:46, Erik van der Werf wrote:<br>
> Anyway, LMR seems like a good idea, but last time I tried it (in Migos)<br>
> it did not help. In Magog I had some good results with fractional depth<br>
> reductions (like in Realization Probability Search), but it's a long<br>
> time ago and the engines were much weaker then...<br>
<br>
</span>What was generating your probabilities, though? A strong policy DCNN or<br>
something weaker?<br></blockquote><div><br></div><div>Nothing deep. Back then for the move predictor I don't think I ever tried more than two hidden layers (and it was only used near the root of the search tree). RPS was even simpler (so it could be used with fast deep searches). In hindsight I traded way too much accuracy for speed, but coming from standard a AlphaBeta framework it still was a big improvement.</div><div> </div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
ERPS (LMR with fractional reductions based on move probabilities) with<br>
alpha-beta seems very similar to having MCTS with the policy prior being<br>
a factor in the UCT formula. </blockquote><div><br></div><div>In the sense of the shape of the tree, possibly yes, but I have the impression that AlphaBeta and similar search algorithms are more brittle when working with high-variance (noisy) evaluations. In chess-like games it may be less of an issue due to the implicit mobility feature that it adds, but for Go mobility seems to be mostly irrelevant. The MCTS backup (averaging evaluations) seems to reduce the variance much better than a minimax backup.</div><div><br></div><div>Using a value net instead of raw Monte Carlo evaluation also reduces variance (a lot), so trying out AlphaBeta with DCNN evaluations definitely seems like an interesting experiment.</div><div> </div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">This is what AlphaGo did according to their<br>
2015 paper, so it can't be terrible, but it does mean that you are 100%<br>
blind to something the policy network doesn't see, which seems<br>
worrisome. I think I asked Aja once about what they do with first play<br>
urgency given that the paper doesn't address it - he politely ignored<br>
the question :-)<br></blockquote><div><br></div><div>I don't think anyone has had good results with high FPU; it seems in Go we simply cannot afford a very wide search (except perhaps near the root or on the PV). I'm not sure if they still use an UCB term (which would ensure some exploration of unlikely candidates). I think at some point David and others argued against it, but in my own experiments it was always helpful, and I think Aja may have found the same in Erica. Nevertheless, even without it I think an argument can be made that the minimax result can eventually be found.</div><div><br></div><div>I have an idea on what's causing the problems in Leela (and how you could fix it), but I'll hold of on further commenting until I have some more time to look at the examples.</div><div><br></div><div>Best,</div><div>Erik</div><div><br></div></div></div></div>