<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">2017-12-06 13:52 GMT+00:00 Gian-Carlo Pascutto <span dir="ltr"><<a href="mailto:gcp@sjeng.org" target="_blank">gcp@sjeng.org</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On 06-12-17 11:47, Aja Huang wrote:<br>
> All I can say is that first-play-urgency is not a significant<br>
> technical detail, and what's why we didn't specify it in the paper.<br>
<br>
</span>I will have to disagree here. Of course, it's always possible I'm<br>
misunderstanding something, or I have a program bug that I'm mixing up<br>
with this.<br></blockquote><div><br></div><div>No matter I agree with you or not, unfortunately it's not up to me to decide whether I can answer the question, even if I am personally happy to (in fact, this post might be already exceeding my barrier a bit). I hope you understand, and good luck with making it works. </div><div><br></div><div>I'm very happy the two Go papers we published have helped the Go community. My dream was fulfilled and I've switched to pursue other challenges. :)</div><div><br></div><div>Aja</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Or maybe you mean that you expect the program to improve regardless of<br>
this setting. In any case, I've now seen people state here twice that<br>
this is detail that doesn't matter. But practical results suggest otherwise.<br>
<br>
For a strong supervised network, FPU=0 (i.e. not exploring all successor<br>
nodes for a longer time, relying strongly on policy priors) is much<br>
stronger. I've seen this in Leela Zero after we tested it, and I've<br>
known it to be true from regular Leela for a long time. IIRC, the strong<br>
open source Go bots also use some form of progressive widening, which<br>
produces the same effect.<br>
<br>
For a weak RL network without much useful policy priors, FPU>1 is much<br>
stronger than FPU=0.<br>
<br>
Now these are relative scores of course, so one could argue they don't<br>
affect the learning process. But they actually do that as well!<br>
<br>
The new AZ paper uses MCTS playouts = 800, and plays proportionally<br>
according to MCTS output. (Previous AGZ had playouts = 1600,<br>
proportional for first 30 moves).<br>
<br>
Consider what this means for the search probability outputs, exactly the<br>
thing the policy network has to learn. With FPU=1, the move<br>
probabilities are much more uniform, and the moves played are<br>
consequentially much more likely to be bad or even blunders, because<br>
there are less playouts that can be spent on the best move, even if it<br>
was found.<br>
<span class=""><br>
> The initial value of Q is not very important because Q+U is<br>
> dominated by the U piece when the number of visits is small.<br>
<br>
</span>a = Q(s, a) + coeff * P(s,a) * (sqrt(parent->visits) / 1.0f +<br>
child->visits());<br>
<br>
Assume parent->visits = 100, sqrt = 10<br>
Assume child->visits = 0<br>
Assume P(s, a) = 0.0027 (near uniform prior for "weak" network)<br>
<br>
The right most side of this (U term) is ~1. This clearly does not<br>
dominate the Q term. If Q > 1 (classic FPU) then every child node will<br>
get expanded. If Q = 0 (Q(s, a) = 0) then the first picked child<br>
(largest policy prior) will get something like 10 expansions before<br>
another child gets picked. That's a massive difference in search tree<br>
shape, *especially* with only 800 total playouts.<br>
<div class="HOEnZb"><div class="h5"><br>
--<br>
GCP<br>
______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a></div></div></blockquote></div><br></div></div>