<div dir="ltr"><div>Figure 2a shows two bolded Q+U max values. The second one is going to a leaf that doesn't exist yet, i.e. not expanded yet. Where do they get that Q value from? </div><div><br></div><div>The associated text doesn't clarify the situation: "Figure 2: Monte-Carlo tree search in AlphaGo Zero. a Each simulation traverses the tree by selecting the edge with maximum action-value Q, plus an upper confidence bound U that depends on a stored prior probability P and visit count N for that edge (which is incremented once traversed). b The leaf node is expanded..."</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">2017-12-03 9:44 GMT-06:00 Álvaro Begué <span dir="ltr"><<a href="mailto:alvaro.begue@gmail.com" target="_blank">alvaro.begue@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>I am not sure where in the paper you think they use Q(s,a) for a node s that hasn't been expanded yet. Q(s,a) is a property of an edge of the graph. At a leaf they only use the `value' output of the neural network.<br><br></div>If this doesn't match your understanding of the paper, please point to the specific paragraph that you are having trouble with.<br><br>Álvaro.<br><br><br></div><div class="gmail_extra"><br><div class="gmail_quote"><span class="">On Sun, Dec 3, 2017 at 9:53 AM, Andy <span dir="ltr"><<a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a>></span> wrote:<br></span><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><div dir="ltr">I don't see the AGZ paper explain what the mean action-value Q(s,a) should be for a node that hasn't been expanded yet. The equation for Q(s,a) has the term 1/N(s,a) in it because it's supposed to average over N(s,a) visits. But in this case N(s,a)=0 so that won't work.<div><br></div><div>Does anyone know how this is supposed to work? Or is it another detail AGZ didn't spell out?</div><div><br></div><div><br></div></div>
<br></span>______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/mailman<wbr>/listinfo/computer-go</a><br></blockquote></div><br></div>
<br>______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br></blockquote></div><br></div>