<div dir="ltr"><div>I am not sure where in the paper you think they use Q(s,a) for a node s that hasn't been expanded yet. Q(s,a) is a property of an edge of the graph. At a leaf they only use the `value' output of the neural network.<br><br></div>If this doesn't match your understanding of the paper, please point to the specific paragraph that you are having trouble with.<br><br>Álvaro.<br><br><br></div><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Dec 3, 2017 at 9:53 AM, Andy <span dir="ltr"><<a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I don't see the AGZ paper explain what the mean action-value Q(s,a) should be for a node that hasn't been expanded yet. The equation for Q(s,a) has the term 1/N(s,a) in it because it's supposed to average over N(s,a) visits. But in this case N(s,a)=0 so that won't work.<div><br></div><div>Does anyone know how this is supposed to work? Or is it another detail AGZ didn't spell out?</div><div><br></div><div><br></div></div>
<br>______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br></blockquote></div><br></div>