<div dir="ltr">The initial value of Q is not very important because Q+U is dominated by the U piece when the number of visits is small. <br><div><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Dec 3, 2017 at 3:39 PM, Brian Lee <span dir="ltr"><<a href="mailto:brian.kihoon.lee@gmail.com" target="_blank">brian.kihoon.lee@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">It should default to the Q of the parent node. Otherwise, let's say that the root node is a losing position. Upon choosing a followup move, the Q will be updated to a very negative value, and that node won't get explored again - at least until all 362 top-level children have been explored and revealed to have negative values. So without initializing Q to the parent's Q, you would end up wasting 362 MCTS iterations.<div><br></div><div>Brian<br><br><div class="gmail_quote"><div dir="ltr">On Sun, Dec 3, 2017 at 3:25 PM <<a href="mailto:computer-go-request@computer-go.org" target="_blank">computer-go-request@computer-<wbr>go.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Send Computer-go mailing list submissions to<br>
        <a href="mailto:computer-go@computer-go.org" target="_blank">computer-go@computer-go.org</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
or, via email, send a message with subject or body 'help' to<br>
        <a href="mailto:computer-go-request@computer-go.org" target="_blank">computer-go-request@computer-<wbr>go.org</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:computer-go-owner@computer-go.org" target="_blank">computer-go-owner@computer-go.<wbr>org</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of Computer-go digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
   1. action-value Q for unexpanded nodes (Andy)<br>
   2. Re: action-value Q for unexpanded nodes (Álvaro Begué)<br>
   3. Re: action-value Q for unexpanded nodes (Andy)<br>
   4. Re: action-value Q for unexpanded nodes (Rémi Coulom)<br>
<br>
<br>
------------------------------<wbr>------------------------------<wbr>----------<br>
<br>
Message: 1<br>
Date: Sun, 3 Dec 2017 08:53:02 -0600<br>
From: Andy <<a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a>><br>
To: computer-go <<a href="mailto:computer-go@computer-go.org" target="_blank">computer-go@computer-go.org</a>><br>
Subject: [Computer-go] action-value Q for unexpanded nodes<br>
Message-ID:<br>
        <<a href="mailto:CAAtbd5Cguzt4arbSuM8-d91J31zNQ%2B2TKzpbXV4U5fxThHd3BQ@mail.gmail.com" target="_blank">CAAtbd5Cguzt4arbSuM8-<wbr>d91J31zNQ+<wbr>2TKzpbXV4U5fxThHd3BQ@mail.<wbr>gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<span class=""><br>
<br>
I don't see the AGZ paper explain what the mean action-value Q(s,a) should<br>
be for a node that hasn't been expanded yet. The equation for Q(s,a) has<br>
the term 1/N(s,a) in it because it's supposed to average over N(s,a)<br>
visits. But in this case N(s,a)=0 so that won't work.<br>
<br>
Does anyone know how this is supposed to work? Or is it another detail AGZ<br>
didn't spell out?<br></span>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://computer-go.org/pipermail/computer-go/attachments/20171203/8fc94bcd/attachment-0001.html" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>pipermail/computer-go/<wbr>attachments/20171203/8fc94bcd/<wbr>attachment-0001.html</a>><br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Sun, 3 Dec 2017 10:44:00 -0500<br>
From: Álvaro Begué <<a href="mailto:alvaro.begue@gmail.com" target="_blank">alvaro.begue@gmail.com</a>><br>
To: computer-go <<a href="mailto:computer-go@computer-go.org" target="_blank">computer-go@computer-go.org</a>><br>
Subject: Re: [Computer-go] action-value Q for unexpanded nodes<br>
Message-ID:<br>
        <<a href="mailto:CAF8dVMU_F0ue2YyKvBwVKrcSUY93WN-X9M8TgMcz%2Bdqfbe4AaA@mail.gmail.com" target="_blank">CAF8dVMU_<wbr>F0ue2YyKvBwVKrcSUY93WN-<wbr>X9M8TgMcz+dqfbe4AaA@mail.<wbr>gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<span class=""><br>
<br>
I am not sure where in the paper you think they use Q(s,a) for a node s<br>
that hasn't been expanded yet. Q(s,a) is a property of an edge of the<br>
graph. At a leaf they only use the `value' output of the neural network.<br>
<br>
If this doesn't match your understanding of the paper, please point to the<br>
specific paragraph that you are having trouble with.<br>
<br>
Álvaro.<br>
<br>
<br>
<br>
On Sun, Dec 3, 2017 at 9:53 AM, Andy <<a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a>> wrote:<br>
<br>
> I don't see the AGZ paper explain what the mean action-value Q(s,a) should<br>
> be for a node that hasn't been expanded yet. The equation for Q(s,a) has<br>
> the term 1/N(s,a) in it because it's supposed to average over N(s,a)<br>
> visits. But in this case N(s,a)=0 so that won't work.<br>
><br>
> Does anyone know how this is supposed to work? Or is it another detail AGZ<br>
> didn't spell out?<br>
><br>
><br>
><br>
> ______________________________<wbr>_________________<br>
> Computer-go mailing list<br>
> <a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
> <a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
><br></span>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://computer-go.org/pipermail/computer-go/attachments/20171203/b8f3d1cc/attachment-0001.html" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>pipermail/computer-go/<wbr>attachments/20171203/b8f3d1cc/<wbr>attachment-0001.html</a>><br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Sun, 3 Dec 2017 10:27:16 -0600<br>
From: Andy <<a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a>><br>
To: computer-go <<a href="mailto:computer-go@computer-go.org" target="_blank">computer-go@computer-go.org</a>><br>
Subject: Re: [Computer-go] action-value Q for unexpanded nodes<br>
Message-ID:<br>
        <<a href="mailto:CAAtbd5CBDTsJ7wHjm9MybrTDBzLhqduJiTOSN49Ce8kUT5_vXw@mail.gmail.com" target="_blank">CAAtbd5CBDTsJ7wHjm9MybrTDBzLh<wbr>qduJiTOSN49Ce8kUT5_vXw@mail.<wbr>gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<div><div class="h5"><br>
<br>
Figure 2a shows two bolded Q+U max values. The second one is going to a<br>
leaf that doesn't exist yet, i.e. not expanded yet. Where do they get that<br>
Q value from?<br>
<br>
The associated text doesn't clarify the situation: "Figure 2: Monte-Carlo<br>
tree search in AlphaGo Zero. a Each simulation traverses the tree by<br>
selecting the edge with maximum action-value Q, plus an upper confidence<br>
bound U that depends on a stored prior probability P and visit count N for<br>
that edge (which is incremented once traversed). b The leaf node is<br>
expanded..."<br>
<br>
<br>
<br>
<br>
<br>
<br>
2017-12-03 9:44 GMT-06:00 Álvaro Begué <<a href="mailto:alvaro.begue@gmail.com" target="_blank">alvaro.begue@gmail.com</a>>:<br>
<br>
> I am not sure where in the paper you think they use Q(s,a) for a node s<br>
> that hasn't been expanded yet. Q(s,a) is a property of an edge of the<br>
> graph. At a leaf they only use the `value' output of the neural network.<br>
><br>
> If this doesn't match your understanding of the paper, please point to the<br>
> specific paragraph that you are having trouble with.<br>
><br>
> Álvaro.<br>
><br>
><br>
><br>
> On Sun, Dec 3, 2017 at 9:53 AM, Andy <<a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a>> wrote:<br>
><br>
>> I don't see the AGZ paper explain what the mean action-value Q(s,a)<br>
>> should be for a node that hasn't been expanded yet. The equation for Q(s,a)<br>
>> has the term 1/N(s,a) in it because it's supposed to average over N(s,a)<br>
>> visits. But in this case N(s,a)=0 so that won't work.<br>
>><br>
>> Does anyone know how this is supposed to work? Or is it another detail<br>
>> AGZ didn't spell out?<br>
>><br>
>><br>
>><br>
>> ______________________________<wbr>_________________<br>
>> Computer-go mailing list<br>
>> <a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
>> <a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
>><br>
><br>
><br>
> ______________________________<wbr>_________________<br>
> Computer-go mailing list<br>
> <a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
> <a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
><br></div></div>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://computer-go.org/pipermail/computer-go/attachments/20171203/c01677b3/attachment-0001.html" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>pipermail/computer-go/<wbr>attachments/20171203/c01677b3/<wbr>attachment-0001.html</a>><br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Sun, 3 Dec 2017 17:57:51 +0100 (CET)<br>
From: Rémi Coulom <<a href="mailto:remi.coulom@free.fr" target="_blank">remi.coulom@free.fr</a>><br>
To: <a href="mailto:computer-go@computer-go.org" target="_blank">computer-go@computer-go.org</a><br>
Subject: Re: [Computer-go] action-value Q for unexpanded nodes<br>
Message-ID:<br>
        <1885878373.291683317.<wbr>1512320271343.JavaMail.root@<wbr>spooler6-g27><br>
Content-Type: text/plain; charset=utf-8<span class=""><br>
<br>
They have a Q(s,a) term in their node-selection formula, but they don't tell what value they give to an action that has not yet been visited. Maybe Aja can tell us.<br>
<br>
----- Mail original -----<br>
De: "Álvaro Begué" <<a href="mailto:alvaro.begue@gmail.com" target="_blank">alvaro.begue@gmail.com</a>><br>
À: "computer-go" <<a href="mailto:computer-go@computer-go.org" target="_blank">computer-go@computer-go.org</a>><br>
Envoyé: Dimanche 3 Décembre 2017 16:44:00<br>
Objet: Re: [Computer-go] action-value Q for unexpanded nodes<br>
<br>
<br>
<br>
<br></span><span class="">
I am not sure where in the paper you think they use Q(s,a) for a node s that hasn't been expanded yet. Q(s,a) is a property of an edge of the graph. At a leaf they only use the `value' output of the neural network.<br>
<br>
If this doesn't match your understanding of the paper, please point to the specific paragraph that you are having trouble with.<br>
<br>
Álvaro.<br>
<br>
<br>
<br>
<br>
<br>
On Sun, Dec 3, 2017 at 9:53 AM, Andy < <a href="mailto:andy.olsen.tx@gmail.com" target="_blank">andy.olsen.tx@gmail.com</a> > wrote:<br>
<br>
<br>
<br>
I don't see the AGZ paper explain what the mean action-value Q(s,a) should be for a node that hasn't been expanded yet. The equation for Q(s,a) has the term 1/N(s,a) in it because it's supposed to average over N(s,a) visits. But in this case N(s,a)=0 so that won't work.<br>
<br>
<br>
Does anyone know how this is supposed to work? Or is it another detail AGZ didn't spell out?<br>
<br>
<br>
<br>
<br>
______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
<br>
<br>
______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
<br>
<br></span>
------------------------------<br>
<br>
Subject: Digest Footer<span class=""><br>
<br>
______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org" target="_blank">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br>
<br></span>
------------------------------<br>
<br>
End of Computer-go Digest, Vol 95, Issue 5<br>
******************************<wbr>************<br>
</blockquote></div></div></div>
<br>______________________________<wbr>_________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/<wbr>mailman/listinfo/computer-go</a><br></blockquote></div><br></div></div></div>