<div dir="ltr"><div>Congratulations, people at DeepMind! Your paper is very interesting to read.<br><br></div><div>I have a question about the paper. On policy network training it says<br><br>> On the first pass through the training pipeline, the baseline was set to zero; on the second pass we used the value network vθ(s) as a baseline;<br><br></div><div>but I cannot find any other description about the "second pass". What is it? It uses  vθ(s), so at least it is done after training  vθ(s). Is it that after completing the whole training pipeline depicted in Fig. 1, only the RL policy network training part is repeated? Or training  vθ(s) is also repeated? Is the second pass the last pass, or there are more passes? Sorry if I just missed the relevant part of the paper.<br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">2016-02-13 12:21 GMT+09:00 John Tromp <span dir="ltr"><<a href="mailto:john.tromp@gmail.com" target="_blank">john.tromp@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Wed, Jan 27, 2016 at 1:46 PM, Aja Huang <<a href="mailto:ajahuang@google.com">ajahuang@google.com</a>> wrote:<br>
</span><span class="">> We are very excited to announce that our Go program, AlphaGo, has beaten a<br>
> professional player for the first time. AlphaGo beat the European champion<br>
> Fan Hui by 5 games to 0.<br>
<br>
</span>It's interesting to go back nearly a decade and read this 2007 article:<br>
<br>
<a href="http://spectrum.ieee.org/computing/software/cracking-go" rel="noreferrer" target="_blank">http://spectrum.ieee.org/computing/software/cracking-go</a><br>
<br>
where Feng-Hsiung Hsu, Deep Blue's lead developer, made this prediction:<br>
<br>
"Nevertheless, I believe that a world-champion-level Go machine can be<br>
built within 10 years"<br>
<br>
Which now appears to be spot on. March 9 cannot come soon enough...<br>
The remainder of his prediction rings less true though:<br>
<br>
", based on the same method of intensive analysis—brute force,<br>
basically—that Deep Blue employed for chess".<br>
<br>
regards,<br>
-John<br>
<div class="HOEnZb"><div class="h5">_______________________________________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/mailman/listinfo/computer-go</a></div></div></blockquote></div><br></div>