<div dir="ltr">I made a similar attempt as Alvaro to predict final ownership. You can find the code here: <a href="https://github.com/jmgilmer/GoCNN/">https://github.com/jmgilmer/GoCNN/</a>. It's trained to predict final ownership for about 15000 professional games which were played until the end (didn't end in resignation). It gets about 80.5% accuracy on a held out test set, although the accuracy greatly varies based on how far through the game you are. Can't say how well it would work in a go player. <div>-Justin</div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Feb 23, 2016 at 7:00 AM,  <span dir="ltr"><<a href="mailto:computer-go-request@computer-go.org" target="_blank">computer-go-request@computer-go.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Send Computer-go mailing list submissions to<br>
        <a href="mailto:computer-go@computer-go.org">computer-go@computer-go.org</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/mailman/listinfo/computer-go</a><br>
or, via email, send a message with subject or body 'help' to<br>
        <a href="mailto:computer-go-request@computer-go.org">computer-go-request@computer-go.org</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:computer-go-owner@computer-go.org">computer-go-owner@computer-go.org</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of Computer-go digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
   1. Re: Congratulations to Zen! (Robert Jasiek)<br>
   2. Move evalution by expected value, as product of expected<br>
      winrate and expected points? (Michael Markefka)<br>
   3. Re: Move evalution by expected value, as product of expected<br>
      winrate and expected points? (Álvaro Begué)<br>
   4. Re: Move evalution by expected value, as product of expected<br>
      winrate and expected points? (Robert Jasiek)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Mon, 22 Feb 2016 19:13:20 +0100<br>
From: Robert Jasiek <<a href="mailto:jasiek@snafu.de">jasiek@snafu.de</a>><br>
To: <a href="mailto:computer-go@computer-go.org">computer-go@computer-go.org</a><br>
Subject: Re: [Computer-go] Congratulations to Zen!<br>
Message-ID: <<a href="mailto:56CB4FC0.4010801@snafu.de">56CB4FC0.4010801@snafu.de</a>><br>
Content-Type: text/plain; charset=UTF-8; format=flowed<br>
<br>
Aja, sorry to bother you with trivialities, but how does Alphago avoid<br>
power or network failures and such incidents?<br>
<br>
--<br>
robert jasiek<br>
<br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Tue, 23 Feb 2016 11:36:57 +0100<br>
From: Michael Markefka <<a href="mailto:michael.markefka@gmail.com">michael.markefka@gmail.com</a>><br>
To: <a href="mailto:computer-go@computer-go.org">computer-go@computer-go.org</a><br>
Subject: [Computer-go] Move evalution by expected value, as product of<br>
        expected winrate and expected points?<br>
Message-ID:<br>
        <<a href="mailto:CAJg7PAPU_gbHvNy3Cv%2BD-p238_HkQkV5pOJxozjLy4nSqAsmPg@mail.gmail.com">CAJg7PAPU_gbHvNy3Cv+D-p238_HkQkV5pOJxozjLy4nSqAsmPg@mail.gmail.com</a>><br>
Content-Type: text/plain; charset=UTF-8<br>
<br>
Hello everyone,<br>
<br>
in the wake of AlphaGo using a DCNN to predict expected winrate of a<br>
move, I've been wondering whether one could train a DCNN for expected<br>
territory or points successfully enough to be of some use (leaving the<br>
issue of win by resignation for a more in-depth discussion). And,<br>
whether winrate and expected territory (or points) always run in<br>
parallel or whether there are diverging moments.<br>
<br>
Computer Go programs play what are considered slack or slow moves when<br>
ahead, sometimes being too conservative and giving away too much of<br>
their potential advantage. If expected points and expected winrate<br>
diverge, this could be a way to make the programs play in a more<br>
natural way, even if there were no strength increase to be gained.<br>
Then again there might be a parameter configuration that might yield<br>
some advantage and perhaps this configuration would need to be<br>
dynamic, favoring winrate the further the game progresses.<br>
<br>
<br>
As a general example for the idea, let's assume we have the following<br>
potential moves generated by our program:<br>
<br>
#1: Winrate 55%, +5 expected final points<br>
#2: Winrate 53%, +15 expected final points<br>
<br>
Is the move with higher winrate always better? Or would there be some<br>
benefit to choosing #2? Would this differ depending on how far along<br>
the game is?<br>
<br>
If we knew the winrate prediction to be perfect, then going by that<br>
alone would probably result in the best overall performance. But given<br>
some uncertainty there, expected value could be interesting.<br>
<br>
<br>
Any takers for some experiments?<br>
<br>
<br>
-Michael<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Tue, 23 Feb 2016 06:44:04 -0500<br>
From: Álvaro Begué <<a href="mailto:alvaro.begue@gmail.com">alvaro.begue@gmail.com</a>><br>
To: computer-go <<a href="mailto:computer-go@computer-go.org">computer-go@computer-go.org</a>><br>
Subject: Re: [Computer-go] Move evalution by expected value, as<br>
        product of expected winrate and expected points?<br>
Message-ID:<br>
        <CAF8dVMWLPQBhD-Q07YeLZwqV9M9JCW+_VbSRVp=<a href="mailto:evj9CN6WAKA@mail.gmail.com">evj9CN6WAKA@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<br>
<br>
I have experimented with a CNN that predicts ownership, but I found it to<br>
be too weak to be useful. The main difference between what Google did and<br>
what I did is in the dataset used for training: I had tens of thousands of<br>
games (I did several different experiments) and I used all the positions<br>
from each game (which is known to be problematic); they used 30M positions<br>
from independent games. I expect you can learn a lot about ownership and<br>
expected number of points from a dataset like that. Unfortunately,<br>
generating such a dataset is infeasible with the resources most of us have.<br>
<br>
Here's an idea: Google could make the dataset publicly available for<br>
download, ideally with the final configurations of the board as well. There<br>
is a tradition of making interesting datasets for machine learning<br>
available, so I have some hope this may happen.<br>
<br>
The one experiment I would like to make along the lines of your post is to<br>
train a CNN to compute both the expected number of points and its standard<br>
deviation. If you assume the distribution of scores is well approximated by<br>
a normal distribution, maximizing winning probability can be achieved by<br>
maximizing (expected score) / (standard deviation of the score). I wonder<br>
if that results in stronger or more natural play than making a direct model<br>
for winning probability, because you get to learn more about each position.<br>
<br>
Álvaro.<br>
<br>
<br>
<br>
On Tue, Feb 23, 2016 at 5:36 AM, Michael Markefka <<br>
<a href="mailto:michael.markefka@gmail.com">michael.markefka@gmail.com</a>> wrote:<br>
<br>
> Hello everyone,<br>
><br>
> in the wake of AlphaGo using a DCNN to predict expected winrate of a<br>
> move, I've been wondering whether one could train a DCNN for expected<br>
> territory or points successfully enough to be of some use (leaving the<br>
> issue of win by resignation for a more in-depth discussion). And,<br>
> whether winrate and expected territory (or points) always run in<br>
> parallel or whether there are diverging moments.<br>
><br>
> Computer Go programs play what are considered slack or slow moves when<br>
> ahead, sometimes being too conservative and giving away too much of<br>
> their potential advantage. If expected points and expected winrate<br>
> diverge, this could be a way to make the programs play in a more<br>
> natural way, even if there were no strength increase to be gained.<br>
> Then again there might be a parameter configuration that might yield<br>
> some advantage and perhaps this configuration would need to be<br>
> dynamic, favoring winrate the further the game progresses.<br>
><br>
><br>
> As a general example for the idea, let's assume we have the following<br>
> potential moves generated by our program:<br>
><br>
> #1: Winrate 55%, +5 expected final points<br>
> #2: Winrate 53%, +15 expected final points<br>
><br>
> Is the move with higher winrate always better? Or would there be some<br>
> benefit to choosing #2? Would this differ depending on how far along<br>
> the game is?<br>
><br>
> If we knew the winrate prediction to be perfect, then going by that<br>
> alone would probably result in the best overall performance. But given<br>
> some uncertainty there, expected value could be interesting.<br>
><br>
><br>
> Any takers for some experiments?<br>
><br>
><br>
> -Michael<br>
> _______________________________________________<br>
> Computer-go mailing list<br>
> <a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
> <a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/mailman/listinfo/computer-go</a><br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://computer-go.org/pipermail/computer-go/attachments/20160223/700a08a3/attachment-0001.html" rel="noreferrer" target="_blank">http://computer-go.org/pipermail/computer-go/attachments/20160223/700a08a3/attachment-0001.html</a>><br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Tue, 23 Feb 2016 12:54:22 +0100<br>
From: Robert Jasiek <<a href="mailto:jasiek@snafu.de">jasiek@snafu.de</a>><br>
To: <a href="mailto:computer-go@computer-go.org">computer-go@computer-go.org</a><br>
Subject: Re: [Computer-go] Move evalution by expected value, as<br>
        product of expected winrate and expected points?<br>
Message-ID: <<a href="mailto:56CC486E.1030507@snafu.de">56CC486E.1030507@snafu.de</a>><br>
Content-Type: text/plain; charset=UTF-8; format=flowed<br>
<br>
On 23.02.2016 11:36, Michael Markefka wrote:<br>
> whether one could train a DCNN for expected territory<br>
<br>
First, some definition of territory must be chosen or stated. Second,<br>
you must decide if territory according to this definition can be<br>
determined by a neural net meaningfully at all. Third, if yes, do it.<br>
<br>
Note that there are very different definitions of territory. The most<br>
suitable definition for positional judgement (see Positional Judgement 1<br>
- Territory) is sophisticated and requires a combination of expert rules<br>
(specifying for what to detemine, and how to read to determine it) and<br>
reading.<br>
<br>
A weak definition could predict whether a particular intersections will<br>
be territory in the game end's scoring position. Such can be fast for MC<br>
or NN, and maybe such is good enough as a very rough approximation for<br>
programs. For humans, such is very bad because it neglects different<br>
degrees of safety of (potential) territory and the strategic concepts of<br>
sacrifice and exchange.<br>
<br>
I have also suggested other definitions, but IMO they are less<br>
attractive for NN.<br>
<br>
--<br>
robert jasiek<br>
<br>
<br>
------------------------------<br>
<br>
Subject: Digest Footer<br>
<br>
_______________________________________________<br>
Computer-go mailing list<br>
<a href="mailto:Computer-go@computer-go.org">Computer-go@computer-go.org</a><br>
<a href="http://computer-go.org/mailman/listinfo/computer-go" rel="noreferrer" target="_blank">http://computer-go.org/mailman/listinfo/computer-go</a><br>
<br>
------------------------------<br>
<br>
End of Computer-go Digest, Vol 73, Issue 42<br>
*******************************************<br>
</blockquote></div><br></div></div>