Stack Overflowのデータは、以下のサイトからダウンロードすることができます。
形式は、7zip圧縮されたXMLファイルで、以下が含まれています。
- 投稿
- コメント
- 投票
- コメント
- 投稿履歴
- 投稿の関連(リンク)
ユーザー情報は匿名になっており、ライセンスはCC-BY-SA 4.0ですが要求される条件もあるのでちゃんと読んで
おきましょう。
ダウンロードは、ページの左側にこういうものがあり
展開するとファイルの一覧が表示されます。
Stack Overflowのデータは、このあたりにあります。
とはいえ、全部を表示できているわけではないので「SHOW ALL」を選択すると、ダウンロード可能な全ファイルを参照することが
できます。
stackexchange directory listing
サンプルとして、タグのデータをダウンロードしてみましょう。
$ curl -OL https://archive.org/download/stackexchange/stackoverflow.com-Tags.7z $ 7z x stackoverflow.com-Tags.7z
中身は、こんな感じですね。
$ head -n 10 Tags.xml <?xml version="1.0" encoding="utf-8"?> <tags> <row Id="1" TagName=".net" Count="305776" ExcerptPostId="3624959" WikiPostId="3607476" /> <row Id="2" TagName="html" Count="1055490" ExcerptPostId="3673183" WikiPostId="3673182" /> <row Id="3" TagName="javascript" Count="2176522" ExcerptPostId="3624960" WikiPostId="3607052" /> <row Id="4" TagName="css" Count="706991" ExcerptPostId="3644670" WikiPostId="3644669" /> <row Id="5" TagName="php" Count="1393337" ExcerptPostId="3624936" WikiPostId="3607050" /> <row Id="8" TagName="c" Count="352754" ExcerptPostId="3624961" WikiPostId="3607013" /> <row Id="9" TagName="c#" Count="1465759" ExcerptPostId="3624962" WikiPostId="3607007" /> <row Id="10" TagName="c++" Count="714440" ExcerptPostId="3624963" WikiPostId="3606997" />
もうひとつ、投稿の関連を。
$ curl -OL https://archive.org/download/stackexchange/stackoverflow.com-PostLinks.7z $ 7z x stackoverflow.com-PostLinks.7z $ head -n 10 PostLinks.xml <?xml version="1.0" encoding="utf-8"?> <postlinks> <row Id="19" CreationDate="2010-04-26T02:59:48.130" PostId="109" RelatedPostId="32412" LinkTypeId="1" /> <row Id="37" CreationDate="2010-04-26T02:59:48.600" PostId="1970" RelatedPostId="617600" LinkTypeId="1" /> <row Id="42" CreationDate="2010-04-26T02:59:48.647" PostId="2154" RelatedPostId="2451138" LinkTypeId="1" /> <row Id="52" CreationDate="2010-04-26T02:59:48.757" PostId="2572" RelatedPostId="209329" LinkTypeId="1" /> <row Id="58" CreationDate="2010-04-26T02:59:48.943" PostId="3376" RelatedPostId="2187" LinkTypeId="1" /> <row Id="59" CreationDate="2010-04-26T02:59:48.943" PostId="3376" RelatedPostId="18080" LinkTypeId="1" /> <row Id="63" CreationDate="2010-04-26T02:59:49.083" PostId="3859" RelatedPostId="802573" LinkTypeId="1" /> <row Id="69" CreationDate="2010-04-26T02:59:49.240" PostId="4565" RelatedPostId="583532" LinkTypeId="1" />
こんな感じのデータが、XMLで大量に入っています、と。
ところで、Stack Exchangeというのは?という話なのですが、これはStack Overflowを含むQAサイト群のことです。
Stack Exchange Networkというらしいです。
Hot Questions - Stack Exchange
Stack Overflowは、サイトの名前でもあり、会社の名前でもある、と。
Stack Exchange Networkに含まれるサイトの一部は、こちら。
全体は、こちら。現時点で、176サイトあるみたいですよ。