CLOVER🍀

That was when it all began.

Stack Overflowのデータをダウンロードする

Stack Overflowのデータは、以下のサイトからダウンロードすることができます。

Stack Exchange Data Dump : Stack Exchange, Inc. : Free Download, Borrow, and Streaming : Internet Archive

形式は、7zip圧縮されたXMLファイルで、以下が含まれています。

  • 投稿
  • コメント
  • 投票
  • コメント
  • 投稿履歴
  • 投稿の関連(リンク)

ユーザー情報は匿名になっており、ライセンスはCC-BY-SA 4.0ですが要求される条件もあるのでちゃんと読んで
おきましょう。

ダウンロードは、ページの左側にこういうものがあり

f:id:Kazuhira:20210417154642p:plain

展開するとファイルの一覧が表示されます。

f:id:Kazuhira:20210417154707p:plain

Stack Overflowのデータは、このあたりにあります。

f:id:Kazuhira:20210417155007p:plain

とはいえ、全部を表示できているわけではないので「SHOW ALL」を選択すると、ダウンロード可能な全ファイルを参照することが
できます。

stackexchange directory listing

サンプルとして、タグのデータをダウンロードしてみましょう。

$ curl -OL https://archive.org/download/stackexchange/stackoverflow.com-Tags.7z
$ 7z x stackoverflow.com-Tags.7z

中身は、こんな感じですね。

$ head -n 10 Tags.xml
<?xml version="1.0" encoding="utf-8"?>
<tags>
  <row Id="1" TagName=".net" Count="305776" ExcerptPostId="3624959" WikiPostId="3607476" />
  <row Id="2" TagName="html" Count="1055490" ExcerptPostId="3673183" WikiPostId="3673182" />
  <row Id="3" TagName="javascript" Count="2176522" ExcerptPostId="3624960" WikiPostId="3607052" />
  <row Id="4" TagName="css" Count="706991" ExcerptPostId="3644670" WikiPostId="3644669" />
  <row Id="5" TagName="php" Count="1393337" ExcerptPostId="3624936" WikiPostId="3607050" />
  <row Id="8" TagName="c" Count="352754" ExcerptPostId="3624961" WikiPostId="3607013" />
  <row Id="9" TagName="c#" Count="1465759" ExcerptPostId="3624962" WikiPostId="3607007" />
  <row Id="10" TagName="c++" Count="714440" ExcerptPostId="3624963" WikiPostId="3606997" />

もうひとつ、投稿の関連を。

$ curl -OL https://archive.org/download/stackexchange/stackoverflow.com-PostLinks.7z
$ 7z x stackoverflow.com-PostLinks.7z
$ head -n 10 PostLinks.xml
<?xml version="1.0" encoding="utf-8"?>
<postlinks>
  <row Id="19" CreationDate="2010-04-26T02:59:48.130" PostId="109" RelatedPostId="32412" LinkTypeId="1" />
  <row Id="37" CreationDate="2010-04-26T02:59:48.600" PostId="1970" RelatedPostId="617600" LinkTypeId="1" />
  <row Id="42" CreationDate="2010-04-26T02:59:48.647" PostId="2154" RelatedPostId="2451138" LinkTypeId="1" />
  <row Id="52" CreationDate="2010-04-26T02:59:48.757" PostId="2572" RelatedPostId="209329" LinkTypeId="1" />
  <row Id="58" CreationDate="2010-04-26T02:59:48.943" PostId="3376" RelatedPostId="2187" LinkTypeId="1" />
  <row Id="59" CreationDate="2010-04-26T02:59:48.943" PostId="3376" RelatedPostId="18080" LinkTypeId="1" />
  <row Id="63" CreationDate="2010-04-26T02:59:49.083" PostId="3859" RelatedPostId="802573" LinkTypeId="1" />
  <row Id="69" CreationDate="2010-04-26T02:59:49.240" PostId="4565" RelatedPostId="583532" LinkTypeId="1" />

こんな感じのデータが、XMLで大量に入っています、と。

ところで、Stack Exchangeというのは?という話なのですが、これはStack Overflowを含むQAサイト群のことです。
Stack Exchange Networkというらしいです。

Hot Questions - Stack Exchange

Stack Overflowは、サイトの名前でもあり、会社の名前でもある、と。

Stack Exchange Networkに含まれるサイトの一部は、こちら。

f:id:Kazuhira:20210417155234p:plain

全体は、こちら。現時点で、176サイトあるみたいですよ。

All Sites - Stack Exchange