https://github.com/robots.txt

2014-01-30

冒頭に

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: http://developer.github.com/

と人間向けのメッセージがある。

ボットは基本的に/humans.txtにしかアクセスできないことになっている。主だったサーチエンジンのクローラは別扱いになっているが、サーバーの負担を避けるためなのか、かなり詳細にDisallowが設定されている。User-Agentごとに同じAllowとDisallowの設定が繰り返されていてムズムズする。robots.txtがあまり複雑なフォーマットをサポートするとパーサーを書くのが大変だろうから、仕方がないのだろうか。

目を引いたのは

Disallow: /ekansa/Open-Context-Data
Disallow: /ekansa/opencontext-*

という部分。個人のリポジトリがDisallowに指定されている。ekansa/Open-Context-Data · GitHubのREADMEによると、このリポジトリには総計3GB以上のXMLファイルが含まれていて、GitHubに変更をpushしようとするとHTTP 500 range errorが返ってきてしまうなどと書かれている。あまりにサイズが大きすぎるのでクロールが禁止されてしまったらしい。