http://rubyforge.org/projects/wp2txt/からWindows版のWP2TXTをダウンロードし、.exeを実行。
そのまま実行しようとするとxlib1.dllがないって怒られるので下記からダウンロードしてWP2TXTの実行ファイルと同じ場所に置く。
http://www.nodevice.jp/dll/zlib1_dll/item613.html
これも必要だって怒られるのでこれもzlib1.dllと同様の場所に置く。
http://www.vector.co.jp/download/file/win95/util/fh435079.html
これで起動できるはず。
使い方は簡単。
Input FileにWikipediaのbz2ファイルを指定(解凍しながらxmlを解析しているらしい)
Output Dirを適当に指定
Size of Each Output File (MB)で出力データを指定MB毎に分割できる。
Elements Extractedで抽出する要素を指定。(Title, Heading, Paragraphなど)
注釈で使われている<ref>を含めるかどうかなどの設定。
設定が済んだらSTART。
jawiki-latest-pages-articlesだとだいたい1時間くらいかかる。
終わったテキストはWikipediaの編集で使われているWiki記法で出力されています。
あとは煮るなり焼くなり。
応援クリックお願いします!!人気blogランキングへ
0 件のコメント:
コメントを投稿