2010-11-29

Windows 7でのWP2TXTのインストール方法

Wikipediaのxml形式のダンプデータを解析できるWP2TXTをWindows 7で使おうと思ったら、素直にインストールできなかったのでメモ。

  • 1.インストール


  • http://rubyforge.org/projects/wp2txt/からWindows版のWP2TXTをダウンロードし、.exeを実行。

  • 2.zlib1.dll


  • そのまま実行しようとするとxlib1.dllがないって怒られるので下記からダウンロードしてWP2TXTの実行ファイルと同じ場所に置く。

    http://www.nodevice.jp/dll/zlib1_dll/item613.html

  • 3.msvcp71.dll, msvcr71.dll


  • これも必要だって怒られるのでこれもzlib1.dllと同様の場所に置く。

    http://www.vector.co.jp/download/file/win95/util/fh435079.html


    これで起動できるはず。

  • おまけ


  • 使い方は簡単。

    Input FileにWikipediaのbz2ファイルを指定(解凍しながらxmlを解析しているらしい)
    Output Dirを適当に指定

    Size of Each Output File (MB)で出力データを指定MB毎に分割できる。

    Elements Extractedで抽出する要素を指定。(Title, Heading, Paragraphなど)
    注釈で使われている<ref>を含めるかどうかなどの設定。

    設定が済んだらSTART。
    jawiki-latest-pages-articlesだとだいたい1時間くらいかかる。

    終わったテキストはWikipediaの編集で使われているWiki記法で出力されています。
    あとは煮るなり焼くなり。


    応援クリックお願いします!!人気blogランキングへ

    0 件のコメント: