へぬもへメモ

https://twitter.com/henumohe

python

Webstemmerの文字コードが解決したと見せかけてしてなかったけど一応再度解決

前回の続き。タイトルがまどろっこしい。 extract.pyのオプションに'-c euc-jp'を入れて解決したと思いきや、日経の文字コードはUTF-8で、今度はこちらが文字化けることが発覚。どうも文字コードを指定すること自体が問題らしい。 どうしたら良いか分からず…

Webstemmer使おうとして文字コードに悩まされたけど解決

昨日の記事で書いた、Webstemmerステップ4の文字コードエラーが治った。 昨日の状況 『ステップ4. 学習したパターンを使って本文を抽出する』を実行すると文字化け C:\Python27\Lib\site-packages\webstemmer>extract.py -C euc-jp asahi.pat asahi.20110711…

Webstemmer使おうとして引数エラーと文字コードに悩まされる

Webページの本文を抽出したくて、MOONGIFTで見つけたWebstemmerを使おうと思ったら、いろんな障害にぶつかった。Python歴3日なので、ソース読むのも一苦労。 エラー1 『ステップ1. 学習するためのHTMLページを取得する』をやろうとしたら早速エラーが。 C:\P…