« 北海道写真 | トップページ | ストレス解消ラーメン »

2005.05.10

何でもRSS

未踏プロジェクトの成果物でもあるblogwatcherがリニューアルしてver2に。ver1の時点であった「メタブログ」とか、「バースト度」がよかったのだけれど、今回追加されてる「何でもRSS」が中毒性が高い。

「なんでもRSS」とは?

「なんでもRSS」は, 東京工業大学 精密工学研究所 奥村研究室 で運営されている,RSS自動生成サービスです.HTML文書のURLを入力することで,RSS Feedを自動的に生成します. blogWatcher で使用しているblog判定プログラムと同じように、Webページ中に含まれる日付表現とタイトル表現を検出し、HTML文書を構造解析することで、時系列情報を記述するWebページ(日記、BBS、ニュースサイト、イベント告知ページなど)からRSS Feedを自動生成します。 RSS Feedを配信していないサイトでも、簡単にRSS Feedを配信することが出来ますし、これまでRSSリーダーで読めなかったWebページもRSSリーダーで読めるようになります。

どうやってやっているの?

「なんでもRSS」では,HTML文書中の日付表現,タイトル表現に注目し,HTML文書中でこれらが同じパターンで繰り返し現れる部分を探索します.これは,blogWatcherで使用されている,Web日記の収集方法と同じような手法を利用しています.特定のWebページのデザインに特化した抽出ルールは一切存在しないため,多くのページに対応することが出来ます.

例えば,元々RSS Feedを配信していないWeb日記や掲示板,また,Webページ中のイベント案内など,同じパターンで記述される日付情報を少なくとも二つ以上含むWebページについては,自動的にRSS Feedを作成することが出来ます.

以前から、検索対象解析および収集方法が確立されていたのだけど、それをRSSFeed変換に活用する事で(僕にとって)中毒性が高くなっている。つまり、技術的にはあまり変化がないのだけど、使い方が旨い。片っ端から、はてなアンテナ(→更新メールでbloglines方式)で登録してた非blog系サイトや、類似の「MyRSS」経由でbloglinesに登録してた精度の低いサイトを「なんでもRSSブックマークレット」→bloglinesで登録しまくる。

論文[PDF]も公開されてて、なかなか面白い。

やっぱ大学っていいなぁ。あと賢い人。

« 北海道写真 | トップページ | ストレス解消ラーメン »

おすすめサイト」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

« 北海道写真 | トップページ | ストレス解消ラーメン »

twitter

サイト内検索
ココログ最強検索 by 暴想

最近のトラックバック

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        
無料ブログはココログ

このブログの注目記事

friends

tools







  • blog seo tool : track word
    blog SEO tool


  • RSS feed meter for http://yokoyamen.cocolog-nifty.com/boku/

なかのひと

あわせてよみたい

  • あわせて読みたい
フォト

みんぽす