Pythonを使ってRSSで最新ニュース記事を取得する

宮本です。 Twitterはコチラ

はじめに

機械学習に向けて情報収集の観点からRSSからデータを取得するプログラムを書いてみました。

仕様

  • ZDNet JapanフィードからRSSでニュース記事を取得する
  • 取ってきたデータをリスト化する

環境的なあれこれ

  • マシン:Mac
  • Python:2.7系

実装

python:zdnet_rss.py

#!/usr/bin/
# -*- coding: utf-8 -*-

import json
import feedparser

url = 'feed://feeds.japan.zdnet.com/rss/zdnet/all.rdf'
rss = feedparser.parse(url)

zdnet_list = []
for data in rss['entries']:
    value = data['summary_detail']['value'].replace('<p>', '').replace('</p>', '')
    zdnet_list.append([
        data['updated']
        , data['title']
        , data['links'][0]['href']
        , value[:value.find('<br')]
        , value[value.find('<img'):].replace('<img src="', '').replace('" /></a>', '')
    ])

print(zdnet_list)

結果

最後に出力させているんですがリスト化させているのでユニコード形式になってます。

これをCSVに出力させたり、データベースにいれたり。

JSONのキーをループさせてキー存在をするなどもっと丁寧なやり方もできそうです。

他のRSSも同じコードでいける?

ちょっと色々と試してみたいところですね。

1件のコメント

ただいまコメントは受け付けていません。