読者です 読者をやめる 読者になる 読者になる

Selection for my Life

いま、僕にできること。

Hadoopってなんなんだ。流行ってるから、のぞいてみる。

Hadoopが気になります。

ビッグデータをビジネスに活用!なんて、Webニュースなんかに出てますよね。

  • 自分の会社に、Hadoopは利用価値があるのか?
  • オープンソースだから使ってみたい。
  • Hadoopを使えば何だか会社が良くなる感じ?!

 って感じで、疑問だらけだったので、ちょっと、調べてみることにしました。

 

【前提として】

僕は、とあるコンピュータサプライ品の生産工場で勤務しています。販売については、親会社があり、そちらが営業部隊を持っているので、うちの会社では、営業担当はいません。日々流れてくる親会社からの注文によって、製品を生産して、ユーザーに出荷していく環境です。あと、製品の不具合対応や、サポートセンターも有しており、自社内にサポートセンター部門があります。

 

1. Hadoopとは何なのか

ウィキ Hadoop

http://ja.wikipedia.org/wiki/Hadoop

参考:http://itpro.nikkeibp.co.jp/article/Keyword/20100312/345648/

Hadoopは、分散ファイル・システムである

  • 「Hadoop Distributed File System」(HDFS)
  • 分散処理を担う「Hadoop MapReduce」
  • データベース基盤となる「hBase」

で構成されていて、基本的にJavaでプログラミングします。「Hadoop Streaming」と呼ぶ拡張ライブラリを使うと、MapReduceの処理をC/C++RubyPythonなどでプログラミングすることができるそうです。 

MapReduceの処理は、入力されたデータから最終的な結果を得るのに必要な情報を抽出する「Map」、抽出したデータを結合して並び替える「Shuffle」、並び替えたデータをまとめて結果を出力する「Reduce」という三つの手順で構成されるそうです。

Hadoopでは、大量のデータを一括して変換するバッチ処理を得意とし、RDBのような特定の条件で絞り込むといった処理には向かないそうです。分散処理によるスケールアウトで、性能向上が可能な点も、RDBとの大きな違いです。

 

2. 会社での使い道を考えてみる

 上記の前提での話になるのですが、Hadoopでどのような使い道ができるのか?

・Webサーバのログ分析

これは、よくWebにでてくるような使い方ですが、Webログを使って分析することがありません。うちの会社のサイトで、検索することもなく、すべて、静的ページの会社紹介しかしていませんので、ログをHadoopで分析するというよりは、通常のWeb分析で十分なのではないかと思います。

・サポートセンターの問い合わせ内容を分析

日々、サポートセンターに問い合わせがある内容をHadoopに入れて分析する。これは、やってみたいかも・・・。でも、分散処理させるような量が無い気がするんですよね。笑  そもそも、テキストマイニングってことだよね。

 

うう~~~。あと、何に使えそうなのかアイデアが浮かんでこない。涙

 

どのようにHadoop使ったらよいのだろうか?

事例とかをもっと調査する必要があるんだろうな。勉強不足です。でも、中小零細企業で、Hadoopの実用例ってどのくらいあるのだろうか?そもそも、中小零細企業の情報って、紙や、音声で、ビッグデータとして、取り扱えるデジタルデータに置き換えて、収集するところから始めないといけないのかもしれない。

 

みなさんのHadoop利用のアイデアを教えてください。