なぜ、DBでやれない大量のデータの集計を、Hiveなどならどんなクエリでも、合理的な時間内で処理できると思い込めるのだろう?
データ量の制約を外してるんだから、その分のしわ寄せはどこかにくるわけで。
それでなくても、DBは何十年もの研究の成果の塊なのであって、ぽっと出のBigData用処理系が同等の最適化を行えるとか、ありえないだろう。HiveQLだって、SQL文風にかけるけど、MapReduce処理を、「風」に書けるってだけで、それがどんな処理に展開されるかは理解してないと、びっくりするほど時間がかかるしな。
まず、DBで。そうでなければ処理のアルゴリズムを詰めて。それでも無理そうなら多大な時間がかかるかもしれないけど、計算不能にだけはならないように、BigData向け()処理系をやむなく使うもんだろう、と思うのだが(大量データの試行錯誤系なら、独自プログラムは落ちるかもしれんが)。
最近のプログラマ達()は、処理系の利用者に過ぎず、アルゴリズムの検討を知らないのだろうか?とつくづく思う、今日この頃。
まぁ、4ヶ月でプログラマ? だっけ?
めまいがする。