大数据处理

大数据处理

1、Flink框架

2、JStorm和Storm框架

3、Elasticsearch框架

4、Spark框架

5、Spider爬虫

[quickstart-data] 大数据、流式计算



JStorm和Storm框架


Elasticsearch框架


Spark框架


Spider爬虫


数据处理:druid-io、flume、hadoop、hbase、、lucene、solr、、

1、大数据统计重复数和大数据Top 100 问题

大数据统计重复数 1、直接使用map保存记录 2、先分成若干份,再全部合并

大数据Top 100 问题: 1、直接使用快速排序(占用内存大) 2、先取出100个数据,然后进行排序,后面的依次跟100个数据的最小值比较,大了就替换 3、先分成若干份,分别取出前100,再依次合并(或全部合并)


Last updated

Was this helpful?