# 大数据处理

[大数据处理](https://github.com/youngzil/quickstart-data)

1、[Flink框架](#Flink框架)

2、[JStorm和Storm框架](#JStorm和Storm框架)

3、[Elasticsearch框架](#Elasticsearch框架)

4、[Spark框架](#Spark框架)

5、[Spider爬虫](#Spider爬虫)

\[quickstart-data] 大数据、流式计算

***

## Flink框架

***

## JStorm和Storm框架

***

## Elasticsearch框架

***

## Spark框架

***

## Spider爬虫

***

数据处理：druid-io、flume、hadoop、hbase、、lucene、solr、、

1、大数据统计重复数和大数据Top 100 问题

大数据统计重复数\
1、直接使用map保存记录\
2、先分成若干份，再全部合并

大数据Top 100 问题：\
1、直接使用快速排序（占用内存大）\
2、先取出100个数据，然后进行排序，后面的依次跟100个数据的最小值比较，大了就替换\
3、先分成若干份，分别取出前100，再依次合并（或全部合并）

***