遇到一个有意思的业务。
有两个单列文件,一个500M一个700M,共1.2G,2E个数据,要将这两个单列文件中的数据提取出来去重。
最简单的思路,理论大小为1.2G的数据塞进Set里直接去重,发现程序跑着跑着就跑不动了,用jstat查看,发现原来没有赋予初始化参数,默认的初始化堆内存太小,导致程序跑不动。
于是在启动的时候加上了-Xms3000m -Xmx3000m
再次启动,用jstat观察发现老年代占用一直在上涨,一段时间之后老年代被占满,Full GC也GC不掉老年代的对象,于是程序再次卡住不动,检查程序没有内存泄露/死循环之后,分析,理论大小1.2G的数据,为何会在内存中占用超过3G的堆内存。
首先检查了Set的内部实现,JDK中Set的实现是用HashMap实现的,而HashMap底层则是两个数组,这里关注到了Map中数组的自动扩容算法:当不停的向Map中put数据的过程中,如果数据量超过了Map中设置的阀值threshold,那么Map就会自动扩容,将原来数组中的数据复制到一个2倍于原来容量的新数组中。
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
Entry[] newTable = new Entry[newCapacity];
transfer(newTable);
table = newTable;
threshold = (int)(newCapacity * loadFactor);
}
这里可以清楚的看到,Map在移动数据的过程中,需要新建一个数组,而当newCapacity大到一定数量级的时候,就会占用非常多的内存。通过跟踪检查,发现3G内存在数组扩容到5000w大小的时候就抗不住了,于是单独做了一个实验,单独的构造一个5000w大小的数组,观察其内存占用情况,发现确实需要非常多的内存。此为原因之一。
然后,又观察到,虽然构建大数组,需要很多的内存空间,但是这部分空间并没有大到内存无法承受。跟踪检查到,老年代被占满的时候,构造的Set里容纳了2700w个对象,粗略的估算3G被2700w个对象所占据,每个对象大约需要100个字节的大小(由于无法精确的减除掉数组和其他因素占用的内存,所以实际值肯定比100字节要小),但是文件数据为16位的字符串,换句话说,每个16位的字符串对象,在内存里占据了大约100个字节的空间,这比文件编码后的字符大小要大很多。结论:转化为对象的时候,数据会膨胀,并且体积膨胀的大小比我们想象的要更大得多。
最后,丢到hive里轻轻松松解决了问题。
分享到:
相关推荐
js中终于有了自己的List,类似于java中的List对象,本文件是源码,亲测有如下方法:add()、has(key)、size()、values()、并集union(Set)、子集subset(Set)、差集difference(Set)、交集intersection(Set)、remove(key...
该PPT详尽地描述了Java对象容器的属性以及如何使用,不用多说,Java对象容器如ArrayList,List,Set,HaspMap等都是极为重要的容器类,学好这个无疑把握了Java的灵魂所在
Java CopyUtil工具类,可以进行对象的深copy,比如:对象里面包含对象,对象里面包含Map,List,Set...等复杂类型的属性都可以copy,copy后的对象与原有对象没有联系,即改变原有对象内容,不会改变copy后的对象里面的...
Xson是一个Java对象序列化和反序列化程序。支持Java对象到字节数组的序列化,和从字节数组到Java对象的反序列化。 Maven: <groupId>com.github.xsonorg</groupId> <artifactId>xson-core <version>1.0.1 ...
Java应用:两种Java容器类List和Set分析
java set 去重
// java中对象容器主要有Set,List和Map三个接口类。 // 迭代器(Iterator)模式,又叫做游标(Cursor)模式。 // GOF给出的定义为:提供一种方法访问一个容器(container)对象中的各个元素, // 而又不需暴露该...
Set:元素不可以重复,是无序。p508 Set接口中的方法和Collection一致。 |--HashSet: 内部数据结构是哈希表 ,是不同步的。 如何保证该集合的元素唯一性呢? 是通过对象的hashCode和equals方法来完成对象唯一性的...
如何用Map对象创建Set对象Java开发Java经验技巧共3页.pdf.zip
java中set、map、list的区别与联系
java List、Set与Array之间的相互转换 java List、Set与Array之间的相互转换
Java中Set的深入研究
java集合类list-set-map.doc
自定义生成set,get方法注释的java文件,下载后可以根据我的文章中的说明步骤进行操作。
Java 反射创建get set方法及反射方法的调用
比如在类Index中的getDictionary方法中,需要返回所有保存的Term,可以直接调用map结构的keySet方法返回一个Set对象,包含了所有的键,也即所有的Term,类似的还有由于实现了子类的compareTo以及equal方法,对于子类...
IDEA 对象一键set 插件IDEA 对象一键set 插件IDEA 对象一键set 插件IDEA 对象一键set 插件IDEA 对象一键set 插件IDEA 对象一键set 插件
可以将对象转map,list,set,或者对象. 方便人们的使用.
set list ArrayList等java集合类详述
java集合对象 介绍集合对象 Set:集----存储数据无序,所以不能存储相同的数据,set在存储数据方面有优势 List:列表-----存储数据有序,所以可以存储相同的数据,list在向集合对象中的指定位置添加数据和得到...