티스토리 뷰

Java & Kotlin

[Java] Garbage Collection(가비지 컬렉션)의 성능을 높이는 코딩 방법

망나니개발자 2021. 1. 29. 15:58
반응형

1. Garbage Collection(가비지 컬렉션)의 성능을 높이는 코딩 방법


애플리케이션의 성능은 가비지 컬렉션의 빈도수와 지연 시간에 직접적인 영향을 받기 때문에, 가비지 컬렉션을 최적화하는 것은 상당히 중요하다. 그리고 이를 위해서는 크게 2가지 방법이 있다.

  1. Young 영역과 Old 영역의 힙 크기를 알맞게 조정하는 것
  2. 객체의 할당(Allocation)이나 Old 영역으로의 이동(Promotion) 등의 작업을 줄이는 것이다.

우선 힙의 크기를 조정하는 방법은 Trade-Off가 있다. 힙의 크기를 줄이면 GC의 빈도수가 많아질 것이고, 늘리면 GC의 지연 시간이 길어질 것이기 때문이다. 그렇기 때문에 첫 번재 방법은 수치를 조절해가고 테스트하며 자신의 애플리케이션에 맞는 최적의 설정을 찾는 것이 필요할 것이다.

힙의 크기를 올바르게 설정하는 것도 중요하지만 더욱 중요한 것이 있다. 그것은 사실 Minor GC가 지속되는 시간은 힙의 크기보다 GC에서 살아남는 객체들의 영향이 크다는 것이다. 즉, Eden 영역에서 Survive 영역으로 복사되거나 Old 영역으로 Promotion 되는 등의 작업을 줄이는 것이 GC의 성능을 높일 수 있다는 것인데, 어떻게 코딩을 해야 이러한 작업을 줄여 GC의 성능을 높일 수 있는지 알아보도록 하자.

 

 

 

[ 1. Collection의 크기를 예측하여 설정하라 ]

모든 Java의 Collections와 그를 확장하여 구현한 구현체들(Trove나 Google의 Guava)은 내부적으로 배열을 사용한다. 배열의 크기는 불변의 값이라 초기에 할당 되면 수정이 불가능하다. 그렇기 때문에 처음에 설정한 크기를 초과하여 계속 item을 담으려고 하면 내부적으로 새로운 크기의 배열을 생성하고 item을 복사하게 된다. 그렇다면 기존의 배열은 어떻게 되는가? 더 이상 사용되지 않는 메모리 즉 가비지가 된다.

물론 대부분의 Collection은 이러한 재할당(Re-Allocation) 과정을 최적화하려고 노력하고 있지만 가비지가 생기는 것은 불가피하다. 그렇기 때문에 가능하다면 Collection의 크기를 예측하여, 생성 시에 직접 설정해주도록 하자.

// 크기를 예측하여 직접 설정하라 
List<String> list = new ArrayList(5);

 

 

[ 2. Stream을 사용하라 ]

파일로부터 데이터를 읽거나 네트워크를 통해 파일을 받는 경우, 다음과 같은 코드를 쉽게 접할 수 있다.

byte[] fileData = readFileToByteArray(new File("myfile.txt"));

 

읽으려는 데이터의 크기가 작다면 상관이 없겠지만, 데이터의 크기가 크거나 예측할 수 없다면 그렇게 좋지 못한 방법이다. 왜냐하면 데이터의 크기가 너무 크다면 JVM이 해당 파일의 내용을 할당할 수 없어 OutOfMemoryErrors가 발생할 수 있으며, 할당이 되었다 하더라도 이후에 상당히 큰 규모의 가비지가 되기 때문이다. 이러한 문제를 예방하는 가장 좋은 방법은 InputStream을 직접 사용하는 것이다.

InputStream은 내부적으로 Buffer를 두고 있어 일정한 크기(Chunk)만큼씩 데이터를 조회한다. 그렇기 때문에 InputStream을 사용하면 Buffer를 재사용함으로써 OutOfMemoryErrors를 방지할 수 있고, 가비지의 생성을 최소화할 수 있다. 실제로 대부분의 Major한 도구들은 Stream을 직접 받아 처리하도록 되어 있다.

FileInputStream fis = new FileInputStream("myfile.txt");
MyProtoBufMessage msg = MyProtoBufMessage.parseFrom(fis);

 

 

[ 3. String의 사용을 최적화하라 ]

String은 거의 모든 자료구조에서 빼놓을 수 없는 부분이다. 그렇기에 String은 다른 값들보다 중요한 만큼 메모리에 더 큰 영향을 미친다. 그렇기 때문에 String을 다루는 것 역시 신경을 써야 한다.

 

 

1. 중복된 String이 생성되는 경우, JVM 옵션을 활용하라

애플리케이션을 개발하다보면 동일한 String 문자열을 많이 생성하게 된다. Java 8u20 업데이트부터는 동일한 문자열에 의해 불필요한 메모리를 사용을 줄이도록 새로운 JVM 파라미터(UseStringDeduplication)를 추가하였다. 해당 옵션을 사용하면 중복되는 String 인스턴스들을 Global Single Char[]로 관리하여 힙 메모리의 사용을 최적화할 수 있다.

java -XX:+UseStringDeduplication -jar Application.java

 

 

2. StringBuilder를 사전에 활용하라

(아래의 내용은 Java8을 기반으로 작성되었으며, Java9부터는 String의 concat 연산을 StringBuilder 대신 invokedynamic를 통해 처리하고 있습니다.)

 

String의 중요한 속성 중 하나는 불변이며, 할당 후에 수정이 불가능하다는 것이다. 그렇기 때문에 문자열을 연결하기 위한 "+" 등과 같은 연산은 String의 내용을 변경하는 것이 아니라, 새로운 문자열을 할당하는 것이다. Java에서는 이를 최적화하기 위해 StringBuilder를 제공해주고 있으며, Compiler는 String을 더하는 연산을 내부적으로 StringBuiler를 사용하여 처리하고 있다.

예를 들어 다음과 같은 두 문자열의 덧셈이 있다고 하자.

// b 역시 String 객체이다.
String a = a + b;

 

 

컴파일러는 이러한 문자열을 더하는 코드를 다음과 같이 변경하여 처리한다.

StringBuilder temp = new StringBuilder(a).
temp.append(b);
a = temp.toString(); // 새로운 String이 할당되고, 기존의 a의 데이터는 가비지가 됨

 

 

하지만 이러한 컴파일러의 동작 방식은 오히려 상황을 나쁘게 만들 수 있는데, 예를 들어 다음과 같은 문자열 덧셈 코드가 존재한다고 하자.

String result = foo() + arg;
result += boo();
System.out.println(“result = “ + result);

 

 

위의 코드를 컴파일러가 처리하는 관점에서 살펴보면, 우선 3개의 String 덧셈 연산에 의해 3가지 StringBuffer가 할당될 것이다. 그리고 두 번째 줄의 result에 대입하는 과정에 의해 새로운 String 객체가 생길 것이고, println 출력문에 의해 새로운 String 객체가 또 생성될 것이다. 최종적으로 위의 코드에 의해 총 5개의 불필요한 객체, 즉 가비지가 생긴 것이고 위의 코드가 운영중인 웹 애플리케이션 코드라고 한다면 상당히 많은 가비지를 유발할 것이다.

이러한 불필요한 객체의 생성을 줄이는 방법은 사전에 StringBuilder를 이용하는 것이고, 위의 코드를 아래와 같이 수정하여 이와 관련한 문제를 줄일 수 있다.

StringBuilder value = new StringBuilder(“result = “);
value.append(foo()).append(arg).append(boo());
System.out.println(value);

 

 

 

[ 4. 불변성(Immutability)을 활용하라 ]

불변성(Immutability)을 활용하는 것은 많은 이점을 가져다주는데, 그 중에서 많은 사람들이 놓치는 것이 바로 GC의 성능을 높여준다는 것이다. 불변의 객체는 한번 생성된 이후에 수정이 불가능한 객체로, Java에서는 final 키워드를 사용하여 불변의 객체를 생성할 수 있다. 이렇게 객체를 생성하기 위해서는 객체를 가지는 컨테이너도 존재한다는 것인데, 당연히 불변의 객체가 먼저 생성되어야 컨테이너가 이 객체를 참조할 수 있을 것이다. 즉, 컨테이너는 컨테이너가 참조하는 가장 젊은 객체들보다 더 젊다는 것(늦게 생성되었다는 것)이다. 이러한 점은 GC가 수행될 때, 가비지 컬렉터가 컨테이너 하위의 불변 객체들은 Skip할 수 있도록 도와준다. 왜냐하면 해당 컨테이너가 살아있다는 것은 하위의 불변 객체들 역시 처음에 할당된 그 상태로 참조되고 있다는 것을 의미하기 때문이다.

public class MutableHolder {
    private Object value;
    public Object getValue() { return value; }
    public void setValue(Object o) { value = o; }
}

public class ImmutableHolder {
    private final Object value;
    public ImmutableHolder(Object o) { value = o; }
    public Object getValue() { return value; }
}

 

 

결국 불변의 객체를 활용하면 가비지 컬렉터가 스캔해야 되는 객체의 수가 줄어서 스캔해야 하는 메모리 영역과 빈도수 역시 줄어들 것이고, GC가 수행되어도 지연 시간을 줄일 수 있을 것이다. 그렇기 때문에 필드값을 수정할 수 있는 MutableHolder보다는 필드값을 수정할 수 없는 ImmutableHolder를 사용하는 것이 좋다. (물론 GC의 성능을 높이는 것 외에도 불변성을 사용하는 것은 다양한 이점이 있으므로 적극 활용하는 것이 좋다.)

 

누군가는 위의 코드를 보고 Holder의 값이 바뀌는 경우라면 MutableHolder를 이용하는 것이 더 낫지 않냐고 의구심을 가질 수 있다. 하지만 앞선 포스팅에서 살펴보았듯 GC는 새롭게 생성된 객체는 대부분 금방 죽는다는 Weak Generational Hypothesis 가설에 맞추어 설계되었다. 가비지 컬렉터의 입장에서 생명 주기가 짧은(short lifespan) 객체를 처리하는 것은 그렇게 큰 문제가 아니며, 오히려 MutableHolder의 값이 지속되어 old-to-young 참조가 일어나는 것이 더 큰 성능 저하를 야기할 것이다.

 

 

 

[ 5. 불필요한 Collection의 생성을 피해라 ]

불변성(Immutability)은 상당히 훌륭하지만, 큰 규모의 시스템에서 심각한 문제를 유발할 수 있으므로 주의해야 한다. 그 중 대표적인 상황이 메소드를 통해 객체를 주고받을 때이다.

어떤 함수로부터 Collection을 반환받을 때, 일반적으로 메소드 내에서 컬렉션 객체를 생성하여 값을 채우고 변경이 불가능한 형태로 반환하는 것이 좋다.

public List<Item> readFileItem(FileData fileData) {
    final List<Item> list = new ArrayList<>();
    for (Data data : fileData.items()) {
        list.add(new Item(data.getName(), data.getSize()));
    }
    return list;
}

 

 

위의 코드는 일반적인 경우라면 그렇게 나쁘지 않은 코드이다. 그러나 몇몇 상황에서는 오히려 역효과를 불러일으키게 되는데, 대표적인 경우가 함수로부터 생성된 Collection이 최종적인 Collection으로 더해지는 경우이다. 이는 불필요한 메모리 할당을 통해 가비지를 생성하게 된다. 예를 들어 다음과 같은 코드가 있다고 하자.

final List<Item> items = new ArrayList<>();
for (FileData fileData : fileDatas) {
    items.addAll(readFileItem(fileData));
}

 

 

위의 코드는 readFileItem에서 새롭게 생성된 객체를 단순히 items라는 최종적인 Collection에 더해주고 있다. 그렇다면 readFileItem에서 생성된 list는 어떻게 되겠는가? 당연히 가비지가 될 것이고, 불필요한 메모리의 낭비를 유발하게 된다.

그렇기 때문에 이러한 경우라면 새로운 Collection을 할당하여 반환해주는 것이 아니라, 기존의 Collection을 재사용하도록 하는 것이 훨씬 메모리의 낭비를 방지할 수 있을 것이다. 위의 예제의 경우에는 최종 Collection인 items를 파라미터로 넘겨 이용하도록 수정할 수 있다.

public void readFileItem(List<Item> items, FileData fileData) {
    for (Data data : fileData.items()) {
        items.add(new Item(data.getName(), data.getSize()));
    }
}

final List<Item> items = new ArrayList<>(10000);
for (FileData fileData : fileDatas) {
    readFileItem(items, fileData);
}

 

 

 

 

 

 

참고 자료

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함