1. 그리디 알고리즘이란?


그리디 알고리즘은 직관적인 알고리즘이다.


직관적으로 문제를 여러 조각으로 쪼개고, 각 단계마다의 답으로 최종 답을 쌓아간다는 점에서,


그리디는 재귀 호출, 완전 탐색, 동적 계획법 알고리즘과 다를 게 없다.


하지만 위의 세 가지 알고리즘들은 모든 방법을 고려해보고 그 중 가장 좋은 답을 찾는 방법이지만,


그리디만은 특별하게 각 단계마다 당장 가장 좋은 답을 선택한다는 것이 차이점이다.


즉, 최적의 답은 최적의 부분답들로 이루어진다는 것이다.


따라서 그리디 알고리즘을 적용시킬려면, 위의 조건이 지켜지는 문제여야만 한다.



2. 어디에 적용시킬까?


2-1) 백준 1931. 회의실 배정

https://www.acmicpc.net/problem/1931


각 팀들은 회의하고 싶은 시간을 제출했을 때, 서로 겹치지 않는 회의들만을 골라서 진행해야 한다.


이 때, 최대 몇 개의 회의들을 선택할 수 있을까?


탐욕적으로 해결하기 위해, 가장 짧은 회의부터 보면서 앞의 선택과 겹치지 않는 회의를 추가하는 방법을 생각해보았다.

이 방법은 "탐욕적"으로 회의실이 사용되는 시간을 최대화려는 점에서 꽤나 그럴싸한 방법이다.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 0

 2

 4

 6

 8

 10

 12

 14


하지만 위와 같은 입력이 주어진다면 앞의 방법으로는 짧은 회의 하나만을 선택해버린다.

이처럼 그럴듯 하다고 정답이 되지는 않는다. 그리디가 어려운 이유 중 하나다.


다른 탐욕적인 방법으로 길이와 상관없이 가장 먼저 끝나는 회의를 고르기로 해보자.

가장 먼저 끝나는 회의를 고르고, 겹치는 회의들은 리스트에서 지우고, 나머지 중에 가장 먼저 끝나는 회의를 고르는 것을 반복한다.


결론부터 말하자면, 위의 방법이 정답중에 하나다.

덜 직관적인 방법이라서, 가장 많은 회의를 고르는 방법인지 의심이 간다. 

그래서 그리디 알고리즘의 정당성을 증명해야 하는데, 두 가지 속성을 증명해야 한다.


첫째로, 동적 계획법 처럼 모든 방법을 고려하지 않고 탐욕적인 방법으로도 최적해를 구할 수 있다는 속성이다.

이를 탐욕적 선택 속성, greedy choice property 라고 부른다.

위를 증명하면, 각 단계에서의 탐욕적인 선택은, 최적해로 가는 길 중 하나임이 보장된다.

회의실 문제에 대입해보면, 가장 종료 시간이 빠른 회의를 포함하는 최적해가 반드시 존재한다는 뜻이다.

최적해가 존재하므로 그리디 방법을 적용시킬 수 있다는 뜻으로 받아드리면 되겠다.


증명은 귀류법처럼 진행된다. 최적해 중에 가장 종료 시간이 빠른 회의를 고르지 않는 방법이 있다고 해보자.

이 방법을 써서 고른 회의들 중에, 첫 번째로 개최되는 회의(A)를 빼고, 대신 가장 종료시간이 빠른 회의(B)를 대신 추가한다고 하면,

B는 모든 회의들 중에 가장 빨리 끝나는 회의이기 때문에, A는 B보다 종료시간이 빠를 수가 없다.


따라서 최적해는 항상 B같이 가장 종료시간이 빠른 회의를 포함할 수 밖에 없다.


둘째로 증명해야 하는 속성은, 나머지 문제들도 항상 최적의 선택을 해야하는 문제라는 속성, 최적 부분 구조(optimal substructure)이다.

부분 문제의 최적해에서 전체 문제의 최적해를 만들 수 있다는 뜻이다.


다행히 회의실 문제의 이 속성은 매우 자명하다. 첫 번째 회의를 고르고나면, 당연히 겹치는 회의들은 고를 수 없고,

남은 문제들도 여전히 최대한 많은 회의를 고르는 문제이기 때문이다.


따라서 최종답은 부분문제의 최적해로 이주어진다는 것을 증명하였다.

즉, 우리는 회의실 문제가 탐욕적으로 가장 빨리 끝나는 회의들을 골라야하는 문제라는걸 알게 된 것이다.


코드 : http://js1jj2sk3.tistory.com/11


2-2) 백준 11047. 동전 0

https://www.acmicpc.net/problem/11047


임의의 액수 X가 주어지고, 동전들을 가장 적게 써서 X를 만드는 방법을 찾는 문제다.


가장 작은 동전은 항상1이고, 다음으로 작은 동전은 그 이전 동전의 배수다. 따라서 X를 못 만드는 경우는 없다.


매우 직관적으로 당신이 떠올린 방법, 그것이 정답이다.

가장 큰 동전을 최대한으로 쓰고, 남은 액수는 다음으로 큰 동전을 최대한으로 쓰는 방법이다.


정당성을 증명하자면,


첫째로, 가장 큰 동전(A)을 쓰지 않는 방법이 있다고 하자, 그 방법에서 가장 큰 동전(B)을 빼보면, (X - B*N1) 이고,

이 액수는 다시 A를 써서 X를 만들 수 있다. 이는 서로 배수인 점에서 가능하다. X - B*N1 + A*N2 = X

당연히 N1>N2 이므로 최적해는 가장 큰 동전을 쓰는 방법임이 증명되었다.


둘째로, 당연하게도 A를 써서 X를 일부 만들었다면, 남은 액수 X-A*N2 에 대한 문제는 가장 동전을 적게쓰는 문제다.


코드 : http://js1jj2sk3.tistory.com/7

'알고리즘 > Greedy 그리디' 카테고리의 다른 글

백준) 1931 회의실배정  (0) 2017.07.25
백준) 1946 신입 사원  (0) 2017.07.25
백준) 1744 수 묶기  (0) 2017.07.24
백준) 4796 캠핑  (0) 2017.07.23
백준) 11047 동전 0  (0) 2017.07.23

1. 접근


지금까지 최단경로 문제를 접근하는 알고리즘은 BFS 밖에 배우지 않았다.

하지만 BFS로는 간선에 가중치가 부여된 그래프에서의 최단경로를 풀 수 없다.

중간 노드를 거치는 경로의 간선 수는 많아도, 가중치의 합은 적은 경우를 반영해줄 수 없기 때문이다.

따라서 우리는 가중치가 부여된 최단경로 문제를 위해 다익스트라 알고리즘을 새로 배워야 한다.


다익스트라 알고리즘은 음의 가중치가 없는(0도 허용한다) 그래프에서, 한 노드에서 나머지 모든 노드들 까지의 최단경로를 구해준다.

음의 가중치를 가지는 그래프에서의 최단경로 문제는 플로이드-워셜 / 벨만포드 알고리즘 을 사용해야 한다고 한다..


이제부터 이 알고리즘이 어떻게 동작하는지 단계별로 살펴보자.


0. 정의

  • 집합 S = 방문한 노드들의 집합

  • d[N] = A노드에서 N까지의 최단 거리

  • 집합 Q = 방문하지 않은 노드들의 집합


1. 아직 확인되지 않은 d[x]는 모두 무한으로 초기화한다.


초기화가 실행된 후의 그래프. (노드 A에서 나머지 모든 노드들까지의 최단 경로를 구하고자 한다.)


2. 첫 루프 : 이웃 노드들을 방문하고 d[x]를 갱신한다.


첫 루프를 마치고 난 뒤의 그래프.

  • d[N]이 최소값인 노드 N을 Q에서 제거하고, S에 추가한다. 즉, N을 방문한다.

  • N의 이웃 노드와의 거리를 측정하여

  • d[N](=출발지로부터 N까지 계산된 최소 거리값) + (N과 이웃 노드 간의 거리값) = (출발지부터 이웃 노드까지의 거리값)

  • d[B] = 10, d[C] = 30, d[D] =15 는 Infinity보다 작으므로 갱신된다.


3. 두 번째 루프 : 이웃 노드들을 방문하고 d[x]를 갱신한다.



두 번째 루프를 마치고 난 뒤의 그래프.

  • 방문할 노드는 Q에 남아있는 노드들 중 d[N] 값이 제일 작은 것(d[B]=10)으로 선택된다. B를 방문하여 S에 추가하고 Q에서 제거한다.

  • B의 이웃 노드들을 모두 탐색하여 거리를 재고 d[N]에 기록한다. d[E] 값이 무한에서 d[B]+(B와 E 사이의 값 = 20) = 30 으로 업데이트된다.


4. 세 번째 루프 : 더 작은 d[x]를 발견한다면?


  • Q의 원소 중에서 제일 낮은 d[N] 값을 가지고 있기 때문에 방문되는 노드는 D이다.

  • D의 이웃 노드들(C, F)의 거리를 잰 후, d[N]값을 업데이트해야 하는데, d[C]의 값이 A를 방문할 때 이미 계산되어 30으로 정해져 있었다. 하지만, D를 방문하여 C와의 거리를 확인해 보니 20으로 더 짧은 최단 경로가 발견되었다! 따라서 d[C]의 값을 30에서 20으로 갱신한다.

  • d[F]의 경우는 원래의 값이 무한이므로, 더 작은 값인 15+20=35로 갱신한다.


5. Q가 공집합이 될 때 까지 루프를 반복한다.

  • S = {A, B, D, C, F, E} (방문한 순서대로 정렬)

  • d[A] = 0

  • d[B] = 10

  • d[C] = 20

  • d[D] = 15

  • d[E] = 30

  • d[F] = 25

  • Q = ∅


알고리즘의 흐름을 보면, 계속 가중치가 작은 간선을 골라 인접한 노드들의 데이터를 갱신해나가는 과정이란 것을 알 수 있다.
따라서 이 알고리즘은, 한 정점에서 다른 정점까지의 최단경로는, 중간에 방문하는 노드들도 최단경로로 방문해야 한다고 주장하는 것이다.

생각해보면 당연하다. A에서 C로 가는 최단경로가 A-(10)->B-(20)->C = 30라고 해보자.
만약 중간 노드인 B까지의 최단경로가 사실은 A-(3)->D-(4)->B = 7라고 한다면, 왜 A에서 C까지 가는데 D를 거치지 않겠는가?
당연히 거치는게 더 짧은 경로다. A-(3)->D-(4)->B->-(20)->C = 27

따라서 최단경로는 최단경로들로 이뤄져있다는 주장은 타당하다.

구현에서의 문제는 없을까? 초창기 이 알고리즘의 시간복잡도는 O(V^2) 였다고 한다.
문제는 Q집합 중에서 d[x]가 가장 작은 원소를 찾아 내는게 공짜가 아닌데 있었다.
지금은 최소-힙으로 Q집합을 유지하면서 O(E * logV)로 줄었다.
최소-힙에 정점은 최대 V^2번 들어가고, (힙의 삽입은 O(logN)) 간선은 E번 봐야 하므로 O(E * log(V^2)) = O(E * logV) 이다.

2. 풀이


최소 힙은 친절히도 <queue> 라이브러리에 priority_queue 를 이용해 쉽게 구현 가능하다.

우선순위 큐의 디폴트는 가장 큰 수를 top에 유지하므로 가중치를 음수화시켜 저장하거나, 큐의 선언에 greater를 쓰면 된다.


문제는 대놓고 다익스트라 알고리즘을 쓰라는 문제로, 시작점은 하나 주어지고 나머지 노드들 까지의 최단경로를 구해야 한다.


이중 벡터로 그래프를 구현하고, 집합 Q는 우선순위 큐로, d[x]는 거리를 저장하는 시퀀스를 선언해 구현해보자.

알고리즘의 구현에 대해 더 깊게 생각해보면, 꼭 INF의 초기화와 계산값을 비교하여 갱신하는 과정이 항상 필요할까?

BFS에서 편했던 점은 방문 노드를 표시하여, 다음 번엔 방문하지 않는 꼼수가 있었는데, 다익스트라는 불가능 할까?


실은 최소 힙을 쓰면서 해결된 의문점이다. 이미 INF에서 갱신된(방문한) 노드는 나중에 다시 경로값을 계산하지 않아도 된다.


무슨 소리냐, 앞에서 노드 C는 갱신하지 않았냐고 의문이 들겠지만,

이는 A의 이웃인 C를 큐에 넣으면서 갱신한데서 비롯되는 문제다. 따라서 큐에서 꺼낼 때만 d[x]를 갱신한다면,

최단경로는 최단경로의 합이란 논리하에 나중에 갱신된 값이 다시 갱신될 일은 없다.



4. 후기


최단경로 문제는 널리고 널렸다. 네이게이셔등의 현실과도 밀접한 알고리즘이기도 하다. 숙지하도록 하자.

다른 최단경로 문제들도 계속 소개하고자 한다.


알고리즘의 그래프 사진들과 설명은 위키백과를 참고하였다.

https://namu.wiki/w/%EB%8B%A4%EC%9D%B5%EC%8A%A4%ED%8A%B8%EB%9D%BC%20%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98


1) 1753 최단경로 : https://www.acmicpc.net/problem/1753

'알고리즘 > Dijsktra 다익스트라' 카테고리의 다른 글

백준) 16118 달빛 여우  (0) 2018.10.01
백준) 1753 최단경로  (0) 2017.09.09

6588. 골드바흐의 추측 


문제

1742년, 독일의 아마추어 수학가 크리스티안 골드바흐는 레온하르트 오일러에게 다음과 같은 추측을 제안하는 편지를 보냈다.

4보다 큰 모든 짝수는 두 홀수 소수의 합으로 나타낼 수 있다.

예를 들어 8은 3 + 5로 나타낼 수 있고, 3과 5는 모두 홀수인 소수이다. 또, 20 = 3 + 17 = 7 + 13, 42 = 5 + 37 = 11 + 31 = 13 + 29 = 19 + 23 이다.

이 추측은 아직도 해결되지 않은 문제이다.

백만 이하의 모든 짝수에 대해서, 이 추측을 검증하는 프로그램을 작성하시오.

입력

입력은 하나 또는 그 이상의 테스트 케이스로 이루어져 있다. 테스트 케이스의 개수는 100,000개를 넘지 않는다.

각 테스트 케이스는 짝수 정수 n 하나로 이루어져 있다. (6 ≤ n < 1000000)

입력의 마지막 줄에는 0이 하나 주어진다.

출력

각 테스트 케이스에 대해서, n = a + b 형태로 출력한다. 이 때, a와 b는 홀수 소수이다. 숫자와 연산자는 공백 하나로 구분되어져 있다. 만약, n을 만들 수 있는 방법이 여러가지라면, b-a가 가장 큰 것을 출력한다. 또, 두 홀수 소수의 합으로 n을 나타낼 수 없는 경우에는 "Goldbach's conjecture is wrong."을 출력한다.

예제 입력 

8
20
42
0

예제 출력 

8 = 3 + 5
20 = 3 + 17
42 = 5 + 37


1. 접근


골드바흐의 추측이란 2보다 큰 모든 짝수는 두 개의 소수의 합으로 표현할 수 있다는 추측이다.

또한 하나의 소수를 반복하여 사용하는 것을 허용한다.


예를 들어, 22는 3+19로, 또는 5+17로도 표현할 수 있다. 10^18 까지 골드바흐의 추측이 참임을 확인했다고 한다.


따라서 모든 소수들의 조합들을 확인하는 과정을 거치고자 한다.


2. 풀이


모든 소수를 빠르게 찾는 방법이 중요할 것이다.


여러 테스트케이스들이 소수인지 판별하는 유명한 소수판별 알고리즘은 에라토스테네스의 체라는 방법이다.


2부터 오름차순으로 모든 수(x)를 확인하는데, x가 체크되어 있지 않다면 소수고, 나머지 x의 배수는 모두 비소수로 체크한다.


코드로 확인해보자.


1
2
3
4
5
6
7
8
9
10
11
12
#include <stdio.h>
using namespace std;
 
int t, n;
bool num[1000002];
 
int main() {
    for (int i = 2; i <= 10000++i)
        if (num[i] == false)
            for (int j = 2; i*<= 1000000++j)
                num[i*j] = true;
}
cs


또한 더욱 최적화가 가능한데, 이는 소수의 성질 상 가능한 부분이다.

12를 생각해보면, 12의 약수는 1, 2, 3, 4, 6, 12 로 여섯개다.

이 때 주목할 점은 12, 6, 4는 앞의 1, 2, 3으로 12를 나눈 뒤의 몫이라는 점이다.

따라서 소수인지를 판별하는 에라토스테너스의 체를 적용할 때, x는 n의 제곱근까지만 확인하면 된다.

문제의 경우 백만 이하의 짝수 중 소수를 찾아야 하기 때문에, x는 10,000까지만 확인해도 된다.


이제 주어진 짝수가 prime 배열의 두 소수의 합으로 표현가능한지 확인해야한다. 

표현할 수 있는 방법이 여러가지라면 두 소수의 차이가 가장 큰 케이스를 출력해야 하므로, 가장 작은 소수부터 확인하면 되겠다.

즉, n에 대해 소수 x와, n-x 둘 다 존재하는지 가장 작은 x부터 확인하는 것이다.


또한 짝수를 두 소수의 합으로 표현하는데 주목할 점은, 주로 작은 소수의 합과 큰 소수의 합으로 표현된다는 점이다.

예를 들어 40까지의 짝수를 보면


4 = 2+2
6 = 3+3
8 = 3+5
10 = 3+7 = 5+5
12 = 5+7
14 = 3+11 = 7+7
16 = 3+13 = 5+11
18 = 5+13 = 7+11
20 = 3+17 = 7+13
22 = 3+19 = 5+17 = 11+11
24 = 5+19 = 7+17 = 11+13
26 = 3+23 = 7+19 = 13+13
28 = 5+23 = 11+17
30 = 7+23 = 11+19 = 13+17
32 = 3+29 = 13+19
34 = 3+31 = 5+29 = 11+23 = 17+17
36 = 5+31 = 7+29 = 13+23 = 17+19
38 = 7+31 = 19+19
40 = 3+37 = 11+29 = 17+23

주로 3, 5, 7 등의 작은 소수가 항상 등장한다는 것을 알 수 있다. (2는 짝수이기 때문에 당연히 등장하지 않는다)


따라서 소수들을 따로 모아두기 보다, 모든 수에 대해 소수인지 판별하는 배열을 유지하는게 더 이득일 것이다.


작은 소수가 항상 등장하고, n-x를 빠르게 찾는게 관건이라, 소수들을 따로 모아둔다면 탐색은 빠르면 log(N)이지만


모든 수에 대해 판별하는 배열이라면 거의 원타임에 탐색이 해결된다. (해당 인덱스에 가서 확인만 하면 된다)


3. 코드


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#include <algorithm>
#include <stdio.h>
#include <vector>
using namespace std;
 
bool prime[1000002];
vector<int> test;
int m, sqm, t, i, j;
 
int main(void) {
    while (1) {
        scanf("%d"&t);
        if (t == 0)
            break;
        test.push_back(t);
        m < t ? m = t : 0;
    }
    sqm = sqrt(m);
    for (i = 2; i <= m; ++i) {
        if (prime[i] == false)
            for (j = 2; i * j <= m; ++j)
                prime[i*j] = true;
    }
    int s = test.size();
    for (i = 0; i < s; ++i) {
        for (j = test[i] - 3; ; --j) {
            if (prime[j] == false) {
                if (prime[test[i] - j] == false) {
                    printf("%d = %d + %d\n", test[i], test[i] - j, j);
                    break;
                }
            }
        }
    }
    return 0;
}
cs


4. 후기


골드바흐의 추측에 대해 알고 있는지에 따라 풀 수 있고 없고가 확연히 드러나는 문제가 몇가지 있다.

그러한 문제들을 몇가지 알아보고자 한다.

+ Recent posts