티스토리 뷰

끄적끄적

[비개발서적] 협력의 진화(The Evolution of coopertion) 내용 정리

망나니개발자 2025. 9. 30. 10:00
반응형



 

1. 협력의 진화 내용 정리


[ 1. 협력, 무엇이 문제인가 ]

이 책에서 제시하는 협력이론은, 사회 구성원들에게 강제적으로 협력을 강요하는 중앙 권위체가 없는 상태에서 이익을 추구하는, 이기적 개인들에 대한 연구와 조사를 바탕으로 한다.

이런 온갖 유형의 특정 사례들을 분석해 들어가려면, 우선 각 경우에 특수한 세부사항들에 얽매이지 말고 이들 상황을 공통적으로 묘사할 수 있는 방법이 필요하다. 다행히도 그런 방법이 있다. 바로 그 유명한 ‘죄수의 딜레마’ 게임이다.

개인적으로 합리적인 결론이, 두 사람 모두에게는 더 나쁜 결과를 가져오는 것이다. 이것이 딜레마다.

여러 번 게임을 하더라도 게임의 횟수가 미리 정해져 있고 이 사실을 참가자들이 알고 있다면, 경기자들은 역시 협력할 동기가 없어진다. 이런 상황은 특히 마지막 게임일 때 더욱 뚜렷하게 나타난다. 다음 게임이 없으므로 상대방 눈치를 보지 않고 마음대로 선택할 수가 있기 때문이다.

이런 논리는 참가자들이 무한하게 경기를 치를 경우에는 적용되지 않는다. 그리고 실제 현실에서 대개 두 사람은 언제 둘 사이가 끝나게 될지 확실히 알 수 없다. 나중에도 살펴보겠지만, 이렇게 둘 사이 상호작용 횟수가 무한할 때는 협력이 정말 일어날 수 있다.

협력의 창발을 가능하게 해주는 것은 두 경기자가 다시 만날 수도 있다는 사실이다.

 

이 연구는 컴퓨터 대회라는 색다른 방법을 통해 이루어졌다. 게임이론 전문가들에게 선호하는 전략을 줄 것을 요청하고, 이들 전략을 돌아가며 둘씩 대전시켜 최종 승자를 뽑았다. 놀랍게도 승자는 제출된 것 중 가장 단순한 것으로 팃포탯이였다. 이것은 첫 게임에서 협력해 보고 다음부터는 상대가 하는 대로 따라하는 전략이다. 두 번째 대회에는 훨씬 더 많은 아마추어와 전문가들이 많은 프로그램을 제출했다. 이들은 모두 1차 대회의 결과를 잘 알고 있었다. 그런데 이번에도 팃포탯이 승리하였다! 이들 대회의 데이터 분석 결과 결정 규칙을 성공으로 이끄는 특성은 네 가지인 것으로 나타났다. 우선 상대가 협력하는 한 거이에 맞춰 협력하고 불필요한 갈등을 일으키지 말 것. 둘째, 상대의 예상치 않은 배반에 응징할 수 있으 것. 셋째, 상대의 도발을 응징한 후에는 용서할 것. 넷째, 상대가 나의 행동 패턴에 적응할 수 있도록 행동을 명확하게 할 것.

 

협력이 진화하려면 개인들이 다시 만날 확률이 충분히 커서 미래에 서로 이해관계로 얽힐 것이라고 믿어야 한다. 그렇기만 하면 협력은 세 단계에 걸쳐 진화한다.

  1. 무조건적으로 배신만 하는 세계에서도 협력은 싹틀 수 있다는 데서 이야기는 시작된다. 사실상 서로 상호작용할 기회가 없는 개인들이 산발적으로 협력을 시도한다면 협력은 ‘일어날 수 없다’. 그러나 아주 작게나마 대가성 협력을 바탕으로 서로 상호작용하는 무리가 있다면 이들로부터 협력이 진화할 수 있다.
  2. 이야기의 중반은, 호혜주의를 기초로 한 전략이 수많은 전략들이 난무하는 세상에서 살아남는다는 것이다.
  3. 이야기의 결말은, 협력이 일단 호혜주의를 원칙으로 안착되면 덜 협력적인 전략들에 맞서 스스로를 지켜낼 수 있다는 것이다. 그러므로 사회 진화의 톱니바퀴는 역회전을 방지하고 앞으로만 돌아가게 하는 미늘(ratchet)이 있다.

 

 

대회 결과와 여러 정식 명제들을 바탕으로 개인의 선택에 도움되는 제안을 네 가지 할 수 있다. 첫째, 남의 성공을 질투하지 말 것. 둘째, 먼저 배신하지 말 것. 셋째 협력이든 배반이든 그대로 되갚을 것. 넷째, 너무 영악하게 굴지 말 것.

 

 

 

[ 2. 컴퓨터 대회에서 팃포탯이 거둔 성공 ]

죄수의 딜레마는 실험의 시험대로 이용될 뿐 아니라 주요 사회적 과정들을 모형화하는 개념적 기초로 이용된다.

 

뜻밖에도 비교적 높은 점수의 프로그램 집단과 낮은 점수의 프로그램 집단을 구분하는 특징은 단 한 가지였다. 그것은 결코 먼저 배신하지 않는 ‘신사적(nice)’ 특성이다. 상위 여덟 개 규칙은 신사적이다. 그외 것들은 모두 비신사적이다. 신사적인 프로그램과 아닌 것 사이에는 상당한 점수차이도 있다. 게임의 거의 마지막까지 먼저 배신하지 않는 것 자체가 컴퓨터 죄수의 딜레마 대회에서 성공적인 규칙과 아닌 것을 구분하는 특성이었다.

 

신사적 규칙들이 대회에서 성적이 좋았던 이유는 주로 서로 잘했기 때문이지만 서로 평균 점수를 크게 올려줄 만큼 게임이 충분히 많았기 때문이기도 하다. 상대가 배반하지 않는 한 신사적 규칙들은 모두 게임 끝까지 확실하게 협력했다. 배반이 일어날 경우에는 어떻게 되었을까? 프로그램마다 각기 다르게 반응했는데 그 반응에 따라서 대회 순위가 결정되었다.

신사적 규칙들 중에서 가장 낮은 점수를 딴 것은 가장 용서할 줄 모르는 규칙이었다. 프리드먼은 끝까지 복수만 하는, 용서라고는 모르는 프로그램이다. 결코 먼저 배반을 하지는 않지만 상대가 일단 배반을 하면 그때부터 자기도 배반을 한다. 반면에 승자 팃포탯은 배반을 딱 한 번의 배반으로만 대응하고, 그다음 수부터는 완전히 용서한 상태에서 응수한다. 즉 한 번의 응징으로 과거는 과거로 잊어버린다.

비신사적 규칙들이 대회에서 성적이 부진했던 주요 이유 중 하나는 대부분 용서할 줄 모르기 때문이었다. 가끔 배반을 해서 득을 보는 얌체 요스(Joss)의 경우를 살펴보자. 이 규칙은 팃포탯의 변형이다. 팃포탯처럼 상대의 배반에는 바로 다음 게임에서 즉각 배반으로 응징한다. 그러나 상대의 협력에는 항상 협력하지 않고 열 번에 한 번, 10퍼센트 정도의 확률로 배반을 한다. 그러니까 상대를 가끔가다 슬쩍 이용해 먹는 것이다.

요스는 팃포탯을 약간 변형한 것처러 보이지만 사실 전체 획득 점수는 훨씬 나쁜데, 그 이유가 매우 흥미롭다. 처음에는 양 경기자가 협력하지만 여섯 번째 게임에서 요스가 내재된 10퍼센트 확률에 해당하는 배반을 선택했다. 그다음 게임에서는 다시 협력을 했지만 팃포탯은 요소의 이전 배반에 배반으로 대응햇다. 그러자 요스가 그다음 게임에서 팃포탯의 배반에 배반으로 대응했다. 그 결과 요스의 여섯 번째 게임의 단 한번의 배반이 요스와 팃포탯 사이에서 왔다갔다하는 배반의 메아리를 낳았다.

문제는 상대의 협력에 대해 가끔씩 하는 요스의 배반, 양쪽 다 단기적으로 용서 없이 응징하는 것, 이 두 가지가 조합된 데 있었다. 이것이 주는 교훈은, 요스와 팃포탯이 한 것처럼 양쪽이 모두 보복을 하는 전략일 경우 요스와 같이 욕심을 부리는 것은 소득이 없다는 것이다.

이 대회에서 얻은 가장 큰 교훈은, 상호세력이 맞서는 환경에서는 메아리 효과를 최소화하는 것이 중요하다는 것이다. 단 한 번의 배반으로 복수와 재복수가 끝없이 이어지게 되면 양쪽 다 손해를 본다.

 

컴퓨터 대회 환경에서 팃포탯보다 훨씬 더 나은 성적을 낼 수 있었을 규칙을 몇 개 찾아내기는 어렵지 않았다.

사실 어떤 식으로 제출해야 하는지 알려주기 위해 참가 예정자들에게 보낸 샘플 프로그램을 누군가 그대로 베껴서 출전했더라면 대회에서 우승했을 것이다! 그러나 아무도 그렇게 하지 않앗다. 샘플 프로그램은 상대가 이전 두 게임에서 연속 배신을 할 때만 배반을 하는 전략이었다. 딱 한 번 하는 배반은 응징하지 않는다는 점에서 팃포탯의 보다 관대한 버전이다. 즉 관대할수록 더 많은 점수를 얻을 수 있는데 대부분의 참가자들이 팃포탯 보다 덜 관대해야 더 많은 점수를 얻을 수 있다고 생각한 것이다. 이 발견이 시사하는 바는 충격적이다. 전략 전문가들조차도 용서의 가치에 그다지 무게를 두지 않았음을 의미하기 때문이다.

 

많은 규칙들이 게임 초반에 상대의 도발이 없는데도 배반을 하였는데, 이에 따라 장기적으로 막대한 대가를 치르게 되었다.

 

대회 분석 결과는 상호세력이 맞서는 환경에서의 협력에 대해 연구할 것이 아주 많음을 시사한다. 정치학, 경제학, 사회학, 심리학, 수학 분야의 전략 전문가들조차도 관용을 충분히 베풀지 않고, 상대의 협조 가능성에 대해 너무 비관적으로 생각하며, 자기 이익을 위해 지나치게 경쟁적이 되는 체계적 오류를 범했다.

 

한 전략의 효율성은 자체의 특성뿐 아니라 상호작용해야 하는 다른 전략들의 속성에도 좌우된다. 그러므로 단 한번의 대회에서 얻은 결과는 신빙성이 적다. 그래서 2차 대회를 다시 열었다.

참가자들은 1차 대회에 대한 상세한 분석 자료를 제공받았다. 따라서 참가자들은 1차 대회의 결과뿐 아니라 성공을 분석하는 데 사용된 개념, 생각치 못했던 전략적 약점들까지 잘 알게 되었다. 뿐만 아니라 생다 경기자도 이것을 알고 있다는 사실도 알고 있었다.

6개 국가에서 총 62개의 프로그램이 참가하였다.

2차 대회는 1차 대회 분석에서 나온 논제들의 타당성을 시험해 볼 수 있는 기회이자 성공과 실패의 원인 설명에 필요한 개념을 개발할 수 있는 기회이기도 했다.

팃포탯은 1차 대회에 출전한 가장 단순한 프로그램이며, 1차 대회의 승자였다. 그런데 2차 대회에서도 팃포탯은 가장 단순한 결정 규칙이면서 역시 승자였다. 참가자들은 모두 팃포탯이 1차 대회에서 우승한 것을 알고 있었지만, 아무도 그보다 더 나은 것을 고안해내지 못했던 것이다.

대회 규정은 누구든지, 어떤 프로그램이든지, 남이 만든 것이라도 상관없이, 제출해도 됨을 명확히 하였지만 팃포탯을 출전시킨 사람은 단 한 사람밖에 없었다. 1차에서 팃포탯을 제출했던 아나톨 라포포트 혼자였다.

첫째 대회에서와 마찬가지로 신사적이면 보상을 받았다. 먼저 배반하면 항상 상다한 대가를 치렀다. 참가 규칙의 반 이상은 신사적이었는데, 먼저 배반을 하면 좋을 게 없다는 첫 대회의 교훈을 대부분의 참가자들이 얻은 게 분명했다.

최상위 15등에 들어간 프로그램 중 하나만 빼고(이 프로그램은 8등을 했다) 모두 신사적이었다. 최하위 15개 규칙은 하나만 빼고 모두 비신사적이었다.

신사적 프로그램들 사이에서 우열을 가려준 한 가지 특성은 상대 경기자의 도발에 얼마나 즉각적으로, 또 얼마나 일관되게 대응하는가였다. 상대의 “예상치 않은” 배반에 곧바로 배반하는 규칙은 ‘보복적’이라고 할 수 있다. “예상치 않은”의 의미를 정확하게 정의하기는 어렵다. 그러나 요지는, 상대 경기자의 도전에 즉각 반응을 일으키지 않은 느긋한 경기자는 더욱 빈번하게 상대에게 이용당한다는 점이다.

1차 대회의 교훈은 2차 대회의 환경에 영향을 미쳤다.

팃포투탯은 24위에 그쳤다. 이는 1차 대회에서 각기 다른 교훈 두 가지를 배운 두 사람이 상호작용했기 때문인 듯하다. 교훈 1이란, “신사적이고 관대하라”이고, 교훈 는 좀 더 착취적으로 “상대가 신사적이고 관대하면 그 점을 이용하는게 유리하다”이다. 교훈 1을 새긴 사람은 차 대회에서 교훈 2를 고수한 사람에게 당했다.

결과적으로, 거의 모든 규칙과 잘 어울린 팃포탯이 1차 대회에서의 우승에 이어 2차 대회에서도 우승을 하였다.

 

참가 규칙들의 유형 분포가 크게 달랐다면 2차 대회의 결과는 훨씬 달라졌을까? 달리 표현하자면, 팃포탯은 다양한 종류의 환경에서 항상 우수할까? 즉 팃포탯은 ‘강건한가’?

이를 조사하는 좋은 방법은 일련의 가상 대회를 구성하는 것이다. 가상 대회 결과 팃포탯이 6회의 대회 중 5회에서 우승하였고 한 대회에서만 2등을 하였다. 이것은 팃포탯의 성공이 얼마나 강건한지 보여주는 확고한 실험 결과다.

팃포탯의 강건함을 검사하는 또 다른 방법은 온갖 다양한 미래 가상 대회들을 구축해 보는 것이다. 너무 못하는 규칙들은 다음 대회에서는 다시 시도되지 못하고 충분히 잘하는 것들은 이후 대회에 계속 살아남을 것이다. 지속적으로 성공하려면 다른 성공적인 규칙들과 대결해 잘해야 하기 때문이다.

일상적인 말로 표현하자면, 성적이 부진한 규칙들은 몇 가지 이유로 점차 보기 힘들게 될 것이다. 한 가지 이유는, 경기자들이 이 전략 저 전략 시도해 보다가 제일 잘 되는 전략으로 안착한다는 것이다. 또, 한 전략을 쓰던 경기자가 다른 전략들이 더 성공적인 것을 보면 그중 하나를 자기 전략으로 삼을 수 있다.

죄수의 딜레마 대회에서 이 과정을 모의실험하는 것은 사실 무척이나 간단하다. 대회 대전표에서 각 전략들이 서로 겨뤄 얻은 점수를 찾아낸다. 이로부터 어떤 주어진 회차의 대회에서 각 전략이 차지하는 비율을 계산하고 이어서 다음 회차에서 각 유형이 차지하는 비율을 계산하기만 하면 각각의 전략이 얼마나 성공적인지 알 수 있다. 좋은 전략일수록 그 비중은 점점 더 커질 것이다.

실험 결과는 흥미롭다. 맨 처음 일어나는 현상은 하위 11개 전략이 다섯 세대가 지나면 그 비율이 반으로 떨어지는 것이다. 반면에 중위권 전략들은 제 크기를 유지하고, 상위권 전략들은 서서히 커져간다. 50번째 세대에 이르면 하위권 1/3에 속하는 것들은 명실공히 사라지고, 중위권 대부분의 것들은 축소되며 상위권 1/3은 계속 성장하고 있을 것이다.

 

 

생태학적 모의실험에서 덜 성공적인 전략은 덜 흔해지고, 더 성공적인 전략은 더 번성한다. 세대가 지나면서 구성 전략 유형의 통계적 분포가 변하고 이것은 다시 각 구성 전략들이 상호작용해야 하는 환경을 변화시킨다.

처음에는 열등한 프로그램과 좋은 프로그램이 같은 비율로 존재한다. 그러나 시간이 지나면서 열등한 것들은 떨어져 나가고 좋은 것들은 살아남는다.

생태학적 멸종의 좋은 예가 차 대회의 상위 15개 전략 중 유일하게 비신사적이었던 규칙 해링턴이다. 생태학적 대회의 처음 200여 세대에서는, 팃포탯과 다른 성공적인 신사적 프로그램들이 집단 내 비율을 늘려가는 동안 해링턴 역시 세를 증가시키고 있었다. 그 이유는 해링턴이 착취적 전략이기 때문이었다. 그러나 200여 번째 세대에 다다르자 판도가 바뀌기 시작했다. 덜 성공적인 프로그램들이 멸종되기 시작했다. 이것은 해링턴이 이용할 먹잇감이 점점 적어짐을 의미했다. 해링턴은 곧 성공적인 신가적 규칙들의 성적을 따라잡기 어렵게 되었고, 1000번째 세대에 이르자 자신의 먹잇감이었던 착취적 규칙과 함께 멸종의 운명을 맞았다.

생태학적 분석을 통해, 자체적으로 성공적이지 못한 규칙들을 상대로 성공한 규칙은 궁극적으로 자멸의 길로 들어섬을 알 수 있다. 비신사적인 것이 처음에는 유망해 보이지만 장기적으로 그것은 자신의 성공에 필요한 환경 자체를 스스로 파괴하는 게 된다.

실험 결과 팃포탯은 또 하나의 승리를 거두었다.

 

팃포탯의 강건한 성공은 신사적이고, 보복적이고, 관대하고, 명료한 특성들이 조합된 결과다. 신사적이라 쓸데없는 문제에 휘말리지 않고, 보복적이라 상대가 배반을 시도할 때마다 더 이상 지속하지 못하게 억제한다. 관대함은 상호협력을 회복하는 데 도움이 되며, 명료성은 상대로 하여금 이해하기 쉽게 해서 장기적 협력을 이끌어낸다.

 

 

 

[ 3. 협력의 연대기 ]

협력하게 만들 수 없는 개인들로 이루어진 시스템을 상상해 보자. 올디의 총체적 안정성이 뜻하는 바는 이 집단의 누구든 함께 비협력적으로 나가는 것보다 더 잘할 수는 없을 것이다. “비열한”들의 세상은 어떤 다른 전략을 쓰는 사람의 침범도 견뎌낼 수 있다. 단, 이 신참들이 한 번에 하나씩만 나온다면 그렇다. 그 이유는 물론 비열한들의 세상에 존재하는 한 명의 신참은 서로 협력을 주고받을 상대가 하나도 없기 때문이다. 그러나 신참들이 작은 무리로 나타난다면 그들 사이에 협력이 시작될 수 있다.

그런데 이제 몇 경기자가 팃포탯 전략을 쓴다고 해보자. 팃포탯이 올디와 만나면 팃포탯은 첫 게임부터 이용당하고 비열한과 다시는 협력을 안 할 것이다. 이로서 첫 게임에서 0점, 그 후부터 계속 1점을 받아 누적 합계 9점이 된다. 이 점수는 비열한끼리 서로 경기해 얻는 10점보다는 좀 적다. 그러나 팃포탯이 다른 팃포탯과 겨루면 처음부터 서로 협력해 각 수마다 3점을 받아 총 30점이 된다. 이 점수는 비열한끼리 싸워 얻는 10점보다 훨씬 높다.

만약 신참 팃포탯이 전체 집단에서 무시할 만큼 작은 부분을 차지한다면 비열한들은 거의 틀림없이 다른 비열한과 경기를 하게 되고 10점만 따게 된다. 팃포탯 경기자들은 서로 겨룰 수만 있다면 10점보다 높은 점수를 딸 수 있다. 즉 호의를 되갚을 줄 아는 협력적인 상대와 게임할 기회가 충분히 있으면 30점을 올리고 그렇지 못한 상대와는 9점밖에 못 올린다. 팃포탯과 대전할 비율이 5%밖에 안 될 때에도, 이것은 사실이 된다. 이렇게 팃포탯 경기자 무리가 작더라도 침범해 들어간 비열한들의 집단의 평균보다 높은 점수를 얻을 수 있다. 팃포탯끼리 만났을 때 성적이 워낙 월등히 높기 때문에 이 전략을 우월한 전략으로 만들기 위해 그렇게 자주 만나야 할 필요도 없다.

이렇게 해서 비열한들의 세상은 팃포탯 무리에 의해 침범당한다. 그것도 별로 어렵지 않게.

식별력 있는 개인들이 모인 작은 무리로부터, 이들이 작은 규모나마 상호작용하기만 하면, 협력은 창발된다.

 

 

[ 4. 1차 대전 참호전에 나타난 공존공영 시스템 ]

1차 세계 대전 당시 서부전선에서는 몇 치의 영토를 놓고 치열한 전투가 벌어졌다. 그러나 잠시 전투가 중단된 동안은 물론 전투를 하는 동안에도 프랑스와 벨기에 영토의 800키로미터에 걸친 여러 전선에서는 적군끼리 서로 상당히 자제하는 일이 허다했다. 이들 참호를 둘러본 한 영국군 참모 장교는 이렇게 기록했다.

나는 독일 병사들이 그들 방어선 안의 아군 소총 사정거리 내에서 태연하게 걸어 다니는 모습을 보고 깜짝 놀랐다. 아군 병사들도 그것을 보고도 신경을 쓰지 않는 것 같았다. 나는 나중에 우리가 이 지구를 맡게 되면 이런 것부터 뜯어고쳐야겠다고 마음먹었다. 그건 있을 수 없는 일이었다. 병사들은 현재 전쟁을 하고 있는 사실을 까맣게 잊은 듯 했다. 양측 모두 “공존공영” 정책을 철석같이 믿고 있는 게 분명했다.

 

 

이런 일은 이 참호에서만 일어난 것이 아니었다. 공존공영 시스템은 참호전에서 고질적인 것이었다. 상급 지휘자들이 아무리 중지시키려 해도, 전투가 아무리 치열해도, 죽이지 않으면 죽는다는 군사 논리 앞에서도, 그리고 상부 명령으로 국지적 휴전 시도가 쉽게 억제될 수 있는데도 공존공영 시스템은 활개를 쳤다.

한 독일군 병사는 영국군의 “저녁 포격”에 대해서 다음과 같이 기록했다.

7시면 시작되었다. 얼마나 규칙적인지 그걸 보고 시계를 맞출 수도 있었다. (…) 목표물은 늘 동일했다. 포격의 범위도 늘 일정했다. 그 범위를 넘거나 미치지 못하는 경우는 한 번도 없었다. (…) 심지어 호기심 많은 병사들은 7시 직전에 포탄 터지는 것을 구경하려고 참호 밖으로 기어 나오기도 했다.

 

 

이런 형식적이고 판에 박힌 공격은 두 가지 메시지를 담고 있었다. 상부에는 자신들이 열심히 싸우고 있음을 알리는 한편, 적에게는 평화를 원한다는 것을 알리는 것이다. 전투 의지를 불태우는 것 같았지만, 사실은 그런 시늉만 하고 있었다.

1차 세계대전 당시 참호전은 고단함 속에서 나타난 공존공영 시스템은 호혜주의에 바탕을 둔 협력이 나타나는 데 우정은 필요 없음을 입증한다. 적절한 조건만 갖추어진다면 적대적 관계에서도 얼마든지 협력이 발전할 수 있다.

 

 

 

[ 5. 생명계에서의 협력의 진화 ]

이 연구에서 나온 핵심 결론부터 말하자면, 지능은 협력에 필요하지 않다.

 

 

 

[ 6. 어떻게 효과적으로 선택할 수 있을까 ]

이 장의 목적은 여기서 얻어진 발견들을 경기자들을 위한 조언으로 번역하는 일이다.

  1. 질투하지 마라
  2. 먼저 배반하지 마라
  3. 협력이든 배반이든 그대로 되갚아라
  4. 너무 영악하게 굴지 마라

 

1. 질투하지 마라

사람들은 제로섬 방식의 상호작용을 생각하는 데 익숙해져 있다. 하지만 우리의 살은 대개 제로섬 방식이 아니다.

사람들은 당장 눈에 보이는 비교 기준에 의존하는 경향이 있다. 이 기준은 보통 상대방이 거둔 성공이다. 이런 비교는 질투로 이어지게 마련이다. 그리고 질투는 상대방이 거둔 성과를 어떻게든 깎아내리려는 시도로 이어진다. 결국 배반을 하는 수밖에 없다. 하지만 배반은 더 많은 배반을 부르고, 서로 처벌을 받는 결과를 부를 뿐이다. 질투는 스스로를 파괴한다.

팃포탯은 컴퓨터 대회에서 우승을 차지했다. 다양한 전략들을 상대로 상호작용을 잘했기 때문이다. 평균으로 보았을 때, 팃포탯은 대회에 참가한 다른 어떤 프로그램보다 높은 점수를 기록했다. 하지만 팃포탯은 참가 프로그램들과 대전을 하면서 단 한 차례도 상대방보다 좋은 점수를 얻은 적이 없다! 사실 그럴 수가 없다. 상대방이 먼저 배반하게 하고, 상대방보다 더 많이 배반하지 않기 때문이다. 그러므로 팃포탯의 점수는 매 수에서 상대방과 같거나 상대방보다 약간 적을 수 밖에 없다. 팃포탯이 우승을 한 것은 상대방을 무찔러서가 아니라 함께 좋은 점수를 얻을 수 있는 행동을 상대방으로부터 이끌어냈기 때문이다.

그러므로 비제로섬의 원리가 작동하는 이 세상에서 전체적으로 좋은 성과를 올리기 위해서는, 매 게임마다 상대방보다 잘해야 할 필요는 없다. 내가 주의해서 잘하는 한, 각 상대들이 나와 같거나 조금 높은 점수를 얻도록 내버려두어도 좋다.

 

 

2. 먼저 배반하지 마라

컴퓨터 대회와 이론적인 연구를 통해서 얻은 결론은, 상대방이 협력적인 한 협력을 선택하는 것이 유리하다는 것이다.

어떤 전략이 좋은 성적을 낼지 예측할 수 있는 기준을 단 하나 꼽는다면, 그것은 바로 그 전략이 신사적이냐 아니냐, 다시 말해서 상대보다 먼저 배반을 하느냐의 여부이다.

지금 배반을 해서 당장 얻을 수 있는 이득에 비해 상호작용의 미래가 그다지 중요하지 않다면, 상대방이 배반할 때까지 기다릴 필요가 없다. 그러므로 나중에 다시 상대를 만날 것 같지 않으면 배반하는 편이 신사적인 것보다 이득이다.

이는 여기저기 옮겨다니는 것으로 알려진 집단은 불리함을 암시한다.

먼저 배반하는 것이 유리한 경우는 관계가 짧을 때뿐이 아니다. 상대방이 나의 협력에 협력으로 갚지 않을 때도 그렇다. 주위 사람이 모두 항상 배반하는 전략을 쓴다면, 혼자 신사적으로 굴어봐야 손해만 본다.

3장에서 제시된 수치대로, 팃포탯 전략과 상호작용을 하는 비율이 전체 상호작용 가운데서 5퍼센트만 되어도 항상 배반을 선택하는 사람보다 더 나은 성과를 올릴 수 있다.

 

 

3. 협력이든 배반이든 그대로 되갚아라

팃포탯 전략의 비상한 성공은 단순하지만 설득력 있는 교훈을 준다. 받은 대로 되갚아 주라.

하지만 팃포탯 전략의 호혜주의의 진짜 가치는, 다양한 전략들이 뒤섞인 어떤 환경에서도 좋은 성과를 낸다는 데 있다.

분명한 것은 상대방이 한 차례 배반을 했을 때 두 차례 이상 배반하는 것은 자칫 끝없는 보복으로 이어질 위험이 있다는 사실이다. 반면에, 한 차례 미만으로 응징하려면 상대방으로부터 이용을 당할 확률이 높아진다.

 

 

4. 너무 영악하게 굴지 마라

소위 성과 극대화 전략들은 좋은 성적을 내지 못했다. 상호배반의 고리에 쉽게 갇혀버렸기 때문이다. 그러나 성과를 극대화하려는 전략들의 정말 큰 문제는 ‘자신’의 행동이 상대방의 선택을 바꾸어 놓을 수도 있음을 고려하지 않았다는 것이다. 제한된 가정 아래 계산하는 데는 뛰어나지만 상호작용의 효과는 무시한다.

다른 식으로 지나치게 영악한 전략으로 “영원한 복수”가 있다. 이 전략은 상대방이 협력을 하는 한 협력을 하지만, 상대방이 일단 한 번이라도 배반을 하면 용서를 하지 않고 두 번 다시 그하고는 협력하지 않는다. 이 규칙 역시 신사적이기 때문에 다른 신사적인 규칙과 만나서 좋은 점수를 얻는다. 협력에 별로 반응하지 않는 규칙, 즉 완전히 무작위로 선택하는 랜덤 같은 규칙을 상대로도 좋은 점수를 얻는다. 그러나 이 밖의 다른 규칙을 상대로 할 때는 성적이 좋지 않다. 가끔 한 번씩 배반을 시도하는 규칙을 너무 일찍 포기해 버리기 때문이다. 영원한 복수는 상대가 배반할 수 업없게 하는 최대의 동기를 주므로 똑똑해 보일 수도 있다. 하지만 자신에게 돌아오는 이득은 형편없다.

대회에서 지나치게 영악했던 전략이 하나 더 있다. 이 전략은 너무 복잡한 확률 계산을 하여, 상대방이 이 전략을 무작위적인 전략과 구분할 수 없게 만들었다.

물론 현실에서 사라들은 왜 그렇게 복잡한 전략을 선택했는지 상대방에게 설명할 수 있다. 그래도 문제는 남아 있다. 서령하는 이유가 너무 복잡해지면 상대방은 이것을 임시방편으로 지어낸 말은 아닌지 미심쩍어할 수 있다. 이런 상황이라면 상대방은 내가 정말 협력에 반응하는 상대인지 의심할 것이다.

팃포탯 전략이 놀라운 성적을 거둔 다른 이유로, 이 전략이 가진 단순성을 들 수 있다. 팃포탯 전략은 상대가 대번에 파악할 수 있다. 그래서 내가 어떤 배반에도 반드시 일 대 일로 대응한다는 사실도 숙지하게 된다. 즉 상대는 자신의 선택에 따라서 내가 어떤 대응을 할지 확신할 수 있다. 그러면 팃포탯 전략을 다루는 제일 좋은 방법은 그와 협력하는 것임을 곧 깨닫게 된다.

다시 강조하자면, 체스와 같은 제로섬 게임과 제수의 딜레마 게임과 같은 비제로섬 게임 사이에는 중요한 차이가 있다.

 

 

 

[ 7. 어떻게 협력을 증진시킬 수 있을까? ]

상호작용이 반복되지 않는다면 협력이 일어나기 힘들다. 그렇기 때문에 협력을 증진시키는 중요한 방법은 두 사람이 나중에 다시 만날 수 있게 하고, 다시 만났을 때 서로 알아볼 수 있게 하고, 또 과거 서로에게 어떤 행동을 했는지 기억할 수 있도록 조정하는 것이다. 이처럼 계속적으로 이어지는 상호작용은 호혜주의에 입각흔 협력이 안정적으로 자리를 잡게 해 준다.

 

 

1. 현재에 드리우는 미래의 그림자를 확대하라

현재와 비교해 미래가 충분히 중요하다면 상호협력은 안정적이다.

경기자 가운데 한 사람이 죽거나 파산하거나 멀리 이사를 가거나 혹은 다른 이유로 해서 두 사람 사이의 관계가 끝날 수 있는데, 이런 가능성을 미리 정확하게 예측할 수가 없기 때문에 다음 게임은 언제나 현재 게임보다 덜 중요할 수밖에 없다. 다음 게임은 없을 수도 있다. 미래가 현재보다 덜 중요한 또 하나의 이유는, 사람들은 보통 어떤 이득이 있을 때 오늘 당장 받기를 원하지 내일까지 기다렸다가 받기를 원하지는 않는다는 사실이다. 이 두 가지 이유가 한데 얽혀 작동함으로써 다음 게임은 현재 게임보다 덜 중요하게 된다.

현재와 비교해서 미래가 충분하지 않을 때는 ‘어떤’ 형태의 협력도 안정적이지 않다는 뜻이다.

이 결론은 협력을 장려하기 위한 첫 번째 방법, 즉 미래의 그림자를 확대하는 것의 중요성을 강조한다. 이를 위한 두 가지 방법이 있다. 상호작용이 보다 오래 계속되도록 하는 것과 더 자주 만나도록 하는 것이다.

 

 

2. 보수 자체를 바꾸어라

서로 자백했을 때 얻는 보수가 너무 낮아져 두 사람은 입을 굳게 다물 수 있다. 그리고 둘 다 침묵하여 서로 협력을 함으로써 둘 다 비교적 가벼운 처벌을 받는다.

점수 체계에 커다란 변화가 일어난다면 상호작용의 내용이 변질되어 더는 죄수의 딜레마 상황이 아니게 된다. 배반했을 때의 처벌이 워낙 커서 상대방이 어떤 선택을 하든 간에 단기적으로 협력하는 외에 다른 방법이 없다면, 더는 딜레마가 아니다.

상호협력의 장기적인 동기를 배반의 단기적인 동기보다 높게만 하면 된다.

 

 

3. 서로에 대한 배려를 가르쳐라

한 사회에서 협력을 장려하기 위한 최고의 방법은, 사람들에게 상대의 복지를 배려하라고 교육하는 것이다.

하지만 겉으로는 너그럽게 보이는 행동들이 실제로는 이타주의가 아닌 다른 이유로 일어날 수도 있음에 주의해야 한다. 예를 들어 보자. 자선을 베푸는 행위는 대부분 딱한 처지에 놓인 사라이 가여워서가 아니라 사회적으로 인정을 받기 위한 마음에서 비롯된다.

이타주의는 사회화를 통해서도 유지될 수 있다. 하지만 심각한 문제가 하나 있다. 이기적인 개인은 다른 사람이 베푸는 이타주의의 덕은 실컷 보고 자신은 남에게 베풀거나 그것을 갚지 않을 수도 있다는 점이다. 다른 사람들에게는 관용과 이해를 기대하면서 자기는 남의 생각은 하지 않고 자기밖에 모르는 못된 인간들을 우리는 얼마든지 본다. 이들은 관용적인 사람들을 대하는 방식과 다르게 대해야 한다. 적어도 이런 녀석들에게 이용당하지 않으려면 말이다.

 

 

4. 호혜주의를 가르쳐라

실제로 이것은 자신에게 좋을 뿐만 아니라 다른 사람에게도 좋다. 다른 사람에게 좋은 이유는 남을 이용하고 착취하는 전략이 살아남기 어렵게 만들기 때문이다.

공평함 이상을 원하지 않는다는 점은 호혜주의에 입각한 수많은 전략들이 가지고 있는 기본 속성이다.

팃포탯은 두 대회에서 모두 우승을 했지만, 맞붙었던 상대보다 더 많은 점수를 얻은 적은 단 한 번도 없었다! 사실상 팃포탯은 근본적으로 게임에서 상대보다 더 많은 점수를 얻을 수 없다. 항상 상대가 먼저 배반하게 하고, 또 절대 상대보다 더 많이 배반하지 않기 때문이다. 팃포탯은 더 상대방보다 더 많은 점수를 얻어서가 아니라 상대방으로부터 협력을 이끌어냄으로써 우승했다.

팃포탯 전략이 안고 있는 문제는, 일단 불화가 시작되면 영원히 계속될 수 있다는 것읻다. 이보다 나은 전략은 한 번의 배반에 10분의 9만큼만 되갚는 것일지도 모른다. 이 경우에 갈등의 메아리 효과는 누그러지지만 여전히 상대가 대가를 치르지 않는 배반을 시도해서는 안 될 동기를 준다. 즉, 호혜주의를 바탕으로 하면서도 팃포탯보다 약간 더 관용적이되는 것이다.

 

 

5. 인식 능력을 높여라

과거에 상호작용했던 상대를 알아보고, 그 상호작용이 어땠는지 관련된 특성을 기억하는 능력은 협력을 유지하는 데 반드시 필요하다. 이런 능력이 없다면 어떤 형태의 호혜주의도 실천할 수 업속, 나아가 상대방에게서 협력을 이끌어낼 수도 없다. 예를 들어, 모든 종류의 핵실험 금지 합의는 최근까지도 지하 핵실험과 지진을 구별할 수 없는 기술적 한계로 이루어지지 못했다.

사람들이 과거에 상호작용했던 사람을 인식하고 그가 어떤 행동을 취했었는지 확신할 수 있는 능력을 개선할 수 있다면 협력의 지속가능성은 보다 확장될 수 있다.

 

 

 

[ 8. 협력의 사회적 구조 ]

꼬리표, 고정관념, 신분체계

사람들은 흔히 관찰가능한 상대방의 성별, 나이, 피부색, 옷을 입는 스타일 등에 영향을 받으면서 상호작용을 한다. 이런 특성들은 상대와 상호작용을 시작하기 전에 이미 상대가 쓸 전략에 대한 유용한 사실들을 어느 정도 알게 해준다. 그 이유는 그 사람의 관찰된 특성에 따라 비슷한 특성을 가진 집단의 구성원이라는 꼬리표가 붙기 때문이다. 이 꼬리표를 보고 상대방은 그 사람이 어떻게 행동할 것인지 추론한다.

‘꼬리표’는 상호작용이 시작될 때 한 경기자에 의해 관찰되는 다른 경기자의 고정된 특성이라고 정의할 수 있다. 꼬리표에 의해서 나타나는 결과 가운데 하나는 매우 흥미롭지만 한편으로 난처한 것으로, 꼬리표가 자기확신적(self-confirming) 고정관념에 빠지게 할 수 있다는 사실이다.

 

 

평판과 규제

일반적으로 평판은 한 경기자가 다른 경기자와 상호작용하는 것을 관찰할 대 형성된다.

이들 추론이 정확한가 아닌가는 별개의 문제다. 요점은, 제 3자가 지켜보고 있을 때는, 현재 상황의 이해득실 계산은 당장의 이해관계를 넘어 현재의 선택이 경기자들의 평판에 미칠 영향에까지 확장된다는 것이다.

다른 사람에 대한 평판을 알고 있으면 첫 번째 선택을 하기 전에 벌써 그가 쓸 전략에 대해서 어느 정도 파악하고 있는 셈이다.

어던 정보의 가치를 측정하는 방법의 하나는, 그 정보가 없을 때에 비해서 있을 때 얼마나 더 좋은 점수를 올리는지 계산하는 것읻다. 하지만 두 대회 모두에서 쉽게 이용당하는 프로그램은 많지 않았다. 따라서 실제로 상대방의 전략을 미리 알았다 해도 만능 전략 팃포탯을 능가하는 데 도움이 안 되었을 것이다. 상대방의 전략을 알아봐야 소득이 적다는 것은 팃포탯 전략의 강건함에 대한 또 하나의 척도이기도 하다.

정보의 가치에 대한 질문은 뒤집어서 다르게 할 수도 있다. 상대 경기자가 ‘나’의 전략을 알게 하는 것은 어떤 가치가 있을까, 혹은 어떤 대가를 치르게 할까? 물론 대답은 어떤 전략을 쓰고 있느냐에 따라 다르다. 만약 팃포투탯처럼 쉽게 이용당할 수 있는 전략을 쓴다면 혹독한 대가를 치를 것이다. 반대로 완벽한 협력과 가장 잘 맞는 전략을 쓰고 있다면 내 전략을 상대가 알게 하는 것은 더없이 좋을 것이다.

평판을 쌓는 목적 가운데 하나는, 확실한 위협을 통해, 상대방을 규제하는 것이다. 위헙해야 하는 상황이 정말 벌어지면 사실은 원하지 않더라도 반응을 반드시 보여야 한다.

 

 

정부와 국민

어느 경우에서든 단호함과 강력함이라는 평판을 유지함으로써 사전에 도전을 차단하는 것이 핵심이다. 이런 평판을 유지하려면, 당면한 쟁점에 걸린 이득보다 훨씬 많은 비용을 들여서라도 어떤 도전에는 매섭게 대처해야 할 수도 있다.

그런데 아무리 강력한 정부라 하더라도 어느 규칙이나 다 강제할 수는 없다. 정부가 효과적으로 기능하려면 국민 대다수로부터 동의를 얻어야 한다. 이렇게 하려면 국민 대다수에게 그 규칙을 따르는 것이 대부분의 경우 유리하도록 규칙을 제정하고 또 집행해야 한다.

 

 

세력권

많은 상황에서 참가자는 종종 상대방의 선택을 잘못 오해할 수 있다. 또, 배반이 들키지 않을 수도 있고, 협력이 배반으로 오해받을 수도 있다. 이런 오류가 어떤 결과를 낳는지 확인하기 이해서, 각 선택이 상대방에 의해 잘못 인식될 확률을 1퍼센트로 설정하고 1차 대회를 다시 진행시켜 보았다. 그랬더니 예상한대로 이런 오해는 참가자들 사이에 훨씬 많은 배반이 일어나게 했다. 그런데 놀랍게도, 팃포탯은 여전히 최고의 전략이었다. 한 번의 오해 때문에 서로 보복을 반복하는 메아리 효과에 빠져 한참 고전했지만, 팃포탯은 대개 또 한 번의 오해로 메아리를 종식시킬 수 있었다. 많은 프로그램들이 덜 관용적이라 한번 고전하기 시작하면 거기에서 빠져나오기 어려웠다. 팃포탯이 과거에 오해가 있어도 성적이 좋았던 이유는 쉽게 용서하고 상호협력을 다시 구축할 기회를 가지기 때문이다.

개인적으로 이 연구를 진행하며 가장 놀란 것 가운데 하나는, 배반에 대한 응징의 가치였다. 나는 이전까지만 해도, 화는 되도록 참는 게 좋다고 믿었다. 하지만 죄수의 딜레마 컴퓨터 대회의 결과는, 도발에는 즉각 대응하는 것이 실제로 더 좋음을 보여주었다. 만일 상대방이 주제넘게 배반했는데도 반응을 자제한다면, 상대방에게 잘못된 신호를 보낼 위험이 있다. 배반에 대한 응징을 오래 내버려두면 둘수록, 상대는 배반을 하는 게 이득이라고 결론 내릴 가능성이 높아진다. 그리고 이런 양상이 굳어질수록 나중에 깨뜨리기는 더욱 힘들어진다. 배반에 대한 응징은 빠르면 빠를수록 좋다는 의미다. 팃포탯의 성공은 이런 사실을 확실히 뒷받침한다. 즉각 반응해야, 배반을 선택하면 손해라는 메시지가 최대한 빠르게 상대방에게 전달된다. 가장 중요한 것은 상대방이 배반을 선택할 동기를 갖게 되지 않는 것이다.

물론 응징에는 위험이 따른다. 상대방이 정말 배반을 시도하고, 여기에 대한 보복에 또 보복이 이어져, 갈등은 결국 끝없는 상호배반의 악순환에 빠져버릴 수 있기 때문이다. 이것은 물론 심각한 문제가 될 수 있다.

이렇게 갈등이 지속되는 것은 메아리 효과 때문이다. 각자 상대방의 이전 배반에 대해서 자신의 새로운 배반으로 반응한다. 이에 대한 한 가지 해결책은, 법으로 양쪽 모두를 단속할 수 있는 중앙 권위체를 찾는 것이다. 불행하게도 이런 해법은 실현되기 어려운 경우가 많다. 중앙 권위체의 활용이 불가능하거나 너무 비쌀 때 가장 좋은 방법은 자기 단속의 기능을 가진 전략에 의존하는 것이다.

이런 자기단속적 전략은 도발을 응징할 수 있어야 하지만, 메아리 효과를 유발하지 않도록 반응이 너무 커서는 안 된다.

제한적 응징은 안정적인 협력을 위해 고안된 전략이 가진 유용한 특성이다. 팃포탯은 상대방의 배반에 대해서 똑같은 규모의 배반으로 대응하지만, 많은 경우 대응이 도발보다 약간 작을 때 협력의 안정성이 강화된다. 그렇지 않을 경우 서로의 배반에 대해서 보복하는 악순환에 곧장 빠져버리기 쉽다. 메아리 효과를 통제하는 방법은 여러 가지가 있다. 그 가운데 하나는, 먼저 배반을 선택한 참가자가 자신의 도발에 대한 상대방의 응징에 굳이 또 다른 응징으로 대응할 필요가 없음을 깨닫는 것이다.

팃포탯 전략이 상대보다 결코 더 잘하지 못하면서도 궁극적으로 성공한다는 사실에 중요한 교훈이 담겨 있음도 알았다. 팃포탯은 상대방을 패배시킴으로써 성공하는 게 아니라 상대방에게서 협력을 이끌어냄으로써 성공을 거두었다. 우리는 축구나 체스처럼 오로지 한쪽만 이기고 한쪽은 지는 식의 경쟁에 익숙해져 있다. 그러나 세상은 그렇지 않다. 광범위하고 다양한 상황에서 상호협력이 상호배반보다 ‘양쪽 모두에게’ 이득이 될 때가 더 많다. 좋은 성과를 올리는 비결은 상대방을 누르고 이기는 게 아니라 상대방에게서 협력을 유도하는 것이다.

 

 

[ 부록 A. 대회 결과 ]

1차 대회에서는 제출된 프로그램 14개에 랜덤을 합해 모두 15개가 시합을 벌였다. 각각의 대전 쌍은 2200번의 게임을 반복하는 전체게임을 다섯 번씩 치렀다. 각각의 대전 쌍은 200번의 게임을 반복하는 전체게임을 다섯 번씩 치렀다.

2차 대회의 대전 쌍은 다섯 번씩 전체게임을 치렀는데, 각 전체게임의 길이는 긴 것에서 짧은 것까지 다양했다. 평균 길이는 151개의 게임으로 이루어졌다. 경기자는 제출된 프로그램 62개와 랜덤이었다.

 

 

 

 

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함