गणित सहकार्याचे

सुव्रत आपटे

तुम्हाला रोजच्या आयुष्यातल्या घटनांचे गणित समजून घेणे रंजक वाटते का? लहान मुलांसोबत अशा चर्चा करायला आवडतात का? आपली मुले, पालक, आप्तेष्ट, रस्त्यावर शेजारी गाडी चालवणारा किंवा अगदी आपल्या समाजाकडूनही आपण बर्‍याचदा सहकार्याची अपेक्षा करतो. तर मग एकमेकां सहकार्य करणे माझ्या किती फायद्याचे, माझ्या समाजाच्या किती फायद्याचे; ह्याबद्दल काहीतरी ठोस, गणिती उलगडा करता येईल का? ह्या लेखाद्वारे, सहकार्य ह्या अगदी रोजच लागणार्‍या जीवनकौशल्याविषयीचे गणित सांगायचा प्रयत्न आहे. हा लेख व्हेरिटॅशियम (Veritasium) नावाच्या युट्यूब चॅनेलवरील ‘गेम थिअरी’ (Game Theory) ह्या विषयावरील अतिशय मनोरंजक व्हिडिओवर आधारित आहे.

लोक / गट / देश वेगवेगळ्या परिस्थितीत एकमेकांशी निरनिराळी धोरणे वापरून वागत असतात. गेम थिअरीमधील गेम / खेळ म्हणजे अशा परिस्थिती. ह्या खेळांचा, ते खेळताना वापरल्या जाणार्‍या धोरणांचा आणि त्यांच्या परिणामांचा गणिती सूत्रे वापरून केलेला अभ्यास म्हणजे गेम थिअरी. ह्यात माणसामाणसांमधले सहकार्य समजून घेण्यासाठी अनेक खेळांचा अभ्यास केला गेला आहे. त्यापैकी एक म्हणजे कैद्याची कोंडी (prisoner’s dilemma). हा खेळ म्हणजे दोन आरोपींवर बेतलेली एक काल्पनिक परिस्थिती – दोघांना दोन वेगळ्या खोल्यांमध्ये ठेवलेले आहे. ते एकमेकांशी संपर्क साधू शकत नाहीत. पोलीस चौकशी करत आहेत. त्यांना सांगितलेले आहे, की प्रत्येक आरोपी दुसर्‍याला सहकार्य (संगनमत) करायचे ठरवून गप्प राहू शकतो किंवा त्याच्याशी असहकार्य करून पोलिसांना झाला प्रकार सांगून टाकू शकतो. दोघांनी एकमेकांना सहकार्य करून गप्प राहणे निवडले तर प्रत्येकी 1 वर्षाची कैद होईल; पहिल्याने दुसर्‍याला सहकार्य केले पण दुसर्‍याने मात्र असहकार्य करत पोलिसांना सर्व सांगितले, तर पहिल्याला 3 वर्षे कैद आणि दुसरा सुटेल; दोघांनी एकमेकांना असहकार्य करत पोलिसांना सर्व सांगितले तर दोघांना 2 वर्षे कैद होईल. प्रत्येकजण कमीतकमी कैद होईल असे वागेल, हे गृहीतक आहे.

 पहिल्याचे सहकार्य पहिल्याचे असहकार्य
दुसऱ्याचे सहकार्यप्रत्येकी १ वर्ष कैदपहिला सुटला, दुसऱ्याला ३ वर्षे कैद
दुसऱ्याचे असहकार्यपहिल्याला ३ वर्षे कैद, दुसरा सुटलाप्रत्येकी २ वर्षे कैद

हा खेळच असा आहे, की दुसर्‍याने काहीही केले, तरी आपण दुसर्‍याला असहकार्य करून पोलिसांना सर्व सांगणे हेच धोरण आपल्यासाठी सर्वोत्तम (कमीतकमी कैद) आहे. त्यामुळे दोघांनी एकमेकांना सहकार्य केल्याने प्रत्येकी एकाच वर्षाची कैद असूनही दोघे एकमेकांना असहकार्य करत पोलिसांना सर्व सांगतात आणि 2 वर्षे कैद पत्करतात. इतरही अनेक वास्तविक परिस्थितींमध्ये, अनेक ठिकाणी आणि अनेक स्तरांवर हा खेळ लागू होतो – दोन कंपन्या, एका कंपनीतले दोन गट, एका गटामधील दोन सदस्य, दोन समाजगट, दोन परिवार, दोन माणसे…

आता हा खेळ आपण थोडा अधिक वास्तविक करून बघूया. वरील खेळात दोन माणसांना एकदाच ह्या परिस्थितीला सामोरे जावे लागणार आहे, असे गृहीतक आहे. पण हाच खेळ त्यांना पुनःपुन्हा खेळावा लागणार असेल, अनेक वर्षे अशा परिस्थितींना सामोरे जावे लागणार असेल, तर वेगळ्या प्रकारे खेळल्यास दोघांचा जास्त फायदा होईल का? अमेरिका आणि रशिया ह्यांच्यामध्ये झालेल्या शस्त्रस्पर्धेत सुरुवातीला अशीच स्थिती होती. समोरचा असहकार्य करणार आहे हे गृहीत धरून दोन्ही बाजूंनी अनेक हजार अण्वस्त्रे तयार केली गेली आणि जवळजवळ एक हजार कोटी डॉलर्स आणि अनेक वर्षांचा कालावधी वाया घालवला. मात्र शेवटी सहकार्य करून हळूहळू एकेक अण्वस्त्र निकामी केले तेव्हाच प्रश्न सुटला! ह्याच्या मागची गेम थिअरी आता समजून घेऊ.

आपल्या आयुष्यात आपण त्याच त्याच माणसांच्या पुनःपुन्हा संपर्कात येत असतो. मग असे समजूया, की ह्या जगात हा खेळ अनेक लोक / गट अनेको वेळेला एकमेकांशी खेळत असतात. कसा खेळतात? एखादा सतत दुसर्‍याला सहकार्य करतो, तर एखादा सतत असहकार्य. एखादा ‘जशास तसे’ वागतो, तर एखादा ठरवतो ‘तीन वेळेस माफ करेन पण चौथ्यांदा असहकार्य केल्यास मीही तसेच वागेन!’ व्यक्ती तितक्या प्रकृती! ह्या वेगवेगळ्या प्रकृतींना आपण ह्या खेळाची धोरणे समजूया. आता अशा प्रकारे वागणार्‍या माणसांनी बनलेल्या जगाचे चित्र कसे दिसते हे समजण्यासाठी हा खेळ ह्या वेगवेगळ्या धोरणांनुसार अनेक वेळा आणि अनेकांनी एकमेकांशी खेळून पाहिला पाहिजे!

रॉबर्ट अ‍ॅक्सेलरॉड नावाच्या एका राजकीय शास्त्रज्ञाने हा प्रयोग केला. त्यांनी एक स्पर्धा आयोजित केली. जगभरातून त्यांनी हा खेळ खेळणारे कॉम्प्युटर प्रोग्रॅम्स मागवले. फरक एवढाच केला की 0, 1, 2 किंवा 3 वर्षे कैदेऐवजी गुण दिले. अर्थातच, कमी कैद म्हणजे जास्त गुण. दोघांनी सहकार्य केल्यास प्रत्येकी 3 गुण, दोघांनी असहकार्य केल्यास प्रत्येकी 1 गुण, एकाने सहकार्य आणि दुसर्‍याने असहकार्य केल्यास सहकार्य करणार्‍यास 0 आणि असहकार्य करणार्‍यास 5 गुण. हे गुण कैद्याची कोंडी किंवा अमेरिका-रशिया शस्त्रस्पर्धा किंवा अशा इतर वास्तविक परिस्थिती दर्शविणारे आहेत. दुसर्‍याशी असहकार्य केल्यास माझा फायदा सर्वात जास्त, म्हणजे 5 गुण. प्रत्येकजण जास्तीत जास्त गुण मिळवण्यासाठी खेळणार, हे गृहीतक आहे.

 पहिल्याचे सहकार्य पहिल्याचे असहकार्य
दुसऱ्याचे सहकार्यप्रत्येकी ३ गुणपहिल्याला ५, दुसऱ्याला ० गुण
दुसऱ्याचे असहकार्यपहिल्याला ०, दुसऱ्याला ५ गुणप्रत्येकी १ गुण

एक प्रोग्रॅम म्हणजे एका विशिष्ट धोरणानुसार खेळणारा खेळाडूच समजा! अ‍ॅक्सेलरॉडनी सगळे प्रोग्रॅम्स त्यांच्या कॉम्प्युटरवर लोड करून एकमेकांसोबत खेळवले. प्रत्येक प्रोग्रॅम प्रत्येक इतर प्रोग्रॅमसोबत शेकडो फेर्‍या खेळला. शेवटी सगळ्या प्रोग्रॅम्सची यादी गुणवारीनुसार लावण्यात आली. यातील काही धोरणे बघूया. (तुम्हाला मुलांसोबत असे प्रोग्रॅमिंग करून पाहायला आवडते का? लेखकाने केलेले काही धोरणांचे प्रोग्रॅम्स येथे पाहू शकता 

https://github.com/suvratapte/game-theory/)

फ्रीडमनचे धोरण – सहकार्य करणे; पण जर समोरच्याने असहकार्य केले तर त्यापुढील सगळ्या फेर्‍यांमध्ये असहकार्य करणे. (कंसात लिहिलेले आकडे म्हणजे त्या फेरीतील गुण आहेत.)

 फेरी १फेरी २फेरी ३ फेरी ४फेरी ५एकूण
फ्रीडमनसह (३)सह (०)असह (५)असह (५)असह (५)१८
धोरण असह (३)असह (५)सह (०)सह (०)सह (०)

जॉसचे धोरण – पहिल्या फेरीला सहकार्य करणे आणि त्यानंतर समोरच्याने आधीच्या फेरीत खेळल्याप्रमाणे खेळणे, मात्र 10% वेळेला अचानक असहकार्य करणे.

 फेरी १फेरी २फेरी ३ फेरी ४फेरी ५ एकूण
जॉससह (३)सह (०)असह (५)सह (३)असह (५)१६
धोरण असह (३)असह (५)सह (०)सह (३)सह (०)११

ह्यावरून दिसते, की ‘धोरण अ’ सोबत खेळताना फ्रीडमनला जॉसपेक्षा जास्त गुण मिळाले. तसेच ‘धोरण अ’ला जॉससोबत खेळताना जास्त गुण मिळाले. इतर सर्वांसोबत अनेक फेर्‍या खेळून सर्वात जास्त गुण मिळवून स्पर्धा जिंकणारे धोरण ‘जशास तसे’ वागणारे होते. हे धोरण सहकार्याने सुरुवात करते; पण नंतर समोरचा जे करतो तेच करते.

फ्रीडमनसोबत जशास तसे खेळवून पाहू – 

धोरण फेरी १ फेरी १फेरी २फेरी ३ फेरी ४फेरी ५ एकूण
जशास तसेसह (३)सह (३)सह (३)सह (३)सह (३)१५
फ्रीडमनसह (३)सह (३)सह (३)सह (३)सह (३)१५

जॉससोबत जशास तसे खेळवून त्याचा असा तक्ता करून पाहा हवे तर किंवा तुमच्या डोक्यातल्या कुठल्या वेगळ्याच धोरणासोबतही खेळवून पाहा! पहिल्या गुणतक्त्यातील फ्रीडमन 18 गुण मिळवतो, इथे ‘जशास तसे’सोबत खेळून दोघांना 15 च गुण मिळतात. कायम असहकार्य करून जास्त गुण मिळतील असे वाटते खरे, पण प्रतिस्पर्ध्यालाही तसेच वाटणार आहे, त्यामुळे दोघांना 1-1 गुण मिळत जातील. याउलट सहकार्य करत 3-3 गुण मिळत जातील. त्यामुळे पुरेशा इतर धोरणांसोबत सहकार्य केल्याने ‘जशास तसे’ने एकूण गुण जास्त मिळवले.

एवढे सोपे धोरण स्पर्धा जिंकले ह्याचे आश्चर्य वाटून अ‍ॅक्सेलरॉडनी त्याचा अधिक अभ्यास केला. त्यांना समजले, की ह्या स्पर्धेमध्ये जास्त गुण मिळालेल्या धोरणांची खालील 3 वैशिष्ट्ये होती-

1. चांगुलपणा – कधीही स्वतःहून असहकार्य न करणे. (जॉस चांगुलपणाचे धोरण नाही.)

2. क्षमाशीलता – समोरच्याने पूर्वी असहकार्य केले असले तरी त्याने सहकार्य करायला सुरुवात केल्यावर लगेच आपणही सहकार्य करणे. (फ्रीडमन अजिबात क्षमाशील नाही.)

3. भाबडेपणा नको – समोरच्याने असहकार्य केले तरी आपण कायम सहकार्यच करत राहणे योग्य नाही.

हा निष्कर्ष बघून अ‍ॅक्सेलरॉड ह्यांनी अजून एक धोरण तपासून पाहिले. हे धोरण ‘जशास तसे’हून थोडे जास्त क्षमाशील होते – दुसर्‍याने सलग 2 फेर्‍या असहकार्य केले तरच आपण असहकार्य करायचे. ह्या धोरणाला स्पर्धेत उतरवले तर ते प्रथम क्रमांकावर आले!

त्यांनी पुढे आणखीन एक अभ्यास केला – ह्या स्पर्धेत जास्त गुण मिळवणार्‍या धोरणांची / खेळाडूंची संख्या वाढवली आणि मग पुन्हा स्पर्धा केली. असे पुनःपुन्हा केले. त्यातही ‘जशास तसे’ जिंकले (तपशिलासाठी व्हिडिओ बघा). मग त्यांनी अजून एक अभ्यास केला. कायम असहकार्य करणार्‍या अनेक खेळाडूंमध्ये अगदी थोडे ‘जशास तसे’ वागणारे खेळाडू असतील तर काय होते? तर हळूहळू ‘जशास तसें’ची संख्या वाढत जाते आणि शेवटी सगळ्या नेहमी असहकार्य करणार्‍यांचे ‘जशास तसे’मध्ये परिवर्तन होते. प्रत्येक जण स्वतःचे गुण जास्तीतजास्त होण्यासाठी हा खेळ खेळत आहे, हे लक्षात घ्या. आणि तरीही त्यातून सहकार्याचा उगम आणि प्रसार होतोय, आपोआप! काही पर्यावरणशास्त्रज्ञ सहकार्य करत जगणार्‍या मासे, काळवीट, मुंग्या ह्यांसारख्या प्रजाती निर्माण होण्याचे आणि टिकून राहण्याचे हेच कारण सांगतात.

 हा खेळ दररोजच्या जीवनात घ्यायला लागणार्‍या निर्णयांच्या परिणामांचे मोजमाप करण्याचा एक अतिसुलभ प्रयत्न असला, तरी त्यातून आपल्याला एक महत्त्वपूर्ण दृष्टी मिळते – चांगुलपणा, क्षमाशीलता हवी; भाबडेपणा नको!

सुव्रत आपटे

suvratapte@gmail.com

स्टॉकहोम (स्वीडन) येथे संगणक अभियंता.