เกมสุ่ม
ในทฤษฎีเกมเป็นเกมสุ่มนำโดยลอยด์แชปลีย์ในช่วงต้นทศวรรษ 1950 [1]เป็นเกมซ้ำกับการเปลี่ยนน่าจะเล่นโดยผู้เล่นหนึ่งหรือมากกว่า เกมนี้เล่นเป็นลำดับขั้นตอน ในช่วงเริ่มต้นของแต่ละด่าน เกมจะอยู่ในสถานะใดสถานะหนึ่ง ผู้เล่นเลือกการกระทำและผู้เล่นแต่ละคนจะได้รับผลตอบแทนที่ขึ้นอยู่กับสถานะปัจจุบันและการกระทำที่เลือก จากนั้นเกมจะย้ายไปยังสถานะสุ่มใหม่ซึ่งการกระจายขึ้นอยู่กับสถานะก่อนหน้าและการกระทำที่ผู้เล่นเลือก ขั้นตอนจะทำซ้ำในสถานะใหม่และการเล่นจะดำเนินต่อไปเป็นจำนวนจำกัดหรือไม่มีสิ้นสุดของขั้นตอน การจ่ายเงินทั้งหมดให้กับผู้เล่นมักจะนำมาเป็นผลรวมส่วนลดของการจ่ายเงินบนเวทีหรือขีดจำกัดที่ต่ำกว่าค่าเฉลี่ยของการจ่ายเงินบนเวที
เกม Stochastic ทำให้กระบวนการตัดสินใจของ Markov เป็นภาพรวมแก่ผู้มีอำนาจตัดสินใจที่มีปฏิสัมพันธ์กันหลายคน เช่นเดียวกับเกมในรูปแบบกลยุทธ์ไปจนถึงสถานการณ์ที่เปลี่ยนแปลงตลอดเวลา ซึ่งสภาพแวดล้อมเปลี่ยนแปลงไปตามทางเลือกของผู้เล่น [2]
เกมเล่นสองคน
เกมผู้เล่นสองคนแบบสุ่มบนกราฟกำกับมีการใช้กันอย่างแพร่หลายสำหรับการสร้างแบบจำลองและการวิเคราะห์ของระบบที่ไม่ต่อเนื่องที่ทำงานในสภาพแวดล้อมที่ไม่รู้จัก (ฝ่ายตรงข้าม) การกำหนดค่าที่เป็นไปได้ของระบบและสภาพแวดล้อมจะแสดงเป็นจุดยอด และการเปลี่ยนแปลงสอดคล้องกับการกระทำของระบบ สภาพแวดล้อม หรือ "ธรรมชาติ" การทำงานของระบบจะสอดคล้องกับเส้นทางที่ไม่สิ้นสุดในกราฟ ดังนั้น ระบบและสภาพแวดล้อมจึงถูกมองว่าเป็นผู้เล่นสองคนที่มีวัตถุประสงค์ที่เป็นปฏิปักษ์กัน โดยที่ผู้เล่นหนึ่งคน (ระบบ) มุ่งเป้าไปที่การเพิ่มโอกาสในการวิ่งที่ "ดี" สูงสุด ในขณะที่ผู้เล่นอีกคนหนึ่ง (สิ่งแวดล้อม) มุ่งเป้าไปในทางตรงกันข้าม
ในหลายกรณี มีค่าสมดุลของความน่าจะเป็นนี้ แต่กลยุทธ์ที่เหมาะสมที่สุดสำหรับผู้เล่นทั้งสองอาจไม่มีอยู่จริง
เราแนะนำแนวคิดพื้นฐานและคำถามเกี่ยวกับอัลกอริทึมที่ศึกษาในพื้นที่นี้ และเรากล่าวถึงปัญหาเปิดที่มีมายาวนาน จากนั้น เราพูดถึงผลลัพธ์ล่าสุดที่เลือก
ทฤษฎี
ส่วนผสมของเกมสุ่มคือ: ชุดผู้เล่นที่จำกัด ; พื้นที่ของรัฐ(จะเป็นเซตจำกัดหรือช่องว่างที่วัดได้ ); สำหรับผู้เล่นแต่ละคน, ชุดปฏิบัติการ (จะเป็นเซตจำกัดหรือช่องว่างที่วัดได้ ); ความน่าจะเป็นของการเปลี่ยนแปลง จาก ที่ไหน เป็นโปรไฟล์การดำเนินการเพื่อ ที่ไหน คือความน่าจะเป็นที่สถานะถัดไปอยู่ใน ด้วยสภาพปัจจุบัน และโปรไฟล์การดำเนินการปัจจุบัน ; และฟังก์ชั่นการจ่ายเงิน จาก ถึง , ที่ไหน - พิกัดที่ , , คือผลตอบแทนแก่ผู้เล่น เป็นหน้าที่ของรัฐ และโปรไฟล์การดำเนินการ .
เกมเริ่มต้นที่สถานะเริ่มต้นบางอย่าง . บนเวที, ผู้เล่นก่อนสังเกต จากนั้นเลือกการกระทำพร้อมกัน จากนั้นสังเกตโปรไฟล์การดำเนินการ แล้วธรรมชาติก็เลือก ตามความน่าจะเป็น . การเล่นเกมสุ่มกำหนดกระแสผลตอบแทน pay ที่ไหน .
เกมลดราคา พร้อมส่วนลดค่าส่วนกลาง () เป็นเกมที่ให้ผลตอบแทนแก่ผู้เล่น คือ . -เกมเวทีเป็นเกมที่ให้ผลตอบแทนแก่ผู้เล่น คือ .
มูลค่า ตามลำดับ , ของเกมสุ่มแบบผลรวมศูนย์สำหรับสองคน ตามลำดับ ด้วยสถานะและการกระทำที่มีอยู่มากมาย และTruman BewleyและElon Kohlberg (1976) ได้พิสูจน์ว่า มาบรรจบกันถึงขีด จำกัด as ไปที่อนันต์และนั่น มาบรรจบกันที่ขีด จำกัด เดียวกับ ไปที่ .
เกม "ไม่ลดราคา" เป็นเกมที่ให้ผลตอบแทนแก่ผู้เล่น คือ "ขีดจำกัด" ของค่าเฉลี่ยของผลตอบแทนขั้น จำเป็นต้องมีข้อควรระวังบางประการในการกำหนดค่าของผลรวมศูนย์สองคน และในการกำหนดผลตอบแทนดุลยภาพของผลรวมที่ไม่เป็นศูนย์ze . ค่าสม่ำเสมอ ของเกมสโตแคสติกผลรวมศูนย์สำหรับสองคน มีอยู่ถ้าสำหรับทุกๆ มีจำนวนเต็มบวก และคู่กลยุทธ์ ของผู้เล่นที่ 1 และ ของผู้เล่นที่ 2 ว่าสำหรับทุกๆ และ และทุกๆ ความคาดหวังของ เกี่ยวกับความน่าจะเป็นในการเล่นที่กำหนดโดย และ อย่างน้อยก็ และความคาดหวังของ เกี่ยวกับความน่าจะเป็นในการเล่นที่กำหนดโดย และ มากที่สุด . Jean-François MertensและAbraham Neyman (1981) พิสูจน์ให้เห็นว่าทุกเกมการสุ่มแบบ zero-sum stochastic สำหรับสองคนที่มีสถานะและการกระทำมากมายนั้นมีค่าเท่ากัน [3]
หากมีผู้เล่นจำนวนจำกัดและชุดการดำเนินการและชุดของสถานะมีขอบเขต เกมสุ่มที่มีจำนวนขั้นตอนจำกัดจะมีสมดุลของแนชเสมอ เช่นเดียวกับเกมที่มีขั้นตอนมากมายอย่างไม่สิ้นสุด หากผลตอบแทนรวมเป็นผลรวมส่วนลด
เกมสุ่มที่ไม่เป็นศูนย์ non มีผลตอบแทนสมดุลสม่ำเสมอ ถ้าสำหรับทุกๆ มีจำนวนเต็มบวก และโปรไฟล์กลยุทธ์ เพื่อให้ผู้เล่นทุกคนเบี่ยงเบนไปฝ่ายเดียว , กล่าวคือ โปรไฟล์กลยุทธ์ กับ สำหรับทุกอย่าง , และทุกๆ ความคาดหวังของ เกี่ยวกับความน่าจะเป็นในการเล่นที่กำหนดโดย อย่างน้อยก็ และความคาดหวังของ เกี่ยวกับความน่าจะเป็นในการเล่นที่กำหนดโดย มากที่สุด . Nicolas Vieilleได้แสดงให้เห็นว่าเกมสุ่มสองคนทั้งหมดที่มีสถานะ จำกัด และพื้นที่แอ็คชั่นมีผลตอบแทนสมดุลที่สม่ำเสมอ [4]
เกมสุ่มที่ไม่เป็นศูนย์ non มีผลตอบแทนดุลยภาพเฉลี่ยจำกัด ถ้าสำหรับทุกๆ มีโปรไฟล์กลยุทธ์ เพื่อให้ผู้เล่นทุกคนเบี่ยงเบนไปฝ่ายเดียว ความคาดหวังของขีด จำกัด ที่ต่ำกว่าค่าเฉลี่ยของการจ่ายเงินระยะที่เกี่ยวกับความน่าจะเป็นในการเล่นที่กำหนดโดย อย่างน้อยก็ และความคาดหวังของขีด จำกัด ที่เหนือกว่าค่าเฉลี่ยของการจ่ายเงินบนเวทีที่เกี่ยวกับความน่าจะเป็นในการเล่นที่กำหนดโดย มากที่สุด . Jean-François MertensและAbraham Neyman (1981) พิสูจน์ให้เห็นว่าเกมสุ่มสโตคาสติกแบบซีโร่ซัมสองคนทุกเกมที่มีสถานะและการกระทำมากมายมีค่าเฉลี่ยที่จำกัด[3]และNicolas Vieilleได้แสดงให้เห็นว่าเกมสุ่มสองคนทั้งหมดที่มี สถานะจำกัดและพื้นที่ดำเนินการมีผลตอบแทนสมดุลที่จำกัดโดยเฉลี่ย [4]โดยเฉพาะอย่างยิ่ง ผลลัพธ์เหล่านี้บอกเป็นนัยว่าเกมเหล่านี้มีมูลค่าและผลตอบแทนดุลยภาพโดยประมาณ เรียกว่า liminf-average โดยเฉลี่ย (ตามลำดับคือ limsup-average) ผลตอบแทนดุลยภาพ เมื่อผลตอบแทนรวมเป็นขีดจำกัดที่ต่ำกว่า (หรือขีดจำกัดที่เหนือกว่า ) ของค่าเฉลี่ยของผลตอบแทนบนเวที
ไม่ว่าเกมสุ่มทุกเกมที่มีผู้เล่น สถานะ และการกระทำจำนวนมากอย่างจำกัด มีผลตอบแทนสมดุลที่สม่ำเสมอ หรือผลตอบแทนดุลยภาพเฉลี่ยที่จำกัด หรือแม้แต่ผลตอบแทนดุลยภาพเฉลี่ยต่ำสุดเป็นคำถามเปิดที่ท้าทาย
มาร์คอฟสมดุลที่สมบูรณ์แบบคือการปรับแต่งของแนวคิดของย่อยเกมที่สมบูรณ์แบบสมดุลของแนชกับเกมสุ่ม
เกม Stochastic ถูกรวมเข้ากับเกม Bayesianเพื่อจำลองความไม่แน่นอนเหนือกลยุทธ์ของผู้เล่น [5]ส่งผลให้ "สุ่มเกมเบส์" รูปแบบการแก้ไขผ่านการรวมกันเรียกซ้ำของสมการสมดุลคชกรรมแนชและสม optimality ยาม
แอปพลิเคชั่น
เกม Stochastic มีการใช้งานในทางเศรษฐศาสตร์ , ชีววิทยาวิวัฒนาการและเครือข่ายคอมพิวเตอร์ [6] [7]เป็นภาพรวมของเกมซ้ำ ๆซึ่งสอดคล้องกับกรณีพิเศษที่มีเพียงสถานะเดียวเท่านั้น
ดูสิ่งนี้ด้วย
หมายเหตุ
- ^ แชปลีย์ LS (1953) "เกมสุ่ม" . พนัส . 39 (10): 1095–1100. Bibcode : 1953PNAS...39.1095S . ดอย : 10.1073/pnas.39.10.1095 . พีเอ็ม ซี 1063912 . PMID 16589380 .
- ^ โซลัน, เอลอน; วิเอลล์, นิโคลัส (2015). "เกมสุ่ม" . พนัส . 112 (45): 13743–13746. ดอย : 10.1073/pnas.1513508112 . พีเอ็ม ซี 4653174 . PMID 26556883 .
- ^ ข Mertens, JF & Neyman, A. (1981) "เกมสุ่ม". วารสารนานาชาติของทฤษฎีเกม . 10 (2): 53–66. ดอย : 10.1007/BF01769259 . S2CID 189830419 .
- ^ ข Vieille, N. (2002). "เกมสุ่ม: ผลล่าสุด". คู่มือทฤษฎีเกม . อัมสเตอร์ดัม: วิทยาศาสตร์เอลส์เวียร์. น. 1833–1850. ISBN 0-444-88098-4.
- ^ อัลเบรชท์, สเตฟาโน; แครนดัล เจคอบ; Ramamoorthy, Subramanian (2016). "ความเชื่อและความจริงในพฤติกรรมสมมุติฐาน". ปัญญาประดิษฐ์ . 235 : 63–94. arXiv : 1507.07688 . ดอย : 10.1016/j.artint.2016.02.04 .
- ^ เกม Stochastic ที่มีข้อจำกัดในเครือข่ายไร้สายโดย E.Altman, K.Avratchenkov, N.Bonneau, M.Debbah, R.El-Azouzi, DSMenasche
- ^ Djehiche, บูอาเล็ม; ชอคัม, อแลง; Tembine, Hamidou (2017-09-27). "เกมประเภท Mean-Field-Type ในวิศวกรรม". AIMS วิศวกรรมอิเล็กทรอนิกส์และไฟฟ้า 1 : 18–73. arXiv : 1605.03281 . ดอย : 10.3934/ElectrEng.2017.1.18 . S2CID 16055840 .
อ่านเพิ่มเติม
- Filar, J. & Vrieze, K. (1997). กระบวนการตัดสินใจของ Markov ที่แข่งขันได้ สปริงเกอร์-แวร์แล็ก. ISBN 0-387-94805-8.
- Neyman, A. & Sorin, S. (2003). เกมสุ่มและแอพพลิเคชั่น . Dordrecht: Kluwer Academic Press. ISBN 1-4020-1492-9.
- โยอัฟ โชฮัม; เควิน เลย์ตัน-บราวน์ (2009) ระบบ Multiagent: อัลกอริทึมเกมทฤษฎีและรากฐานตรรกะ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. หน้า 153 –156. ISBN 978-0-521-89943-7. (เหมาะสำหรับ ป.ตรี วิชาเอก ไม่มีหลักฐาน)
ลิงค์ภายนอก
- บรรยายเรื่อง Stochastic Two-Player Games โดย Antonin Kucera