วันพุธที่ 20 มิถุนายน พ.ศ. 2561

Visa เผย Data Center ล่มเพราะ Switch ทำงานผิดปกติ และ Failover ไม่สำเร็จ

เมื่อต้นเดือนมิถุนายน 2018 ที่ผ่านมานี้มีเหตุการณ์ Data Center ของ Visa มีปัญหาไปประมาณ 10 ชั่วโมง จนทำให้ธุรกรรมเกือบ 5 ล้านรายการหรือประมาณ 10% ในยุโรปล้มเหลวไป ซึ่งทาง Visa ก็ออกมาแถลงว่าต้นเหตุของกรณีเกิดจากปัญหาที่อุปกรณ์ Switch ภายใน Data Center นั่นเอง


Visa ระบุว่า Data Center ของ Visa ในยุโรปนั้นมีด้วยกัน 2 แห่ง และทั้ง 2 แห่งนี้จะทำงานร่วมกันแบบ Active-Active โดยหากแห่งหนึ่งหยุดทำงานไป อีกแห่งหนึ่งก็ทำงานทดแทนได้อย่างสมบูรณ์และรองรับธุรกรรมทั้งหมดได้ด้วยตนเอง แต่ในกรณีนี้อุปกรณ์ Switch นั้นเกิดปัญหาในเคสที่เป็นไปได้ยาก หรืออุปกรณ์มีปัญหาแค่บางส่วนเท่านั้น ทำให้ Switch สำรองไม่ทำ Failover ขึ้นมาทำงานแทน และทำให้การรับส่งข้อมูลระหว่าง Data Center 2 แห่งมีปัญหาเป็นบางส่วน

ทาง Visa ต้องทำการปิดอุปกรณ์ Switch ชุดที่มีปัญหาทิ้งเพื่อแก้ไขปัญหาระบบเครือข่ายก่อน จากนั้นจึงพบว่ายังมีปัญหาข้อมูลธุรกรรมคงค้างและข้อมูลไม่เท่ากันใน Data Center ทั้ง 2 ระบบ จึงต้องทำการตัดระบบเครือข่ายของ Data Center หลักทิ้ง, ปิดระบบทั้งหมดใน Data Center หลักเพื่อไม่ให้การ Synchronize ข้อมูลสร้างปัญหาเพิ่มเติมให้กับ Data Center รอง จากนั้นจึงไปจัดการกับ Message Backlog ทั้งหมดที่ Data Center รองให้เรียบร้อย

กระบวนการทั้งหมดนี้ใช้เวลาประมาณ 10 ชั่วโมงก่อนที่ธุรกรรมต่างๆ ของ Visa จะกลับมาทำงานได้เป็นปกติ โดยปัจจุบันทาง Visa ได้ให้ทาง EY เข้าไปทำการตรวจสอบเหตุการณ์นี้เพิ่มเติม และทาง Visa ก็กำลังเยียวยาให้กับผู้ที่ได้รับความเสียหายจากเหตุการณ์ครั้งนี้อยู่

ก็ถือเป็นกรณีศึกษาสำหรับผู้ที่ดูแลระบบ Data Center ว่าการออกแบบระบบให้ทำงานทดแทนกันได้นั้นก็อาจยังวางใจไม่ได้ และทักษะด้านการตรวจสอบแก้ไขปัญหาให้ได้อย่างรวดเร็วนั้นก็ยังคงเป็นสิ่งสำคัญอยู่ดี

ที่มา: TechTalk

ไม่มีความคิดเห็น:

แสดงความคิดเห็น