แชร์ประสบการณ์บรรลัยการช่าง HA Proxy ล่ม ท้าวความก่อนว่าระบบ slurm ที่ใช้อยู่ตอนนี้ มีเครื่อง frontend สำหรับให้ user แก้โค้ดและส่ง job ด้วยกัน 3 เครื่อง โดยจะใช้ HA Proxy เป็นคนกระจายงานเพื่อลดโหลด ซึ่งเป็นระบบที่เซ็ทไว้นานแล้ว ไม่เคยต้องมายุ่งหรือมาดูแลระบบตรงส่วนนี้มาก่อน

แต่ปัญหามันก็เกิดขึ้นเมื่อมีคนทักมาตอน 20.30 ว่า SSH เข้าเครื่อง 209 เข้าไม่ได้ โดย frontend ทั้ง 3 เครื่องจะใช้ ip เป็น 210/211/212 ส่วน 209 นั่นคือ IP ของ HAProxy ที่จะใช้ ทั้ง 3 เครื่องสามารถ SSH เข้าได้โดยตรง แต่ 209 ไม่สามารถ SSH เข้าได้ กว่าจะหากันเจอว่าเป็นที่ haproxy ก็กินเวลาไปเกือบ 22.30 เพราะตอนนั้นยังไม่รู้เลยด้วยซ้ำว่าเวลา login ผ่าน ssh มันต้องวิ่งผ่าน service ของ haproxy ก่อน

โดยในทั้ง 3 เครื่องปรากฏว่า 210 ยังมี service ของ haproxy รันอยู่ แต่ 211/212 ไม่มี HAProxy รันอยู่ จึงทำการสั่ง systemctl start haproxy บนทั้งสองเครื่อง มันก็กลับมาได้ไปสักพัก แต่พอใช้ๆ ไป haproxy ก็ระเบิดอีก

หลังจากพยายาม เปลี่วิธีไปเรื่อยมา 2 วัน นี่คือวิธ๊ล่าสุดที่ใช้แล้วยังไม่พัง คือต้องไม่ start haproxy แต่ให้ตัว pacemaker เป็นคนจัดการ

ทั้งสามเครื่องรันคำสั่งดังนี้ (หมายเหตุ เข้าใจว่า frontendVIP-public เป็นชื่อที่ทีมงานรุ่นก่อนตั้งไว้)

ip addr del 10.204.100.209/24 dev em1
pcs resource cleanup frontendVIP-public
pcs resource cleanup haproxy

หลังจากนั้นที่เครื่องใดเครื่องหนึ่ง (ในที่นี้เลือกเป็นเครื่อง 212) เปิดใช้งาน pacemaker ด้วยคำสั่ง

pcs resource enable frontendVIP-public 
pcs resource enable HAproxyGroup

ตอนนี้ผ่านมาได้ 12 ชั่วโมงแล้ว เดาว่าน่าจะหายขาดแล้ว ถ้าไม่หาย คงได้เจอโพสอัปเดตต่อ

คัดลอกไปยังคลิปบอร์ดแล้ว