Slurm - Socket timed out แก้ได้โดยการลบ StateSaveLocation
เนื่องจาก slurm ที่ดูแลอยู่เกิดอาการค้างไม่สามารถใช้ sinfo/squeue และคำสั่งอื่นๆ ได้ บ้างครั้งก็จะมี error ขึ้นมาว่า
เนื่องจาก slurm ที่ดูแลอยู่เกิดอาการค้างไม่สามารถใช้ sinfo/squeue และคำสั่งอื่นๆ ได้ บ้างครั้งก็จะมี error ขึ้นมาว่า
เนื่องจากทำการลง OS ใหม่ให้กับ compute node แล้วพยายามต่อกลับเข้า slurm controller ที่มีอยู่ ปรากฏว่าเกิดอาการค้างที่ Waiting for resource ทำให้จับต้นชนปลายไม่ถูก
เนื่องจากต้องทำการเข้าใช้งาน IPMI ซึ่งตัว IPMI นี้อยู่คนละวงแลนหากเป็น Linux / Mac ก็จะใช้วิธีการตั้ง proxy ของ OS แต่สำหรับ Windows การตั้ง Proxy ของ Windows นั้นค่อนข้างวุ่นวาย เลยจะมาเล่าวิธีที่ผมใช้
ก่อนอื่นเราจะทำการ drain node เพื่อไล่งานที่อยู่ใน node ออกไปก่อน
เรื่องเกิดจากเครื่อง frontend ที่รัน slurmctld โดนสั่ง restart แล้วปรากฏว่าสั่ง sinfo แล้วค้าง ตัว slurmctld ก็ไม่สามารถสามารถสั่ง start ได้ สรุปแล้ว เกิดจากเครื่องใช้ /var เป็น ramdisk ทำให้เมื่อสั่งรีเครื่องแล้วโฟลเดอร์ /var/run/slurm หายไป ดังนั้นวิธีการแก้คือสร้างโฟลเดอรร์นั้นขึ้นมาใหม่เพื่อตามคำสั่งด้านล่าง