เนื่องจาก slurm ที่ดูแลอยู่เกิดอาการค้างไม่สามารถใช้ sinfo/squeue และคำสั่งอื่นๆ ได้ บ้างครั้งก็จะมี error ขึ้นมาว่า อ่านต่อ...
เนื่องจากทำการลง OS ใหม่ให้กับ compute node แล้วพยายามต่อกลับเข้า slurm controller ที่มีอยู่ ปรากฏว่าเกิดอาการค้างที่ Waiting for resource ทำให้จับต้นชนปลายไม่ถูก อ่านต่อ...
เนื่องจากต้องทำการเข้าใช้งาน IPMI ซึ่งตัว IPMI นี้อยู่คนละวงแลนหากเป็น Linux / Mac ก็จะใช้วิธีการตั้ง proxy ของ OS แต่สำหรับ Windows การตั้ง Proxy ของ Windows นั้นค่อนข้างวุ่นวาย เลยจะมาเล่าวิธีที่ผมใช้ อ่านต่อ...
ก่อนอื่นเราจะทำการ drain node เพื่อไล่งานที่อยู่ใน node ออกไปก่อน อ่านต่อ...
เรื่องเกิดจากเครื่อง frontend ที่รัน slurmctld โดนสั่ง restart แล้วปรากฏว่าสั่ง sinfo แล้วค้าง ตัว slurmctld ก็ไม่สามารถสามารถสั่ง start ได้ สรุปแล้ว เกิดจากเครื่องใช้ /var เป็น ramdisk ทำให้เมื่อสั่งรีเครื่องแล้วโฟลเดอร์ /var/run/slurm หายไป ดังนั้นวิธีการแก้คือสร้างโฟลเดอรร์นั้นขึ้นมาใหม่เพื่อตามคำสั่งด้านล่าง อ่านต่อ...
คัดลอกไปยังคลิปบอร์ดแล้ว