เนื่องจาก slurm ที่ดูแลอยู่เกิดอาการค้างไม่สามารถใช้ sinfo/squeue และคำสั่งอื่นๆ ได้ บ้างครั้งก็จะมี error ขึ้นมาว่า
อ่านต่อ...
เนื่องจากทำการลง OS ใหม่ให้กับ compute node แล้วพยายามต่อกลับเข้า slurm controller ที่มีอยู่ ปรากฏว่าเกิดอาการค้างที่ Waiting for resource ทำให้จับต้นชนปลายไม่ถูก
อ่านต่อ...
เนื่องจากต้องทำการเข้าใช้งาน IPMI ซึ่งตัว IPMI นี้อยู่คนละวงแลนหากเป็น Linux / Mac ก็จะใช้วิธีการตั้ง proxy ของ OS แต่สำหรับ Windows การตั้ง Proxy ของ Windows นั้นค่อนข้างวุ่นวาย เลยจะมาเล่าวิธีที่ผมใช้
อ่านต่อ...
เรื่องเกิดจากเครื่อง frontend ที่รัน slurmctld โดนสั่ง restart แล้วปรากฏว่าสั่ง sinfo แล้วค้าง ตัว slurmctld ก็ไม่สามารถสามารถสั่ง start ได้ สรุปแล้ว เกิดจากเครื่องใช้ /var เป็น ramdisk ทำให้เมื่อสั่งรีเครื่องแล้วโฟลเดอร์ /var/run/slurm หายไป ดังนั้นวิธีการแก้คือสร้างโฟลเดอรร์นั้นขึ้นมาใหม่เพื่อตามคำสั่งด้านล่าง
อ่านต่อ...