วิธี reservation (จอง) slurm node เพื่อแก้ไข hardware
ก่อนอื่นเราจะทำการ drain node เพื่อไล่งานที่อยู่ใน node ออกไปก่อน
ก่อนอื่นเราจะทำการ drain node เพื่อไล่งานที่อยู่ใน node ออกไปก่อน
เรื่องเกิดจากเครื่อง frontend ที่รัน slurmctld โดนสั่ง restart แล้วปรากฏว่าสั่ง sinfo แล้วค้าง ตัว slurmctld ก็ไม่สามารถสามารถสั่ง start ได้ สรุปแล้ว เกิดจากเครื่องใช้ /var เป็น ramdisk ทำให้เมื่อสั่งรีเครื่องแล้วโฟลเดอร์ /var/run/slurm หายไป ดังนั้นวิธีการแก้คือสร้างโฟลเดอรร์นั้นขึ้นมาใหม่เพื่อตามคำสั่งด้านล่าง
จากแต่ก่อนใช้คีบอร์ด 108 ปุ่ม ปัจจุบันเหลือ 66 ปุ่มโดยการใช้ alice layout มาได้ 3-4 ปีแล้ว ตอนนี้อยากจะลองลดลงอีกเหลือ 42 ปุ่มดู โดยตัวที่เลือกมาคือ Corne keyboard ซึ่งต้องปรับตัวกับ layout ใหม่ แต่จะใช้ layout แบบไหนดีล่ะ
จากโพสที่แล้ว เราสอนวิธีการเปิดใช้งานโดยการแก้ /etc/modules-load.d/ipoib.conf พบว่าเมื่ออัปเดตเป็น TrueNAS ล่าสุด (25.10) แล้ว Config มันหาย เมื่อทำใหม่แล้ว Interface มันไม่อัปเองทุกครั้ง ดังนั้นเราจะไปแก้ใน UI แทนเพื่อจะได้ไม่เจอปัญหาตอนอัปเดต
แชร์ประสบการณ์บรรลัยการช่าง HA Proxy ล่ม ท้าวความก่อนว่าระบบ slurm ที่ใช้อยู่ตอนนี้ มีเครื่อง frontend สำหรับให้ user แก้โค้ดและส่ง job ด้วยกัน 3 เครื่อง โดยจะใช้ HA Proxy เป็นคนกระจายงานเพื่อลดโหลด ซึ่งเป็นระบบที่เซ็ทไว้นานแล้ว ไม่เคยต้องมายุ่งหรือมาดูแลระบบตรงส่วนนี้มาก่อน