当前位置: 首页 > news >正文

负载均衡与实时调度—LSF

文章目录

  • 一、什么是LSF
  • 二、常用LSF作业命令
    • 2.1、提交作业-bsub
    • 2.2、查询作业-bjobs
    • 2.3、杀死作业-bkill
    • 2.4、查询队列-bqueues

一、什么是LSF

  LSF(Load Sharing Facility),负载均衡设施,是一款分布式系统资源管理工具,LSF通过需求收集、分析负载、实时调度使用户充分共享服务器阵列的CPU、内存、磁盘、license等资源,进而提高资源利用率,加速项目进度。LSF的运用可以有效避免大量作业仅占用少数服务器资源的情况,避免线程拥堵,减少资源浪费。
  一组安装了LSF软件的计算机组成了一个主机群组cluster。如下左图(1)所示的Compute Hosts即为Cluster,它作为一个整体,通过调度系统(主机节点)统一分配资源,统一监控,做到负载均衡。

在这里插入图片描述

  在LSF系统中通过bsub提交的任务单元,任务提交后可以通过bjobs查看其状态。如上右图(2)展示了一个job的完整生命周期:

(1) 提交作业(Submit a job):在客户机上通过bsub命令提交job到queue上,如果没有通过-q选项指定queue,那么就提交到默认的queue上,然后在Queue中处于PEND状态,等待分配机器资源。LSF会自动分配给每个任务一个job ID和name,也可以通过-J选项指定job name。

(2) 计划作业(Schedule job):Master Host每隔一段时间来收集信息,根据任务优先级,调度策略和现有机器资源决定任务的先后执行顺序

(3) 调度作业(Dispatch job):一旦Master Host发现有空余的机器资源,就会把排队中的任务按顺序分配给Compute Host执行

(4) 执行作业(Run job):Compute Host开始执行任务,它会接受Master Host发送来的请求,然后把Submission Host中的执行环境复制到Compute Host,最后才开始正式执行任务,Job的状态会变成RUN。所需复

相关文章:

  • 解决Mac 安装 PyICU 依赖失败
  • Centos9 安装 nginx 及配置
  • 【React】搜索时高亮被搜索选中的文案
  • 算法工程师面试题与参考答案资料(2025年版)
  • C++算法(10):二叉树的高度与深度,(C++代码实战)
  • Java 泛型使用教程
  • Netty前置基础知识之BIO、NIO以及AIO理论详细解析和实战案例
  • 使用PyTorch实现图像增广与模型训练实战
  • RESTful学习笔记(二)---简单网页前后端springboot项目搭建
  • uni-app 状态管理深度解析:Vuex 与全局方案实战指南
  • 【C++软件实战问题排查经验分享】UI界面卡顿 | CPU占用高 | GDI对象泄漏 | 线程堵塞 系列问题排查总结
  • 如何维护技术文档的持续更新?
  • 【Unity笔记】Unity音视频播放监听器封装笔记:VideoPlayer + AudioSource事件触发与编辑器扩展
  • 微软Entra新安全功能引发大规模账户锁定事件
  • GeoAI技术内涵与城市计算
  • 目标检测:视觉系统中的CNN-Transformer融合网络
  • 从代码学习深度学习 - 学习率调度器 PyTorch 版
  • Vue-组件的懒加载,按需加载
  • PyCharm 初级教程:从安装到第一个 Python 项目
  • git远程分支重命名(纯代码操作)
  • 私和人命:清代四川南部县谢相荣投河溺毙一案
  • 中印尼举行外长防长“2+2”对话机制首次部长级会议
  • 外交部:中企在中韩暂定水域建立渔业养殖设施不违反中韩有关协定
  • 《大家聊中国式现代化》明天全网推出
  • 李家超将率团访问浙江
  • 华夏幸福:累计未能如期偿还债务金额合计为227.91亿元