谁是浩特?请参考下图
近年来的深度强化学习(RL)研究,往往依赖人工设计的启发式规则。例如利用DQN进行铲车调度、基于Double DQN的实时卡车调度、低碳车队的DRL方法以及课程引导的策略。相比之下,我们将Lane的理论模型重新表述为一个强化学习任务,训练一个无需任何采矿先验知识的智能体,仅通过交互学习提取策略。该整体方法不仅能解决经典的采矿问题,还能推广至其他资源优化领域。我们的目标不仅是解决问题,而是教会机器自己去解决问题。
莱恩理论构建数学模型反映了矿山的地质和运营约束,如加工能力等。同时,训练一个强化学习代理并和这个模拟环境进行交互。我们的目标是实现矿山在一段时间内的盈利能力最大化。在每一步中,代理观察状态(矿石品位和可用量),选择行动(开采多少吨矿石),并获得奖励(该奖励体现了对净现值的影响)。
通过这种方式,我们无需一次性解决复杂的积分问题,而是训练代理通过反复试错来逐步学习最优开采策略。主要步骤包括:
💡用 Lane理论 搭建一个虚拟矿山世界,包含矿石、储量、加工能力等约束;
💡放进一个强化学习智能体,让它在这个世界里“自由挖矿”;
💡它会尝试各种开采方式,得到奖励或惩罚(对NPV的影响),逐渐学会最优策略。
为了便于理解,我们将简要解释各项研究发现。1988 年,莱恩证明了图 1 所示的方程,通过求解 0 到 R 范围内的定积分,可以估算最大经济价值。我们可以把它理解为:与其一次性解一个复杂的积分方程,我们选择让智能体像人一样在尝试与错误中逐渐进步。
图1 缩略语
结果显示净现值持续增长,表明智能代理正逐步接近最大值。强化学习代理会根据矿石品位和产能调整开采和加工方案,且仅从环境中学习。它所找到的最优解和其他可行解都对工程分析具有参考价值。
矿业数字化 2025 第十二届国际矿业自动化、机器人与数字化大会 累计现金流散点图 1.70 145 11 1.55 300 1.50 27.5 39 现金流分析 净现值分布 - 1000 次模拟 现金流(百万美元) 11 亿美元 10.6 亿美元 10.6 亿美元 10.2 亿美元 10 亿美元
智能体不仅能找到最优解,还能生成一系列“可行解”,为工程师提供更多参考;
它学会根据矿石品位、加工能力灵活调整策略;
净现值持续上升,说明它真的在接近最大化目标。
举个例子:
如果市场突然暴跌,传统规划可能完全失效,需要人工重算。而智能体会像老司机一样,迅速调整方向,选择“先采高品位矿,暂缓低品位矿”,让整体收益保持稳定。
通过把强化学习与Lane理论结合,我们打造了一个能够适应环境、市场甚至政策变化的矿山规划智能体。它是世界上第一个无需采矿经验、完全靠强化学习来解决战略矿山规划问题的AI智能体。这不仅是一个科研突破,更是矿业未来的缩影。
智能化:AI能实时学习和调整,替代传统的僵化计划。
绿色低碳:它可以主动优化车队调度,减少能源浪费。
全球应用:从铜矿到铁矿,从南美到亚洲,任何资源优化问题都能借鉴。
未来的矿山,不再是“铁与火的世界”,而是一个 智能调度、绿色高效的数字化矿山。
📌 延伸阅读推荐
MANUFACTURE
Sutton & Barto《Reinforcement Learning: An Introduction》
Lane(1988)矿山经济价值模型
AI 在能源调度与交通优化中的应用案例
素材收集及整理:
国际市场营销
实习生
四川外国语大学成都学院 翻译专业(在读)
专业方向:英语,二外选修德语
在校期间曾获阅读竞赛一等奖,词汇竞赛三等奖,优秀学生干部,优秀志愿者等。目前已获取英语专业四级证书,国际英语人才初级证书。多次参与市级志愿者活动,如成都市2023世界科幻大会,成都市国际工业博览会等。
HOT智能X射线分选机,是集X光、传感技术、电、气、磁于一体的高科技矿石分选设备,具有精准快速识别不同密度矿石的功能。自主研发全系列不同分辨率和不同能量谱段的 X 射线探测器,支持特殊定制和深度优化。
X
欢迎来到浩沃特!