A Deep Reinforcement Learning Model to Solve the Stochastic Capacitated Vehicle Routing Problem with Service Times and Deadlines

Marroquín-Cano, Sergio Flavio; Escobar-Gómez, Elías Neftalí; Morales, Eduardo F.; Ramírez-Álvarez, Elizeth; Gasga-García, Pedro; Chandomí-Castellanos, Eduardo; Velázquez-González, J. Renán; Guzmán-Rabasa, Julio Alberto; Bermúdez, José Roberto; Rodríguez-Sánchez, Francisco

A Deep Reinforcement Learning Model to Solve the Stochastic Capacitated Vehicle Routing Problem with Service Times and Deadlines

Sergio Flavio Marroquín-Cano, Elías Neftalí Escobar-Gómez (), Eduardo F. Morales, Elizeth Ramírez-Álvarez, Pedro Gasga-García, Eduardo Chandomí-Castellanos, J. Renán Velázquez-González, Julio Alberto Guzmán-Rabasa, José Roberto Bermúdez and Francisco Rodríguez-Sánchez
Additional contact information
Sergio Flavio Marroquín-Cano: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico
Elías Neftalí Escobar-Gómez: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico
Eduardo F. Morales: Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), Luis Enrique Erro No. 1, San Andrés Cholula 72840, Mexico
Elizeth Ramírez-Álvarez: Tecnológico Nacional de México, Instituto Tecnológico de Querétaro, Avenida Tecnológico S/N, Santiago de Queretaro 76000, Mexico
Pedro Gasga-García: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico
Eduardo Chandomí-Castellanos: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico
J. Renán Velázquez-González: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico
Julio Alberto Guzmán-Rabasa: Departamento de Mecatrónica, Universidad Politécnica de Chiapas, Carr. Tuxtla Gutierrez Km 21+500, Suchiapa 29082, Mexico
José Roberto Bermúdez: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico
Francisco Rodríguez-Sánchez: Tecnológico Nacional de México, Instituto Tecnológico de Tuxtla Gutierrez, Carr. Panamericana Km 1080, Tuxtla Gutierrez 29050, Mexico

Mathematics, 2025, vol. 13, issue 18, 1-25

Abstract: Vehicle Routing Problems are central to logistics and operational research, arising in diverse contexts such as transportation planning, manufacturing systems, and military operations. While Deep Reinforcement Learning has been successfully applied to both deterministic and stochastic variants of Vehicle Routing Problems, existing approaches often neglect critical time-sensitive conditions. This work addresses the Stochastic Capacitated Vehicle Routing Problem with Service Times and Deadlines, a challenging formulation that is suited to model time routing conditions. The proposal, POMO-DC, integrates a novel dynamic context mechanism. At each decision step, this mechanism incorporates the vehicle’s cumulative travel time and delays—features absent in prior models—enabling the policy to adapt to changing conditions and avoid time violations. The model is evaluated on stochastic instances with 20, 30, and 50 customers and benchmarked against Google OR-Tools using multiple metaheuristics. Results show that POMO-DC reduces average delays by up to 88% (from 169.63 to 20.35 min for instances of 30 customers) and 75% (from 4352.43 to 1098.97 min for instances of 50 customers), while maintaining competitive travel times. These outcomes highlight the potential of Deep Reinforcement Learning-based frameworks to learn patterns from stochastic data and effectively manage time uncertainty in Vehicle Routing Problems.

Keywords: stochastic modeling; combinatorial optimization; stochastic vehicle routing problems; time-constrained vehicle routing problems; deep reinforcement learning (search for similar items in EconPapers)
JEL-codes: C (search for similar items in EconPapers)
Date: 2025
References: View references in EconPapers View complete reference list from CitEc
Citations:

Downloads: (external link)
https://www.mdpi.com/2227-7390/13/18/3050/pdf (application/pdf)
https://www.mdpi.com/2227-7390/13/18/3050/ (text/html)

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:gam:jmathe:v:13:y:2025:i:18:p:3050-:d:1754849

Access Statistics for this article

Mathematics is currently edited by Ms. Emma He

More articles in Mathematics from MDPI
Bibliographic data for series maintained by MDPI Indexing Manager ().