Evaluation of database balancing techniques for road accident severity classification employing Artificial Neural Network

Maria Lígia Chuerubim, Leonardo N. Ferreira, Alan D.B. Valejo, Bárbara Stolte Bezerra, Giuliano Sant'Anna Marotta, Irineu da Silva

Resumo


Uma característica inerente aos bancos de dados de acidentes rodoviários refere-se ao desequilíbrio existente entre o número de observações associadas às ocorrências dos acidentes com vítimas fatais e não fatais, em relação aos acidentes sem vítimas. Essa particularidade conduz à necessidade da aplicação de técnicas de balanceamento, que possibilitam a reamostragem de classes e atributos. Assim, assegura-se que não haja um super ajuste dos dados em problemas de classificação. Este trabalho investigou a influência de diferentes métodos de balanceamento como undersampling, oversampling e SMOTE no processo de classificação da severidade de acidentes rodoviários pela abordagem de Redes Neurais Artificiais. Os resultados obtidos indicam que o balanceamento proporciona um ganho significativo na taxa de acerto da classificação das classes minoritárias. Verifica-se um melhor ajuste do classificador ao modelo e o ganho na qualidade e acurácia do processo de classificação, principalmente, quando são utilizadas técnicas de sobre amostragem como a SMOTE.

Palavras-chave


Dados desbalanceados. Severidade do acidente. Classificação e Redes Neurais Artificiais.

Texto completo:

PDF (English)

Referências


Alejo, R.; Valdovinos, R. M. García, V. e J. H. Pacheco-Sanchez (2013) A hybrid method to face class overlap and class imbalance on neural networks and multi-class scenarios. Pattern Recognition Letters, v. 34, n. 4, p. 380–388. DOI: 10.1016/j.patrec.2012.09.003

Bolón-Canedo, V.; Sánchez-Maroño, N.; Alonso-Betanzos, A.; Benítez, J. M. e F. Herrera (2014) A review of microarray datasets and applied feature selection methods. Information Sciences, v. 282, p. 111–135. DOI: 10.1016/j.ins.2014.05.042

Chang, L-Y (2005) Analysis of freeway accident frequencies: Negative binomial regression versus artificial neural network. Safety Science, v. 43, p. 541-557. DOI: 10.1016/j.ssci.2005.04.004

Chang, L. e H. Wang (2006) Analysis of traffic injury severity: An application of non-parametric classification tree techniques. Accident Analysis & Prevention, v. 38, p. 1019–1027. DOI: 10.1016/j.aap.2006.04.009

Chen, C.; Zhang, G.; Qian, Z.; Tarefder, R. A. e Z. Tian (2016) Investigating driver injury severity patterns in rollover crashes using support vector machine models. Accident Analysis & Prevention, v. 90, p. 128–139. DOI: 10.1016/j.aap.2016.02.011

Delen, D.; Sharda, R. e M. Bessonov (2006) Identifying significant predictors of injury severity in traffic accidents using a series of artificial neural networks. Accident Analysis & Prevention, v. 38, p. 434–444. DOI: 10.1016/j.aap.2005.06.024

Facelli, K.; Lorena, A. C.; Gama, J. e A. C. P. L. F, Carvalho (2011). Inteligência Artificial: Uma abordagem de aprendizado de máqui-na. Rio de Janeiro: LTC. 378p.

Fawcett, T. (2016) Learning from Imbalanced Classes. Available in: https://www.svds.com/learning-imbalanced-classes/. Access: November/2018.

Fouladgar, M.; Parchami, M.; Elmasri, R. e A. Ghaderi (2017) Scalable Deep Traffic Flow Neural Networks for Urban Traffic Congestion Prediction. International Joint Conference on Neural Networks (IJCNN), p. 2251–2258. DOI: 10.1109/IJCNN.2017.7966128

Hosmer, D.W. e S. Lemeshow (2000) Applied logistic regression, 2nd Ed. John Wiley & Sons, New York.

Krawczyk, B. (2016) Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, v. 5, n. 4, p. 221–232. DOI: 10.1007/s13748-016-0094-0

Li, J.; Fong, S.; Wong, R. K.; Mohammed, S.; Fiaidhi, J. e Y. Sung (2018) A suite of swarm dynamic multi-objective algorithms for rebalancing extremely imbalanced datasets. Applied Soft Computing Journal, p. 1–22. DOI: 10.1016/j.asoc.2017.11.028

Mussone, L.; Ferrari, A. e M. Oneta (1999) An analysis of urban collisions using an artificial intelligence model. Accident Analysis & Prevention, 31, v. 31, p. 705–718. DOI: 10.1016/S0001-4575(99)00031-7

Prati, R. C.; Batista, G. E. A. P. A. e M. C. Monard (2008) Curvas ROC para avaliação de classificadores [Internet]. IEEE Latin America Transactions. 2008; 6 (2): 215-222.Available from: http://ieeexplore.ieee.org/stamp/stamp.do?arnumber=4609920&isnumber=4609907

Salunkhe, U. R. e S. N. Mali (2016) Classifier Ensemble Design for Imbalanced Data Classification: A Hybrid Approach. Interna-tional Conference on Computational Modeling and Security (CMS 2016), v. 85, n. Cms, p. 725–732. DOI: 10.1016/j.procs.2016.05.259

Wang, C.; Qiu, C.; Zuo, X. e C. Liu (2014) An Accident Severity Classification Model Based on Multi-Objective Particle Swarm Optimization. IEICE Trans. Inf. & Syst., n. 11, p. 2863–2871 DOI: 10.1587/transinf.2014EDP7069

Yuan, J., Abdel-Aty, M., Gong, Y. e Q. Cai (2019). Real-time crash risk prediction using long short-term memory recurrent neu-ral network. Transportation research record, 2673(4), 314-326. DOI: 10.1177/0361198119840611




DOI: https://doi.org/10.14295/transportes.v28i5.2271

Métricas do artigo

Carregando Métricas ...

Metrics powered by PLOS ALM


Direitos autorais 2020 Maria Lígia Chuerubim, Leonardo N Ferreira, Alan Demétrius Valejo, Bárbara Stolte Bezerra, Giuliano Sant'Anna Marotta, Irineu da Silva

TRANSPORTES (ISSN: 2237-1346) é uma publicação da ANPET - Associação Nacional de Pesquisa e Ensino em Transportes (www.anpet.org.br)

 

Licença Creative Commons

Este obra está licenciado com uma Licença Creative Commons Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional.