La raccolta differenziata, un problema di classificazione


Modelli previsionali e applicazioni

Il sistema industriale odierno sta migrando sempre più verso materie prime riciclate. In questo contesto il riciclo e la raccolta differenziata ricoprono un’importanza cruciale. L’obbiettivo di questo lavoro vuole essere quello di affrontare il problema della raccolta differenziata con un approccio scientifico e proporre alcune idee e soluzioni di come il Data Science possa essere d’aiuto nel riuscire a migliorare lo sfruttamento delle risorse. Le domande della ricerca, quindi, sono due: “Come si può analizzare la raccolta differenziata come un problema di classificazione statistica?” e “Quali applicazioni potrebbero essere implementate con l’utilizzo dei modelli previsionali?”.
Per rispondere a tali domande si è deciso di reperire i dati per poter classificare i rifiuti utilizzando tre strategie: Web Scraping, programmazione di un Chatbot di Telegram e infine progettazione e costruzione con tecnologie Arduino di un cestino che potesse registrare i dati dei rifiuti. Una volta ultimata la fase di raccolta dei dati si è deciso di utilizzare algoritmi di Deep Learning e Machine Learning per classificare nel modo migliore i rifiuti, successivamente questi modelli sono stati combinati tramite meccanismi di Ensemble Learning così da trovare un previsore migliore, con il quale si sono costruite due applicazioni: un Chatbot che dalle foto riconoscesse la tipologia di rifiuto e un cestino di raccolta differenziata automatica.
Per affrontare questo problema si è deciso di strutturare il lavoro come segue:

Conclusioni

La finalità del presente studio è stata l'utilizzo della classificazione statistica come chiave di lettura per analizzare il problema della raccolta differenziata con lo scopo di valutare quali applicazioni possano essere implementate con l’utilizzo dei modelli previsionali. A tal fine, è stata condotta un'indagine quantitativa sfruttando diversi metodi di raccolta. Le differenti modalità di reperimento dei dati hanno portato ad un risultato più accurato e completo nella fase di stima dei modelli. Successivamente sfruttando diversi algoritmi di Machine Learning si è stati in grado di progettare due applicazioni utili per la raccolta differenziata.

Select a node to see more information.

I modelli addestrati in questo studio sfruttano sia dati strutturati che informazioni non strutturate con l'obbiettivo di creare molteplici ``Stroger Learner" e combinarli attraverso metodi di Ensemble Learning per ottenere stime robuste ed accurate.
I modelli creati, come è possibile osservare nel grafico sottostante, hanno un accuratezza elevata. In particolare si può notare come i modelli di Stacking creati hanno un accuratezza superiore al 90% ed una precisione nelle singole categorie di rifiuto altrettanto elevata.



Tuttavia, questo progetto, per quanto approfondito, trascura inevitabilmente alcune variabili e informazioni su cui sarebbe opportuno riflettere al fine del miglioramento dei modelli, cercando di individuare elementi correttivi. Infatti, è importante tenere presente che in questa analisi non è stato possibile analizzare i rifiuti organici per un problema intrinseco di igiene relativo a questa categoria di rifiuti. Inoltre l'ambiente creato all'interno del ``robot" di registrazione dei dati non è in grado di creare un completo e stabile isolamento. Per questa ragione i parametri potenzialmente analizzati potrebbero essere influenzati da elementi terzi (quali luce ed elettrostaticità presente nell'ambiente) e causare la distorsione delle previsioni.
Il progetto svolto ha portato a dei risultati che, nonostante i punti critici, mettono in luce le potenzialità del Data Science. In questo contesto ulteriori analisi potrebbero portare a significativi miglioramenti.
Un primo miglioramento potrebbe essere quello di aumentare le dimensioni del Validation Set creato nel Capitolo 3 così da aumentare la validità esterna della previsione.
Inoltre l'utilizzo di ResNet 152 o Inception V4 per il riconoscimento di immagini potrebbe portare ad un incremento significativo dell'accuratezza dei modelli.
In aggiunta, tramite dei processi non strettamente statistici l'analisi sarebbe più completa riuscendo a raggiungere livelli di accuratezza più elevati. Tra i processi che consentirebbero questo approfondimento si riportano:

  • L'utilizzo del Reinforced Learning per consentire alle applicazioni di apprendere dagli errori.
  • Lo sfruttamento, congiuntamente ai classificatori creati, degli strumenti di Amazon Web Services per creare nuovi modelli di Ensemble Learning più accurati.
  • La lettura, quando presente nell'immagine, del bar code del prodotto da smaltire.

A conclusione dello studio, ritengo che, questo lavoro possa essere un buon punto d'inizio per sviluppare strumenti che aiutino a migliorare lo sfruttamento delle risorse.