Machine Learning Fluxos de treball i Eines – II
  • Jordi Llobet
  • 05 de març 2025

Machine Learning Fluxos de treball i Eines – II

3.- Fluxos de treball de Machine Learning

Bàsicament Machine Learning consta de 3 fases:

  • Definició del Classificador: Implementar la representació de les característiques de les dades d'entrenament. Seleccionar el tipus de classificador més adequat segons el problema que volem resoldre.
  • Avaluació: Escollir els criteris que defineixen si el classificador és òptim. Per exemple, percentatge de prediccions correctes en fase de test.
  • Optimització: Definir els paràmetres que proporcionen un millor classificador segons els criteris d'avaluació seleccionats en la fase anterior.
Machine Learning - Flux de treball a Machine Learning

Figura 3 - Flux de treball a Machine Learning

4.- Representació de característiques en Machine Learning

Les característiques ("features") són el conjunt de dades que defineixen les instàncies que utilitzarem com a dades d'entrenament. Posteriorment, mitjançant el model definit amb Machine Learning amb les característiques de la instància a predir obtindrem l'etiqueta que defineix la nova instància.

Exemples de Representació de Característiques:

  • Si volem classificar quins correus electrònics poden ser spam. Una Representació de Característiques podria ser una llista de paraules amb un atribut que indica la freqüenta amb què aquestes paraules apareixen al correu electrònic.
  • Per classificar imatges, la Representació de Característiques podria ser una matriu amb el color de cada píxel.
  • Si volem classificar tipus de peixos (o tipus de fruita com a l'esquema de la figura 4), una Representació de Característiques podria ser un conjunt d'atributs amb els seus valors.
Machine Learning - Exemple de representació de característiques

Figura 4 - Exemple de representació de característiques

5.- Eines Python per Machine Learning

Python és el llenguatge que s'utilitza per implementar models de Machine Learning. Dins de Python, les llibreries que utilitza Machine Learning són les següents:

scikit-learn:

és una llibreria de codi obert que unifica sota un únic marc els principals algorismes i funcions de Machine Learning. D'aquesta manera facilita en gran mesura totes les etapes de creació, avaluació i optimització dels models predictius. Enllaços a la documentació de la llibreria:

SciPy Library:

Proporciona una varietat de ferramentes útils de computació científica. Entre aquestes, distribucions estadístiques, optimització de funcions, àlgebra lineal i una varietat de funcions matemàtiques especialitzades. Amb scikit-learn, es proporciona suport per matrius disperses, una forma demmagatzemar taules grans que consisteixen principalment en zeros. Enllaços a la documentació de la llibreria:

NumPy Library:

Proporciona estructures de dades fonamentals utilitzades per scikit-learn, particularment matrius multidimensionals. En general, les dades que s'ingressen a scikit-learn estaran en forma d'una matriu de la llibreria NumPy. Enllaços a la documentació de la llibreria:

Pandas Library:

Proporciona estructures de dades clau com ara DataFrame. A més, admet importa i exporta la lectura i escriptura de dades en diferents formats. Enllaços a la documentació de la llibreria:

Finalment, les següents llibreries de representació gràfica de dades:

comillas

Les característiques (features) són el conjunt de dades que defineixen les instàncies que utilitzarem com a dades d'entrenament

No hi ha comentaris
Deixa un comentari
El teu missatge és obligatori.