Uzziniet, kā sapludināt datu kadrus programmā Python

Uzziniet, kā sapludināt datu kadrus programmā Python

Ja izmantojat Python pat visvienkāršākajiem uzdevumiem, jūs, iespējams, apzināties tā trešo pušu bibliotēku nozīmi. Pandas bibliotēka ar izcilu DataFrames atbalstu ir viena no šādām bibliotēkām.



Python DataFrames varat importēt vairāku veidu failus un izveidot dažādas versijas dažādu datu kopu glabāšanai. Kad esat importējis savus datus, izmantojot DataFrames, varat tos apvienot, lai veiktu detalizētu analīzi.





Pamatu risināšana

Pirms sākat sapludināšanu, jums ir jābūt datu rāmjiem, lai sapludinātu. Izstrādes nolūkos varat izveidot dažus fiktīvus datus, ar kuriem eksperimentēt.





Izveidojiet DataFrames programmā Python

Vispirms importējiet Pandas bibliotēku savā Python failā. Pandas ir trešās puses bibliotēka, kas apstrādā DataFrames programmā Python. Jūs varat izmantot imports paziņojums par bibliotēkas lietošanu:

import pandas as pd

Bibliotēkas nosaukumam varat piešķirt aizstājvārdu, lai saīsinātu koda atsauces.



lietas, ko darīt internetā, ja jums ir garlaicīgi

Jums ir jāizveido vārdnīcas, kuras varat pārvērst par DataFrames. Lai iegūtu labākos rezultātus, izveidojiet divus vārdnīcas mainīgos — dikti1 un dict2- lai saglabātu noteiktas informācijas daļas:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Atcerieties, ka abās vārdnīcas vērtībās ir jābūt kopējam elementam, lai tas darbotos kā primārā atslēga datu rāmju apvienošanai vēlāk.





Pārvērtiet savas vārdnīcas DataFrames

Lai pārvērstu vārdnīcas vērtības DataFrames, varat izmantot šādu metodi:

df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Daži IDE ļauj pārbaudīt vērtības DataFrame, atsaucoties uz DataFrame funkciju un nospiežot Palaist/Izpildīt . Tur ir daudz Ar Python saderīgi IDE , lai jūs varētu izvēlēties un izvēlēties visvieglāk apgūstamo.





  Jupyter Notebook koda fragments

Kad esat apmierināts ar DataFrames saturu, varat pāriet uz apvienošanas darbību.

Rāmju apvienošana ar sapludināšanas funkciju

Apvienošanas funkcija ir pirmā Python funkcija, ko varat izmantot, lai apvienotu divus DataFrame. Šī funkcija izmanto šādus noklusējuma argumentus:

pd.merge(DataFrame1, DataFrame2, how= type of merge)

Kur:

  • pd ir Pandas bibliotēkas aizstājvārds.
  • sapludināt ir funkcija, kas apvieno DataFrames.
  • DataFrame1 un DataFrame2 ir divi datu rāmji, kas jāapvieno.
  • nosaka sapludināšanas veidu.

Ir pieejami daži papildu izvēles argumenti, kurus varat izmantot, ja jums ir sarežģīta datu struktūra.

Varat izmantot dažādas vērtības parametram how, lai definētu veicamās sapludināšanas veidu. Šie sapludināšanas veidi būs pazīstami, ja esat izmantoja SQL, lai savienotu datu bāzes tabulas .

Kreisā sapludināšana

Kreisais sapludināšanas veids saglabā pirmās DataFrame vērtības neskartas un izvelk atbilstošās vērtības no otrā DataFrame.

  Jupyter Notebook koda fragments

Labā sapludināšana

Pareizais sapludināšanas veids saglabā neskartas otrā DataFrame vērtības un iegūst atbilstošās vērtības no pirmā DataFrame.

  Jupyter Notebook koda fragments

Iekšējā sapludināšana

Iekšējais sapludināšanas veids saglabā atbilstošās vērtības no abiem datu rāmjiem un noņem neatbilstošās vērtības.

  Jupyter Notebook koda fragments

Ārējā sapludināšana

Ārējais sapludināšanas veids saglabā visas atbilstošās un neatbilstošās vērtības un apvieno DataFrames kopā.

  Jupyter Notebook koda fragments

Kā lietot funkciju Concat

The concat funkcija ir elastīga iespēja salīdzinājumā ar dažām citām Python sapludināšanas funkcijām. Izmantojot concat funkciju, varat apvienot DataFrames vertikāli un horizontāli.

Tomēr šīs funkcijas izmantošanas trūkums ir tāds, ka tā pēc noklusējuma atmet visas neatbilstošās vērtības. Tāpat kā dažām citām saistītām funkcijām, šai funkcijai ir daži argumenti, no kuriem tikai daži ir būtiski veiksmīgai savienošanai.

concat(dataframes, axis=0, join='outer'/inner)

Kur:

  • concat ir funkcija, kas pievienojas DataFrames.
  • datu rāmji ir datu rāmju secība, kas jāsavieno.
  • ass apzīmē savienojuma virzienu, 0 ir horizontāls, 1 ir vertikāls.
  • pievienoties norāda ārējo vai iekšējo savienojumu.

Izmantojot divus iepriekš minētos DataFrames, varat izmēģināt concat funkciju šādi:

# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

Ja iepriekš minētajā kodā nav ass un savienojuma argumentu, abas datu kopas tiek apvienotas. Rezultātā iegūtajā izvadē ir visi ieraksti neatkarīgi no atbilstības statusa.

Līdzīgi varat izmantot papildu argumentus, lai kontrolētu funkcijas concat virzienu un izvadi.

Lai kontrolētu izvadi ar visiem atbilstošajiem ierakstiem:

# Concatenating all matching values between the two dataframes based on their columns 
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')

print(df_merged_concat)

Rezultātā ir visas atbilstošās vērtības tikai starp diviem DataFrame.

  Jupyter Notebook koda fragments

DataFrames sapludināšana ar Python

DataFrames ir neatņemama Python sastāvdaļa, ņemot vērā to elastību un funkcionalitāti. Ņemot vērā to daudzpusīgo pielietojumu, varat tos plaši izmantot, lai veiktu visdažādākos uzdevumus ar ļoti vienkāršu.

Ja joprojām mācāties par Python DataFrames, mēģiniet importēt dažus Excel failus un pēc tam apvienot tos ar dažādām pieejām.