Introduktion till Pandas

I denna handledning kommer jag att ge en grundläggande introduktion till pandor. Åh, jag menar inte djurpandaen, men ett Python-bibliotek!

Som nämnts på pandas hemsida:

pandor är ett open source, BSD-licensierat bibliotek som ger högpresterande, lättanvända datastrukturer och dataanalysverktyg för Python programmeringsspråk.

Således, pandor är ett dataanalysbibliotek som har datastrukturerna som vi behöver rengöra rådata i en form som är lämplig för analys (dvs tabeller). Det är viktigt att notera här det sedan pandor utför viktiga uppgifter som att anpassa data för jämförelse och sammanslagning av dataset, hantering av saknade data etc. Det har blivit ett de facto-bibliotek för databehandling på hög nivå i Python (dvs statistik). Väl, pandor Ursprungligen utformades för att hantera finansiella data, förutsatt att det vanliga alternativet använder ett kalkylblad (dvs Microsoft Excel).

Den grundläggande datastrukturen för pandor kallas DataFrame, vilken är en beställd samling kolumner med namn och typer, sålunda som en databas tabell där en enda rad representerar ett enda fall (exempel) och kolumner representerar särskilda attribut. Det bör noteras här att elementen i olika kolumner kan vara av olika slag.

Så, den nedersta raden är att pandor biblioteket ger oss de datastrukturer och funktioner som är nödvändiga för dataanalys.

Installera Pandas

Låt oss nu se hur vi kan installera pandor på våra maskiner och använd den för dataanalys. Det enklaste sättet att installera pandor och undvik eventuella beroenden är att använda Anaconda vilket pandor kommer en del av. Som nämnts på Anaconda-hämtningssidan:

Anaconda är en helt fri Python-distribution (inklusive för kommersiell användning och omfördelning). Den innehåller mer än 400 av de mest populära Python-paketen för vetenskap, matte, ingenjörsarbete och dataanalys

Anaconda-distributionen är plattformen, vilket innebär att den kan installeras på OS X, Windows och Linux-maskiner. Jag ska använda OS X-installationsprogrammet eftersom jag arbetar på en Mac OS X El Capitan-maskin, men självklart kan du välja lämpligt installationsprogram för ditt operativsystem. Jag kommer att gå med det grafiska installationsprogrammet (var försiktig, det är 339 MB).

Anaconda Mac OS X Graphical Installer

När du har laddat ner installationsprogrammet går du enkelt igenom de enkla installationsguiden och du är helt inställd!

Allt vi behöver göra nu för att kunna använda pandor är att importera paketet enligt följande:

importera pandor som pd

Pandas datastrukturer

Jag har nämnt en av de tre pandor datastrukturer ovan, DataFrame. Jag kommer att beskriva denna datastruktur i detta avsnitt utöver den andra pandor datastruktur, Serier. Det finns en annan datastruktur som heter Panel, men jag kommer inte att beskriva den i den här handledningen eftersom den inte används så ofta, som nämns i dokumentationen. DataFrame är en 2D datastruktur, Serier är en 1D datastruktur, och Panel är en 3D och högre datastruktur.

DataFrame

De DataFrame är en tabellformad datastruktur som består av beställda kolumner och rader. För att göra saker tydligare, låt oss titta på exemplet att skapa en DataFrame (tabell) från en lista över listor. Följande exempel visar en ordlista som består av två nycklar, namn och Ålder, och deras motsvarande värdelista.

importera pandor som pd import numpy som np name_age = 'Name': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Ålder': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) print data_frame

Om du kör ovanstående skript bör du få en effekt som liknar följande:

Observera att DataFrame konstruktören beställer kolumnerna alfabetiskt. Om du vill ändra kolumnernas ordning kan du skriva följande under data_frame ovan:

data_frame_2 = pd.DataFrame (name_age, kolumner = ['Namn', 'Ålder'])

För att se resultatet, skriv bara: skriv data_frame_2.

Säg att du inte vill använda standardetiketterna 0,1,2, ... och ville använda a, b, c, ... i stället. I så fall kan du använda index i ovanstående skript enligt följande:

data_frame_2 = pd.DataFrame (name_age, kolumner = ['Namn', 'Ålder'], index = ['a', 'b', 'c', 'd', 'e'))

Det var väldigt trevligt, eller hur? Använder sig av DataFrame, Vi kunde se vår data organiserade i en tabellform.

Serier

Serier är den andra pandor datastruktur jag ska prata om. en Serier är ett ettdimensionellt (1D) objekt som liknar en kolumn i tabellen. Om vi ​​vill skapa en Serier för en lista över namn kan vi göra följande:

serie = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], index = [1, 2, 3, 4, 5])

Resultatet av detta skript skulle vara följande:

Observera att vi använde index att märka data. Annars börjar standardetiketterna från 0,1,2 ...

Pandas funktioner 

I det här avsnittet ska jag visa exempel på några funktioner vi kan använda med DataFrame och Serier.

Huvud och svans

Funktionerna huvud() och svans() gör det möjligt för oss att se ett urval av våra data, särskilt när vi har ett stort antal poster. Standardantalet av element som visas är 5, men du kan returnera det anpassade numret du vill.

Låt oss säga att vi har en Serier bestående av 20.000 slumpmässiga objekt (siffror):

importera pandor som pd import numpy som np series = pd.Series (np.random.randn (20000))

Använda huvud() och svans() metoder för att observera de första och sista fem punkterna, respektive kan vi göra följande:

skriva series.head () print series.tail ()

Utmatningen av detta skript borde vara något som liknar följande (observera att du kan ha olika värden eftersom vi genererar slumpmässiga värden):

Lägg till

Låt oss ta ett exempel på Lägg till() funktion, där vi försöker lägga till två datarammer som följer:

importera pandor som pd dictionary_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) print data_frame_1 skriv data_frame_2 skriv data_frame_3

Utmatningen av ovanstående skript är:

Du kan också utföra denna tilläggsprocess genom att helt enkelt använda + operatör: data_frame_3 = data_frame_1 + data_frame_2.

Beskriva

En mycket trevlig pandor funktionen är beskriva(), vilket genererar olika sammanfattande statistik för våra data. För exemplet i det sista avsnittet gör vi följande:

skriva ut data_frame_3.describe ()

Resultatet av denna operation kommer att vara:

Ytterligare resurser

Detta var bara en rep av ytan på Python pandor. För mer information, kan du kolla pandor dokumentation, och du kan också kolla några böcker som Learning Pandas och Mastering Pandas. 

Slutsats

Forskare behöver ibland utföra några statistiska operationer och visa några snygga grafer som kräver att de använder ett programmeringsspråk. Men samtidigt vill de inte spendera för mycket tid eller bli utsatt för en allvarlig inlärningskurva när de utför sådana uppgifter. 

Som vi såg i denna handledning, pandor gjorde det möjligt för oss att representera data i tabellform och utföra vissa operationer på dessa bord på ett mycket enkelt sätt. Kombinerande pandor Med andra Python-bibliotek kan forskare även göra mer avancerade uppgifter som att dra specialiserade grafer för deras data. 

Således, pandor är ett väldigt användbart bibliotek och utgångspunkt för forskare, ekonomer, statistiker och alla som är villiga att utföra några dataanalysuppgifter.