I denna handledning kommer jag att ge en grundläggande introduktion till pandor. Åh, jag menar inte djurpandaen, men ett Python-bibliotek!
Som nämnts på pandas hemsida:
pandor är ett open source, BSD-licensierat bibliotek som ger högpresterande, lättanvända datastrukturer och dataanalysverktyg för Python programmeringsspråk.
Således, pandor
är ett dataanalysbibliotek som har datastrukturerna som vi behöver rengöra rådata i en form som är lämplig för analys (dvs tabeller). Det är viktigt att notera här det sedan pandor
utför viktiga uppgifter som att anpassa data för jämförelse och sammanslagning av dataset, hantering av saknade data etc. Det har blivit ett de facto-bibliotek för databehandling på hög nivå i Python (dvs statistik). Väl, pandor
Ursprungligen utformades för att hantera finansiella data, förutsatt att det vanliga alternativet använder ett kalkylblad (dvs Microsoft Excel).
Den grundläggande datastrukturen för pandor
kallas DataFrame
, vilken är en beställd samling kolumner med namn och typer, sålunda som en databas tabell där en enda rad representerar ett enda fall (exempel) och kolumner representerar särskilda attribut. Det bör noteras här att elementen i olika kolumner kan vara av olika slag.
Så, den nedersta raden är att pandor
biblioteket ger oss de datastrukturer och funktioner som är nödvändiga för dataanalys.
Låt oss nu se hur vi kan installera pandor
på våra maskiner och använd den för dataanalys. Det enklaste sättet att installera pandor
och undvik eventuella beroenden är att använda Anaconda vilket pandor
kommer en del av. Som nämnts på Anaconda-hämtningssidan:
Anaconda är en helt fri Python-distribution (inklusive för kommersiell användning och omfördelning). Den innehåller mer än 400 av de mest populära Python-paketen för vetenskap, matte, ingenjörsarbete och dataanalys
Anaconda-distributionen är plattformen, vilket innebär att den kan installeras på OS X, Windows och Linux-maskiner. Jag ska använda OS X-installationsprogrammet eftersom jag arbetar på en Mac OS X El Capitan-maskin, men självklart kan du välja lämpligt installationsprogram för ditt operativsystem. Jag kommer att gå med det grafiska installationsprogrammet (var försiktig, det är 339 MB).
Anaconda Mac OS X Graphical InstallerNär du har laddat ner installationsprogrammet går du enkelt igenom de enkla installationsguiden och du är helt inställd!
Allt vi behöver göra nu för att kunna använda pandor
är att importera paketet enligt följande:
importera pandor som pd
Jag har nämnt en av de tre pandor
datastrukturer ovan, DataFrame
. Jag kommer att beskriva denna datastruktur i detta avsnitt utöver den andra pandor
datastruktur, Serier
. Det finns en annan datastruktur som heter Panel
, men jag kommer inte att beskriva den i den här handledningen eftersom den inte används så ofta, som nämns i dokumentationen. DataFrame
är en 2D datastruktur, Serier
är en 1D datastruktur, och Panel
är en 3D och högre datastruktur.
De DataFrame
är en tabellformad datastruktur som består av beställda kolumner och rader. För att göra saker tydligare, låt oss titta på exemplet att skapa en DataFrame
(tabell) från en lista över listor. Följande exempel visar en ordlista som består av två nycklar, namn och Ålder, och deras motsvarande värdelista.
importera pandor som pd import numpy som np name_age = 'Name': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Ålder': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) print data_frame
Om du kör ovanstående skript bör du få en effekt som liknar följande:
Observera att DataFrame
konstruktören beställer kolumnerna alfabetiskt. Om du vill ändra kolumnernas ordning kan du skriva följande under data_frame
ovan:
data_frame_2 = pd.DataFrame (name_age, kolumner = ['Namn', 'Ålder'])
För att se resultatet, skriv bara: skriv data_frame_2
.
Säg att du inte vill använda standardetiketterna 0,1,2, ... och ville använda a, b, c, ... i stället. I så fall kan du använda index
i ovanstående skript enligt följande:
data_frame_2 = pd.DataFrame (name_age, kolumner = ['Namn', 'Ålder'], index = ['a', 'b', 'c', 'd', 'e'))
Det var väldigt trevligt, eller hur? Använder sig av DataFrame
, Vi kunde se vår data organiserade i en tabellform.
Serier
är den andra pandor
datastruktur jag ska prata om. en Serier
är ett ettdimensionellt (1D) objekt som liknar en kolumn i tabellen. Om vi vill skapa en Serier
för en lista över namn kan vi göra följande:
serie = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], index = [1, 2, 3, 4, 5])
Resultatet av detta skript skulle vara följande:
Observera att vi använde index
att märka data. Annars börjar standardetiketterna från 0,1,2 ...
I det här avsnittet ska jag visa exempel på några funktioner vi kan använda med DataFrame
och Serier
.
Funktionerna huvud()
och svans()
gör det möjligt för oss att se ett urval av våra data, särskilt när vi har ett stort antal poster. Standardantalet av element som visas är 5, men du kan returnera det anpassade numret du vill.
Låt oss säga att vi har en Serier
bestående av 20.000 slumpmässiga objekt (siffror):
importera pandor som pd import numpy som np series = pd.Series (np.random.randn (20000))
Använda huvud()
och svans()
metoder för att observera de första och sista fem punkterna, respektive kan vi göra följande:
skriva series.head () print series.tail ()
Utmatningen av detta skript borde vara något som liknar följande (observera att du kan ha olika värden eftersom vi genererar slumpmässiga värden):
Låt oss ta ett exempel på Lägg till()
funktion, där vi försöker lägga till två datarammer som följer:
importera pandor som pd dictionary_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) print data_frame_1 skriv data_frame_2 skriv data_frame_3
Utmatningen av ovanstående skript är:
Du kan också utföra denna tilläggsprocess genom att helt enkelt använda +
operatör: data_frame_3 = data_frame_1 + data_frame_2
.
En mycket trevlig pandor
funktionen är beskriva()
, vilket genererar olika sammanfattande statistik för våra data. För exemplet i det sista avsnittet gör vi följande:
skriva ut data_frame_3.describe ()
Resultatet av denna operation kommer att vara:
Detta var bara en rep av ytan på Python pandor
. För mer information, kan du kolla pandor
dokumentation, och du kan också kolla några böcker som Learning Pandas och Mastering Pandas.
Forskare behöver ibland utföra några statistiska operationer och visa några snygga grafer som kräver att de använder ett programmeringsspråk. Men samtidigt vill de inte spendera för mycket tid eller bli utsatt för en allvarlig inlärningskurva när de utför sådana uppgifter.
Som vi såg i denna handledning, pandor
gjorde det möjligt för oss att representera data i tabellform och utföra vissa operationer på dessa bord på ett mycket enkelt sätt. Kombinerande pandor
Med andra Python-bibliotek kan forskare även göra mer avancerade uppgifter som att dra specialiserade grafer för deras data.
Således, pandor
är ett väldigt användbart bibliotek och utgångspunkt för forskare, ekonomer, statistiker och alla som är villiga att utföra några dataanalysuppgifter.