آموزش کتابخانه پانداس (pandas) در پایتون
پانداس کتابخانه محبوب و قدرت مند پایتون، ابزاری برای تجزیه و تحلیل داده ها است و کاربرد های گسترده ای در علوم مختلف دارد نمودار زیر محبوبیت پانداس را نسبت به دیگر کتابخانه های پایتون از سال 2011تا 2018 نشان می دهد
چند مورد از کاربرد های کتابخانه پانداس در حوزه های مختلف
پردازش زبان طبیعی
پردازش زبان طبیعی به معنی رمز گشایی کلمات برای کامپیوتر ها به شیوه ای که بتوانند کلمات را درک کنند می باشد افراد متخصص درحوزه هوش مصنوعی همواره به دنبال آن هستند تا سیستم هایی بسازند که بتوانند متن را معنی کنند و کارهایی مانند تشخیص غلط املایی،ترجمه یا طبقه بندی متن را به صورت خودکار انجام دهند اما این کار به آسانی امکان پذیر نیست زیرا زبان انسان پیچیدگی زیادی دارد و در طول زمان نیز همواره دچار تغییر و تحول می شود کتابخانه پانداس در این راه به متخصصان خدمت زیادی کرده است و با کمک آن ساخت مدل های مختلف آسان شده است
*سیستم های توصیه گر
حتما شما هم هنگام خرید از فروشگاه های اینترنتی با توصیه های سایت در مورد خرید محصول یا محصولاتی خاص رو برو شده اید این همان سیستم شگفت انگیز توصیه گر است که با کمک پانداس ایجاد شده است توصیه گرها براساس علایق وتاریخچه جستجوی کاربران پیشنهاداتی را برای آنها ارسال می کنند از آنجا که این سیستم ها برای پاسخگویی مناسب به حجم زیادی از دیتا ها نیازمند می باشند بدون کمک بیگ دیتا ها موفق به ساخت یک توصیه گر مناسب نخواهیم بود باید بگوییم که پانداس مهم ترین و اصلی ترین کتابخانه پایتون می باشد که برای مدیریت داده های با حجم بالا مورد استفاده قرار می گیرد و از آنجا که پایه و اساس آن زبان برنامه نویسی c می باشد بنابر این در مواجهه با بیگ دیتا ها دارای سرعت فوق العاده ای است
*پیش بینی قیمت سهام
پیش بینی بازار پر تلاطم سهام برای کارشناسان به آسانی امکان پذیر نیست زیرا عوامل زیادی از جمله سیاست های مالی و ارزی، وضعیت سیاسی و اقتصادی، میزان سود آوری شرکت ها و بسیاری از مسائل دیگر در تعیین صعودی یا نزولی بود بازار سهام نقش دارند اما با کمک پانداس این مشکل نیز به راحتی قابل حل است. پانداس با تجزیه و تحلیل داده های قبلی سهام، قادر است مدل هایی را بسازد که بتوانند بازار سهام را پیش بینی کند
ويژگی های پانداس
*مدیرت داده های ازدست رفته
یکی از مشکلات اساسی هنگام کار با داده ها، برخورد با ویژگی های گم شده می باشد که به دلایل زیادی می تواند رخ دهد مثلا شخص تمایلی به اعلام میزان در آمد خود یا ثبت شماره تلفن خود نداشته و یا در جمع آوری داده ها بی دقتی صورت گرفته است الگوریتم های یادگیری ماشین قابلیت مقابله با داه های گم شده راندارند و هنگام پیاده سازی آنها با خطا مواجه خواهیم شد پانداس دارای چندین راه کار مفید برای شناسایی داده های گم شده و سپس حذف ویا جایگزین کردن مقداردیگری برای این نوع داده های است
*تمیز کردن داده ها
از آنجا که داده های موجود در دنیای اطراف ما به صورت داده های خام و تمیز نشده هستند ممکن است حاوی مطالب بی ارزشی باشند که درنهایت منجر به ارائه نتایج نادرست و به دنبال آن تصمیم گیری های اشتباه خواهند شد . فرایند پاک سازی داده ها شامل شناسایی و حذف موارد اشتباه و نادرست و بیهوده از پایگاه داده است پانداس امکان تمیز کردن داده ها به منظور دستیابی به نتایج دقیق تر را فراهم می سازد
*پشتیبانی از فرمت های مختلف فایل ها
اگر شما هم قصد دارید در آینده به یک تحلیل گر داده تبدیل شوید باید بگویم که با انواع مختلف فایل ها مواجه خواهید شد پانداس امکان استفاده از انواع مختلف فایل ها شامل Comma-separated values (CSV) ، XLSX، JSON و….. فراهم کرده است این مورد از مهم ترین ویژگی های پانداس می باشد. وارد کردن انواع داده ها استفاده از متد pd.read
وارد کردن فایل های Excel
data = pd.read_excel(‘path’)
وارد کردن فایل های csv
data = pd.read_csv(‘path’)
وارد کردن فایل های JSON
data= pd.read_json(‘path’)
تنها لازم است که در قسمت ‘path’ آدرس فایل اکسل، csv یا JSON موجود در سیستم خود را قرار دهید
نصب کتابخانه پانداس
برای نصب و راه اندازی pandas کد زیر را در قسمت cmd ویندوز وارد کنید و کلید ENTER را بزنید
pip install pandas
برای فراخوانی پانداس کد زیر را در محیط پایتون وارد کنید عبارت pd کوتاه شده pandas می باشد و از این به بعد برای فراخوانی و استفاده از ابزار های پانداس از آن استفاده می کنیم.درصورتی که در این قسمت با خطا مواجه شوید احتمالا در نصب این کتابخانه مشکلی وجود دارد پس در هنگام نصب حتما به پیغام Successfully installed pandas که به معنی موفقیت در نصب می باشد دقت فرمایید
import pandas as pd
چک کردن ورژن کتابخانه پانداس
همچنین برای چک کردن ورژن pandas کد دستوری زیر را در محیط پایتون وارد کنید
pd.__version__
دستکاری و پیش پردازش داده ها با کمک پانداس
پانداس امکان تجزیه و تحلیل، دستکاری، پیش پردازش و مدیریت داده ها را با استفاده از دو ابزار سری ها (سری یک آرایه تک بعدی است که انواع داده های رشته ای، عددصحیح، و اعداد اعشاری را در خود ذخیره می کند) و DataFrame (آرایه ای دو بعدی شامل سطر ها و ستون ها ) را که ساختار های اصلی برای ذخیره داده ها می باشند را فراهم می سازد.
با اینکه Series و DataFrames مباحث بسیار مهمی هستند اما در عین حال هیچ پیچیدگی خاصی ندارند و بسیار ساده هستند! هر series یک ستون ساده است و هر DataFrame یک جدول است که یعنی مجموعه ای از series ها می باشد.
تفاوت series ها و data frame ها در کتابخانه pandas
Series در پانداس
سری ها قادرند انواع داده ها را در خود ذخیره کنند و شامل یک ستون برای اندیس گذاری و ستون یا ستون هایی برای ذخیره مقادیرمی باشند. درصورتی که اندیس گذاری را از قبل مشخص نکنیم به صورت پیش فرض با عدد صفر شروع می شود اما می توانیم آن را با کاراکتر ها نیز نمایش دهیم با کمک اندیس گذاری می توانیم به یک مقدار مشخص دسترسی پیدا کنیم
ساخت یک سری ساده با کمک متد pd.Series
import pandas as pd
a = [11, 12, 13,14,15]
ser = pd.Series(a)
print(ser)
خط اول: وارد کردن کتاب خانه پانداس
2) ایجاد یک لیست از اعداد
3) تبدیل لیست به سری
4) چاپ محتوای Series با دستوری print
خروجی👇
0 11
1 12
2 13
3 14
4 15
dtype: int64
ایندیس گذاری با استفاده از کاراکتر ها
تبدیل دیکشنری به سری
d = {'a': "A", 'b': "B", 'c': "C"}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
print(ser)
- ساخت دیکشنری d
تبدیل دیکشنری به سری
چاپ محتوای Series
خروجی👇
a A
b B
c C
dtype: object
همانطور که در کد بالا مشاهده می کنید سری ها را می توان با کمک دیکشنری ها نیز ایجاد کرد
ساخت سری با کمک کتابخانه numpy
import numpy as np
data = np.array(['a','b','c','d'])
ser = pd.Series(data,index=["A","B","C","D"])
print(ser)
وارد کردن کتابخانه نامپای
لیستی از مقادیر سری ها را وارد می کنیم
لیست را به سری تبدیل می کنیم
چاپ محتوای Series
خروجی👇
A a
B b
C c
D d
dtype: object
صدا زدن عناصر سری
برای دسترسی به هر کدام از عناصر موجود در سری شماره اندیس یا کاراکتر مربوط به آن را داخل [ ] قرار می دهیم
print(ser["B"])
خروجی👇
b
DataFrame
دیتا فریم نوعی ساختار داده ای دیگر است که داده ها را به صورت جدول در سطر ها و ستون های برچسب دار قرار می دهد برای هرکدام از سطرها درصورتی که برچسب ها را از قبل تعیین نکنیم به صورت پیش فرض مقادیر 0 تا n-1 در نظر گرفته می شود. دیتا فریم ها را می توان با استفاده از یک یا چند لیست یا دیکشنری ایجاد کرد اندازه دیتا فریم ها نیز به سادگی قابل تغییر می باشد.
ساخت دیتا فریم با کمک یک لیست
lst = ['Pizza', 'Sandwich', 'Pasta', 'Spaghetti', 'lasanya']
df = pd.DataFrame(lst)
df
- یک لیست ساخته ایم
- دیتا فریم خود را با استفاده از لیست ایجاد کردیم
- df را صدا زدیم تا خروجی را ببینیم
خروجی👇
ساخت دیتا فریم با استفاده از دیکشنری
dict = {'name':["Ali", "Mohammad", "Maryam", "zahra"],'Score': [18,19,19,17], 'age':[12, 14, 13, 15]}
df = pd.DataFrame(dict)
df
دیکشنری خود را ایجاد کردیم
تبدیل آن به دیتا فریم
- df را صدا زدیم تا خروجی را ببینیم
خروجی👇
خواندن فایل های CSV
یک راه ساده برای ذخیره مجموعه داده های بزرگ، استفاده از فایل های CSV (فایل های جدا شده با کاما) است.
فایلهای CSV حاوی متن ساده است و فرمت شناخته شدهای است که برای همه از جمله پانداس قابل خواندن است.
import pandas as pd
df = pd.read_csv('data.csv')
print(df)
مشاهده داده ها
یکی از پرکاربردترین روش ها برای دریافت یک نمای کلی از DataFrame، متد head() است.
متد head() سرصفحه ها و تعداد مشخصی از ردیف ها را که از بالا شروع می شود، برمی گرداند.
مثال:
با چاپ 10 ردیف اول DataFrame یک نمای کلی سریع دریافت کنید:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
خروجی👇
سخن پایانی
در این مقاله تعدادی از کاربرد ها و ویژگی های کتاخانه پانداس و مهم ترین ابزار های آن شامل سری ها و دیتافریم ها که برای پیش پردازش داده ها مورد استفاده قرار می گیرند را مورد بررسی و تحلیل قرار دادیم گنجاندن دنیای گستره پانداس در یک مقاله امکان پذیر نیست اما امیدواریم توانسته باشیم گامی کوچک را در این مسیر یادگیری در کنار شما برداشته باشیم
آموزش پانداس ادامه دارد…
دیدگاهتان را بنویسید