آموزش کتابخانه پانداس (pandas) در پایتون

پانداس کتابخانه محبوب و قدرت مند پایتون، ابزاری برای تجزیه و تحلیل داده ها است و کاربرد های گسترده ای در علوم مختلف دارد نمودار زیر محبوبیت پانداس را نسبت به دیگر کتابخانه های پایتون از سال 2011تا 2018 نشان می دهد

چند مورد از کاربرد های کتابخانه پانداس در حوزه های مختلف

پردازش زبان طبیعی

پردازش زبان طبیعی به معنی رمز گشایی کلمات برای کامپیوتر ها به شیوه ای که بتوانند کلمات را درک کنند می باشد افراد متخصص درحوزه هوش مصنوعی همواره به دنبال آن هستند تا سیستم هایی بسازند که بتوانند متن را معنی کنند و کارهایی مانند تشخیص غلط املایی،ترجمه یا طبقه بندی متن را به صورت خودکار انجام دهند اما این کار به آسانی امکان پذیر نیست زیرا زبان انسان پیچیدگی زیادی دارد و در طول زمان نیز همواره دچار تغییر و تحول می شود کتابخانه پانداس در این راه به متخصصان خدمت زیادی کرده است و با کمک آن ساخت مدل های مختلف آسان شده است

*سیستم های توصیه گر

حتما شما هم هنگام خرید از فروشگاه های اینترنتی با توصیه های سایت در مورد خرید محصول یا محصولاتی خاص رو برو شده اید این همان سیستم شگفت انگیز توصیه گر است که با کمک پانداس ایجاد شده است توصیه گرها براساس علایق وتاریخچه جستجوی کاربران پیشنهاداتی را برای آنها ارسال می کنند از آنجا که این سیستم ها برای پاسخگویی مناسب به حجم زیادی از دیتا ها نیازمند می باشند بدون کمک بیگ دیتا ها موفق به ساخت یک توصیه گر مناسب نخواهیم بود باید بگوییم که پانداس مهم ترین و اصلی ترین کتابخانه پایتون می باشد که برای مدیریت داده های با حجم بالا مورد استفاده قرار می گیرد و از آنجا که پایه و اساس آن زبان برنامه نویسی c می باشد بنابر این در مواجهه با بیگ دیتا ها دارای سرعت فوق العاده ای است

نقشه راه یادگیری عمیق-گام به گام و جامع

ادامه مطلب

*پیش بینی قیمت سهام

پیش بینی بازار پر تلاطم سهام برای کارشناسان به آسانی امکان پذیر نیست زیرا عوامل زیادی از جمله سیاست های مالی و ارزی، وضعیت سیاسی و اقتصادی، میزان سود آوری شرکت ها و بسیاری از مسائل دیگر در تعیین صعودی یا نزولی بود بازار سهام نقش دارند اما با کمک پانداس این مشکل نیز به راحتی قابل حل است. پانداس با تجزیه و تحلیل داده های قبلی سهام، قادر است مدل هایی را بسازد که بتوانند بازار سهام را پیش بینی کند

ويژگی های پانداس

*مدیرت داده های ازدست رفته

یکی از مشکلات اساسی هنگام کار با داده ها، برخورد با ویژگی های گم شده می باشد که به دلایل زیادی می تواند رخ دهد مثلا شخص تمایلی به اعلام میزان در آمد خود یا ثبت شماره تلفن خود نداشته و یا در جمع آوری داده ها بی دقتی صورت گرفته است الگوریتم های یادگیری ماشین قابلیت مقابله با داه های گم شده راندارند و هنگام پیاده سازی آنها با خطا مواجه خواهیم شد پانداس دارای چندین راه کار مفید برای شناسایی داده های گم شده و سپس حذف ویا جایگزین کردن مقداردیگری برای این نوع داده های است

*تمیز کردن داده ها

از آنجا که داده های موجود در دنیای اطراف ما به صورت داده های خام و تمیز نشده هستند ممکن است حاوی مطالب بی ارزشی باشند که درنهایت منجر به ارائه نتایج نادرست و به دنبال آن تصمیم گیری های اشتباه خواهند شد . فرایند پاک سازی داده ها شامل شناسایی و حذف موارد اشتباه و نادرست و بیهوده از پایگاه داده است پانداس امکان تمیز کردن داده ها به منظور دستیابی به نتایج دقیق تر را فراهم می سازد

*پشتیبانی از فرمت های مختلف فایل ها

اگر شما هم قصد دارید در آینده به یک تحلیل گر داده تبدیل شوید باید بگویم که با انواع مختلف فایل ها مواجه خواهید شد پانداس امکان استفاده از انواع مختلف فایل ها شامل Comma-separated values (CSV) ، XLSX، JSON و….. فراهم کرده است این مورد از مهم ترین ویژگی های پانداس می باشد. وارد کردن انواع داده ها استفاده از متد pd.read

وارد کردن فایل های Excel

data = pd.read_excel(‘path’)

وارد کردن فایل های csv

data = pd.read_csv(‘path’)

وارد کردن فایل های JSON

data= pd.read_json(‘path’)

تنها لازم است که در قسمت ‘path’ آدرس فایل اکسل، csv یا JSON موجود در سیستم خود را قرار دهید

نصب کتابخانه پانداس

برای نصب و راه اندازی pandas کد زیر را در قسمت cmd ویندوز وارد کنید و کلید ENTER را بزنید

ریاضیات پایه هوش مصنوعی

ادامه مطلب

				
					pip install pandas

برای فراخوانی پانداس کد زیر را در محیط پایتون وارد کنید عبارت pd کوتاه شده pandas می باشد و از این به بعد برای فراخوانی و استفاده از ابزار های پانداس از آن استفاده می کنیم.درصورتی که در این قسمت با خطا مواجه شوید احتمالا در نصب این کتابخانه مشکلی وجود دارد پس در هنگام نصب حتما به پیغام Successfully installed pandas که به معنی موفقیت در نصب می باشد دقت فرمایید

				
					import pandas as pd

چک کردن ورژن کتابخانه پانداس

همچنین برای چک کردن ورژن pandas کد دستوری زیر را در محیط پایتون وارد کنید

				
					pd.__version__

دستکاری و پیش پردازش داده ها با کمک پانداس

پانداس امکان تجزیه و تحلیل، دستکاری، پیش پردازش و مدیریت داده ها را با استفاده از دو ابزار سری ها (سری یک آرایه تک بعدی است که انواع داده های رشته ای، عددصحیح، و اعداد اعشاری را در خود ذخیره می کند) و DataFrame (آرایه ای دو بعدی شامل سطر ها و ستون ها ) را که ساختار های اصلی برای ذخیره داده ها می باشند را فراهم می سازد.

با اینکه Series و DataFrames مباحث بسیار مهمی هستند اما در عین حال هیچ پیچیدگی خاصی ندارند و بسیار ساده هستند! هر series یک ستون ساده است و هر DataFrame یک جدول است که یعنی مجموعه ای از series ها می باشد.

تفاوت series ها و data frame ها در کتابخانه pandas

Series در پانداس

سری ها قادرند انواع داده ها را در خود ذخیره کنند و شامل یک ستون برای اندیس گذاری و ستون یا ستون هایی برای ذخیره مقادیرمی باشند. درصورتی که اندیس گذاری را از قبل مشخص نکنیم به صورت پیش فرض با عدد صفر شروع می شود اما می توانیم آن را با کاراکتر ها نیز نمایش دهیم با کمک اندیس گذاری می توانیم به یک مقدار مشخص دسترسی پیدا کنیم

ساخت یک سری ساده با کمک متد pd.Series

				
					import pandas as pd
a = [11, 12, 13,14,15]
ser = pd.Series(a)
print(ser)

خط اول: وارد کردن کتاب خانه پانداس

2) ایجاد یک لیست از اعداد

3) تبدیل لیست به سری

4) چاپ محتوای Series با دستوری print

خروجی👇

				
					0    11
1    12
2    13
3    14
4    15
dtype: int64

ایندیس گذاری با استفاده از کاراکتر ها

تبدیل دیکشنری به سری

				
					d = {'a': "A", 'b': "B", 'c': "C"}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
print(ser)

ساخت دیکشنری d
تبدیل دیکشنری به سری
چاپ محتوای Series

خروجی👇

				
					a    A
b    B
c    C
dtype: object

همانطور که در کد بالا مشاهده می کنید سری ها را می توان با کمک دیکشنری ها نیز ایجاد کرد

آشنایی با خانواده الگوریتم YOLO

ادامه مطلب

ساخت سری با کمک کتابخانه numpy

				
					import numpy as np
data = np.array(['a','b','c','d'])
ser = pd.Series(data,index=["A","B","C","D"])
print(ser)

وارد کردن کتابخانه نامپای
لیستی از مقادیر سری ها را وارد می کنیم
لیست را به سری تبدیل می کنیم
چاپ محتوای Series

خروجی👇

				
					A    a
B    b
C    c
D    d
dtype: object

صدا زدن عناصر سری

برای دسترسی به هر کدام از عناصر موجود در سری شماره اندیس یا کاراکتر مربوط به آن را داخل [ ] قرار می دهیم

				
					print(ser["B"])

خروجی👇

DataFrame

دیتا فریم نوعی ساختار داده ای دیگر است که داده ها را به صورت جدول در سطر ها و ستون های برچسب دار قرار می دهد برای هرکدام از سطرها درصورتی که برچسب ها را از قبل تعیین نکنیم به صورت پیش فرض مقادیر 0 تا n-1 در نظر گرفته می شود. دیتا فریم ها را می توان با استفاده از یک یا چند لیست یا دیکشنری ایجاد کرد اندازه دیتا فریم ها نیز به سادگی قابل تغییر می باشد.

ساخت دیتا فریم با کمک یک لیست

				
					lst = ['Pizza', 'Sandwich', 'Pasta', 'Spaghetti', 'lasanya']
df = pd.DataFrame(lst)
df

یک لیست ساخته ایم
دیتا فریم خود را با استفاده از لیست ایجاد کردیم
df را صدا زدیم تا خروجی را ببینیم

خروجی👇

ساخت دیتا فریم با استفاده از دیکشنری

				
					dict = {'name':["Ali", "Mohammad", "Maryam", "zahra"],'Score': [18,19,19,17], 'age':[12, 14, 13, 15]}
df = pd.DataFrame(dict)
df

دیکشنری خود را ایجاد کردیم
تبدیل آن به دیتا فریم
df را صدا زدیم تا خروجی را ببینیم

خروجی👇

خواندن فایل های CSV

یک راه ساده برای ذخیره مجموعه داده های بزرگ، استفاده از فایل های CSV (فایل های جدا شده با کاما) است.

فایل‌های CSV حاوی متن ساده است و فرمت شناخته شده‌ای است که برای همه از جمله پانداس قابل خواندن است.

				
					import pandas as pd

df = pd.read_csv('data.csv')

print(df)

مشاهده داده ها

یکی از پرکاربردترین روش ها برای دریافت یک نمای کلی از DataFrame، متد head() است.

متد head() سرصفحه ها و تعداد مشخصی از ردیف ها را که از بالا شروع می شود، برمی گرداند.

مثال:
با چاپ 10 ردیف اول DataFrame یک نمای کلی سریع دریافت کنید:

				
					import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

خروجی👇

سخن پایانی

در این مقاله تعدادی از کاربرد ها و ویژگی های کتاخانه پانداس و مهم ترین ابزار های آن شامل سری ها و دیتافریم ها که برای پیش پردازش داده ها مورد استفاده قرار می گیرند را مورد بررسی و تحلیل قرار دادیم گنجاندن دنیای گستره پانداس در یک مقاله امکان پذیر نیست اما امیدواریم توانسته باشیم گامی کوچک را در این مسیر یادگیری در کنار شما برداشته باشیم

آموزش پانداس ادامه دارد…

آموزش کتابخانه پانداس (pandas) در پایتون

چند مورد از کاربرد های کتابخانه پانداس در حوزه های مختلف

پردازش زبان طبیعی

*سیستم های توصیه گر

*پیش بینی قیمت سهام

ويژگی های پانداس

*مدیرت داده های ازدست رفته

*تمیز کردن داده ها

*پشتیبانی از فرمت های مختلف فایل ها

نصب کتابخانه پانداس

چک کردن ورژن کتابخانه پانداس

دستکاری و پیش پردازش داده ها با کمک پانداس

Series در پانداس

ساخت یک سری ساده با کمک متد pd.Series

ایندیس گذاری با استفاده از کاراکتر ها

تبدیل دیکشنری به سری

ساخت سری با کمک کتابخانه numpy

صدا زدن عناصر سری

DataFrame

ساخت دیتا فریم با کمک یک لیست

ساخت دیتا فریم با استفاده از دیکشنری

خواندن فایل های CSV

مشاهده داده ها

مطالب زیر را حتما مطالعه کنید

دیدگاهتان را بنویسید لغو پاسخ

چند مورد از کاربرد های کتابخانه پانداس در حوزه های مختلف

پردازش زبان طبیعی

*سیستم های توصیه گر

*پیش بینی قیمت سهام

ويژگی های پانداس

*مدیرت داده های ازدست رفته

*تمیز کردن داده ها

*پشتیبانی از فرمت های مختلف فایل ها

نصب کتابخانه پانداس

چک کردن ورژن کتابخانه پانداس

دستکاری و پیش پردازش داده ها با کمک پانداس

Series در پانداس

ساخت یک سری ساده با کمک متد pd.Series

ایندیس گذاری با استفاده از کاراکتر ها

تبدیل دیکشنری به سری

ساخت سری با کمک کتابخانه numpy

صدا زدن عناصر سری

DataFrame

ساخت دیتا فریم با کمک یک لیست

ساخت دیتا فریم با استفاده از دیکشنری

خواندن فایل های CSV

مشاهده داده ها

مطالب زیر را حتما مطالعه کنید

آشنایی با خانواده الگوریتم YOLO

10 فریمورک برتر یادگیری عمیق در سال 2022

نقشه راه یادگیری عمیق-گام به گام و جامع

3 پردازنده‌ گرافیکی (GPU) رایگان برای آموزش مدل‌های یادگیری عمیق

آموزش کتابخانه Numpy (نامپای) در پایتون

ریاضیات پایه هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ