اصل پارتو و کتابخانههای پانداس
تسلط کامل بر یک کتابخانهی پایتون مانند پانداس برای هر کسی میتواند چالش برانگیز باشد. اگر یک قدم به عقب برداریم و بیاندیشیم؛ آیا واقعاً نیاز است با جزئیات یک کتابخانهی خاصی آشنا باشیم؟ بخصوص در دنیایی زندگی میکنیم که با اصل پارتو (Pareto principle) اداره میگردد. همچنین اصل پارتو بعنوان قانون 20-80 نیز شناخته میشود.
این اصل بیان میکند که %20 از ورودیهای شما همیشه در تولید %80 از خروجیهای شما نقش دارند. بنابراین در این پست تلاش کردهایم اصل پارتو را در کتابخانهی پانداس اعمال کنیم؛ یعنی %20 از توابع خاص پانداس را به شما معرفی مینمائیم که احتمالاً %80 از وقت خود را با آنها میگذرانید. روشهای زیر برای شروع پانداس ضروری هستند.
1. خواندن فایل csv
اگر بخواهید یک فایل csv را در پانداس بخوانید باید از روش
( )pd.read_csv استفاده کنید که در شکل زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
2. ذخیره سازی دیتافریم در یک فایل csv
اگر بخواهید دیتافریم را در یک فایل بصورت csv ذخیره سازی کنید باید از روش
( )to_csv استفاده نمائید که در شکل زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
3. ساخت دیتافریم از تعدادی لیستی
اگر بخواهید از لیستها، دیتافریم بسازید باید از روش
( )pd.DataFrame استفاده کنید که در شکل زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
4. ساخت دیتافریم از دیکشنری
اگر بخواهید یک دیتافریم از دیکشنری بسازید باید از روش
( )pd.DataFrame استفاده کنید. که در شکل زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
5. ادغام دیتافریمها
عمل ادغام در دیتافریمها همان عمل پیوستن (Join) در SQL است که از آن برای پیوستن دو دیتافریم در یک یا چند ستون استفاده میکنیم. همچنین اگر بخواهید دو دیتافریم را ادغام کنید باید از روش ( )pd.merge استفاده نمائید که در شکل زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
6. مرتب سازی دیتافریم
اگر بخواهید یک دیتافریم را بر اساس مقادیر موجود در یک ستون خاص مرتب کنید باید از روش ( )sort_values استفاده کنید که در شکل زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
7. به هم پیوستن دیتافریمها
اگر بخواهید دیتافریمها را با هم الحاق کنید باید از روش
()pd.concat استفاده کنید که بصورت زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
- axis = 1 انباشته کردن ستونها باهم
- axis = 0 انباشته کردن ردیفها باهم
8. تغییر نام ستون
اگر بخواهید نام یک ستون یا چندین ستون را در دیتافریم تغییر دهید باید از روش
( )rename استفاده کنید که بصورت زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
9. اضافه کردن ستون جدید
اگر بخواهید یک ستون جدید به دیتافریم اضافه کنید میتوانید عمل تخصیص را بصورت زیر انجام دهید:
10. فیلتر کردن دیتافریم بر اساس شرط
اگر بخواهید ردیفهای دیتافریم را بر اساس یک شرط فیلتر کنید میتوانید این کار را بصورت زیر که نشان داده شده است انجام دهید:
11. حذف ستونها
اگر بخواهید یک یا چند ستون از دیتافریم را حذف کنید باید از روش ( )drop استفاده کنید که در زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
12. روش GroupBy:
اگر بخواهید عمل تجمیع را بعد از دستهبندی انجام دهید باید از روش
( )groupby استفاده کنید که بصورت زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
13. مقادیر یکتا (یونیک) در یک ستون
اگر بخواهید مقادیر یونیک را در یک ستون از دیتافریم شمارش کنید باید از روش
( )nunique استفاده کنید. همچنین برای چاپ مقادیر یونیک در یک ستون از دیتافریم میتوان از روش ( )unique استفاده کرد. از این دو روش در شکل زیر استفاده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
14. پر کردن مقادیر NaN:
اگر میخواهید در یک ستون مقادیر NaN را با مقادیر دیگر جایگزین کنید باید از روش
( )fillna استفاده کنید که بصورت زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
15. اعمال تابع روی یک ستون:
اگر میخواهید یک تابع را در یک ستون اعمال کنید باید از روش
( )apply استفاده نمائید که بصورت زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
16. حذف تکراریها:
اگر میخواهید مقادیر تکراری (duplicate values) را حذف کنید باید از روش
( )drop_duplicates استفاده کنید که بصورت زیر نشان داده شده است:
برای توضیحات بیشتر اینجا کلیک نمائید
17. روش شمارش مقادیر (Value Counts):
اگر میخواهید فراوانی هر مقدار را در یک ستون پیدا کنید باید از روش
( )value_counts استفاده کنید که بصورت زیر نشان داده شده است:
. اندازهی دیتافریم:
اگر میخواهید سایز یا اندازهی دیتافریم را پیدا کنید باید از shape استفاده کنید که بصورت زیر است:
در این پست، برخی از متداولترین روشها در پانداس را پوشش دادیم تا در شروع به شما کمک نماید. این توابع و روشها به شما در فرایند یادگیری، بسیار کمک خواهد نمود. اکیداً توصیه میکنیم که یک دیتافریم از خودتان ایجاد کنید و یا بیابید و در jupyter notebook موارد ذکر شده را تمرین کنید.
علاوه بر این بهترین راه برای افزایش دانش مراجعه به مستندات رسمی پانداس است که میتوانید به آدرس زیر مراجعه کنید:
/https://pandas.pydata.org/docs
متشکرم از اینکه این مقاله را مطالعه کردید، امیدوارم برای شما مفید بوده باشد.
مترجم: علی محمدی
منبع:
***در صورتی که تمایل دارید در حوزهی علم داده، بروز باشید و بمانید، اکیداً توصیه میکنیم که صفحهی اینستاگرام علم داده را دنبال نمائید که روزانه پستهای در این حوزهی کاربردی، منتشر مینماید. همچنین با مراجعه به این صفحه میتوانید کتابهای سطحبندی شده در این رشته که توسط ما معرفی شدهاند را ببینید.***
لیستی از مهمترین توابع پانداس که مورد نیاز دانشمندان داده است
دیتافریم ,نمائید ,داده ,نشان ,ستون ,توضیحات ,نشان داده ,توضیحات بیشتر اینجا کلیک ,بیشتر اینجا کلیک نمائید ,برای توضیحات ,کنید باید ,برای توضیحات بیشتر اینجا کلیک ,توضیحات بیشتر اینجا کلیک نمائید ,اکیداً توصیه میکنیم