آموزش حذف کاراکتر تکراری از رشته در پایتون

ویدئو های آموزشی
سه شنبه 08 خرداد 1403
جهت مطالعه این مقاله به 10 دقیقه زمان نیاز دارید
آنچه در این مقاله خواهیم خواند:

مقدمه

در پروسه‌های پردازش متن، اغلب نیاز است که کاراکتر های تکراری یا غیرمورد نیاز از رشته حذف شوند. در این مقاله، به روش های مختلف حذف کاراکتر تکراری از رشته در پایتون می‌پردازیم. ما از روش هایی مانند استفاده از متد های maketrans، replace و translate برای این کار استفاده خواهیم کرد.

کاراکتر: پایه‌ای ترین واحد اطلاعاتی در پردازش متن

در دنیای علوم کامپیوتر و پردازش متن، کاراکتر (Character) یکی از اساسی ترین و پایه ای ترین مفاهیمی است که همه برنامه‌نویسان و متخصصان باید به خوبی با آن آشنا باشند. کاراکترها در همه چیز از نمایش متن در صفحات وب گرفته تا ذخیره داده‌ها در پایگاه داده و حتی انتقال اطلاعات در شبکه‌ها، نقش کلیدی دارند.

تعریف کاراکتر

کاراکتر به کوچکترین واحد اطلاعاتی در متن گفته می‌شود که می‌تواند شامل حروف، اعداد، علائم نگارشی، فاصله‌ها و نشانه‌های خاص باشد. هر کاراکتر نمایانگر یک نماد گرافیکی است که به وسیله انسان‌ها برای خواندن و نوشتن استفاده می‌شود. به عبارت دیگر، کاراکترها اجزای تشکیل دهنده‌ی هر نوع متن نوشتاری هستند.

 

انواع کاراکترها

الفبایی (Alphabetic Characters):

شامل حروف کوچک و بزرگ انگلیسی (a-z, A-Z).حروف الفبای دیگر زبان ها مانند الفبای عربی، الفبای سیریلیک و غیره.

 

اعداد (Numeric Characters):

اعداد دهدهی (0-9).اعداد در مبناهای مختلف مانند هگزادسیمال (0-9, A-F).

علائم نگارشی (Punctuation Marks):

شامل نقطه، ویرگول، نقطه ویرگول، علامت سؤال، علامت تعجب و غیره.
 

کاراکترهای کنترلی (Control Characters):

کاراکتر هایی که برای کنترل نمایش متن یا مدیریت داده ها در محیط های کامپیوتری استفاده می‌شوند، مانند کاراکترهای خط جدید (newline)، بازگشت به ابتدا (carriage return) و تب (tab).
 

کاراکترهای ویژه (Special Characters):

شامل کاراکترهایی مانند @، #، $، %، ^، &، *، و غیره که در برنامه‌نویسی و نگارش متون تخصصی مورد استفاده قرار می‌گیرند.

نمایش و ذخیرهسازی کاراکترها:

در کامپیوترها، هر کاراکتر به یک مقدار عددی منحصر به فرد که به عنوان کد کاراکتر (Character Code) شناخته می‌شود، نگاشت می‌شود. این کدها به صورت باینری (صفر و یک) ذخیره می‌شوند و سیستم‌های کامپیوتری با استفاده از این کدها کاراکترها را پردازش و نمایش می‌دهند.

مطالب مرتبط: آموزش پایتون برای کودکان

 

سیستمهای کدگذاری کاراکتر:

ASCII (American Standard Code for Information Interchange):

یک سیستم کدگذاری هفت بیتی است که 128 کاراکتر را پوشش می‌دهد. این کاراکترها شامل حروف انگلیسی، اعداد، علائم نگارشی و چند کاراکتر کنترلی هستند.
Extended ASCII:
نسخه توسعه یافته ASCII که از هشت بیت برای هر کاراکتر استفاده می‌کند و 256 کاراکتر را پوشش می‌دهد. این نسخه شامل کاراکترهای اضافی برای زبانهای غیر انگلیسی و علائم گرافیکی است.

 

Unicode:

یک سیستم کدگذاری جهانی که هدف آن پوشش دادن همه کاراکترهای مورد استفاده در زبان‌های مختلف دنیاست. Unicode از چندین فرمت مختلف مانند UTF-8، UTF-16 و UTF-32 استفاده می‌کند و بیش از یک میلیون کاراکتر را پوشش می‌دهد.

نحوه کارکرد Unicode :

Unicode به هر کاراکتر یک کد یکتای جهانی اختصاص می‌دهد که به آن کدپوینت (Code Point) گفته می‌شود. این کدپوینت‌ها به صورت U+XXXX نمایش داده می‌شوند که XXXX نشان‌دهنده مقدار هگزا دسیمال کد کاراکتر است. به عنوان مثال، کدپوینت حرف 'A' در Unicode برابر U+0041 و کدپوینت کاراکتر '?' برابر U+1F60A است.

پردازش کاراکترها:

پردازش کاراکتر ها در سیستم های کامپیوتری شامل عملیات هایی مانند ورود، نمایش، ذخیره سازی، جستجو و تغییر متن است. زبان های برنامه‌نویسی مختلف ابزارها و توابع متنوعی برای کار با کاراکتر ها فراهم می‌کنند. برای ورود و نمایش کاراکترها در زبان پایتون، میتوانیم از تابع input برای دریافت ورودی کاراکتر از کاربر و از تابع print برای نمایش آن استفاده کنیم.

بیشتر بخوانید: دیکشنری در پایتون

استفاده از Unicode در پایتون :

پایتون به طور پییش‌فرض از Unicode برای پردازش متن استفاده می‌کند. می‌توانیم از کاراکترهای Unicode در رشته‌ها به راحتی استفاده کنیم.


 "?" = emoji 

; Output print(emoji)#

?

استفاده از متد replace :

این متد به ما اجازه می‌دهد که یک الگوی مشخص را در رشته جایگزین کنیم. برای حذف کاراکتر تکراری، می‌توانیم از این متد با انتخاب تک کاراکتر هایی که می‌خواهیم حذف شوند استفاده کنیم.


"myString = "this is a test form Poulstar test
print(myString.replace("test", "", 2))

استفاده از متد maketrans و translate :

این روش از ترجمه جدولی برای جایگزینی کاراکتر ها استفاده می‌کنیم. در اینجا، ابتدا یک جدول ترجمه (table) با استفاده از متد maketrans ایجاد می‌کنیم، سپس با استفاده از متد translate کارکتر های مورد نظر حذف می‌شوند.

"!myString = "nipt test for 3th way
table = myString.maketrans(x, y)
print(myString.translate(table))

استفاده از تکنیک Slicing:

این روش با استفاده از عملگر  Slicing در پایتون، به شما اجازه می‌دهد که قسمتی از رشته را حذف کنید.

"myString = "lets do it again
print(myString[:-5])

 

مطالب بیشتر: آموزش نصب پایتون

 

نتیجه گیری:

کاراکتر ها به عنوان کوچک ترین واحد اطلاعاتی در متن، نقش حیاتی در پردازش متن و ارتباطات دیجیتال ایفا می‌کنند. شناخت انواع مختلف کاراکتر ها، نحوه کدگذاری و نمایش آن‌ها و ابزار های موجود برای پردازش کاراکترها در زبان‌های برنامه‌نویسی، از ضروریات مهارت‌های هر برنامه‌نویس و متخصص علوم کامپیوتر است. استانداردهایی مانند ASCII و Unicode به ما کمک می کنند تا متون را به صورت یکپارچه و قابل فهم برای ماشین‌ها و انسان‌ها پردازش و تبادل کنیم. در این مقاله ما با استفاده از متدهای replace، maketrans و translate همچنین تکنیک Slicing نحوه حذف کاراکتر های تکراری از رشته را در پایتون آموختیم. این روش ها بسته به نیازهای خاص شما، می توانند مورد استفاده قرار بگیرند.

موسسه پل استار یک موسسه شتابدهی استعداد در حوزه آموزش برنامه نویسی برای کودکان و نوجوانان است. این موسسه با برگزاری دوره‌های برنامه‌نویسی، رباتیک و هوش مصنوعی مخصوص کودکان و نوجوانان باعث کشف و رشد خلاقیت کودکان و نوجوانان می‌شود. از این رو پیشنهاد می‌شود پس از مطالعه این مقاله با مشاورین این موسسه تماس حاصل فرمایید تا اطلاعات تکمیلی را دریافت نمایید.
 

همچنین در ادامه بخوانید:
آموزش حل معادله درجه دو و درجه سه در پایتون
آموزش حل معادله درجه دو و درجه سه در پایتون
معادلات درجه دو و درجه سه از مفاهیم و مسائل اساسی ریاضی می‌باشند که در بخش‌های زیادی از علوم مختلف مانند فیزیک، مهندسی و همچنین علوم کامپیوتر و برنامه‌نویسی کاربرد دارند. حل کردن معادلات درجه دو و سه به صورت دستی می‌تواند زمان‌بر باشد ولی برنامه‌نویس‌ها می‌توانند با استفاده از زبان‌های برنامه‌نویسی مانند پایتون، پروسه حل این مسائل را سریع‌تر طی کنند. در این مقاله حل معادله‌های درجه دو و درجه سه را با کمک زبان برنامه‌نویسی کامپیوتر پایتون را با استفاده از مثال بررسی می‌کنیم.
آموزش رسم نمودار در پایتون (سه بعدی، هیستوگرام، میله ای)
آموزش رسم نمودار در پایتون (سه بعدی، هیستوگرام، میله ای)
در این مقاله، به طور جامع به آموزش رسم نمودار با پایتون می‌پردازیم. ما انواع مختلفی از نمودارها را بررسی می‌کنیم، از جمله رسم نمودار سه بعدی در پایتون، هیستوگرام، نمودارهای میله‌ای و نمودارهای دایره‌ای.
آموزش ساخت بازی مار با پایتون + ویدئوی آموزشی
آموزش ساخت بازی مار با پایتون + ویدئوی آموزشی
در این مقاله، ما قصد داریم یک نگاه کلی به ساخت یک بازی ساده‌ی مار با استفاده از زبان برنامه‌نویسی پایتون و کتابخانه‌ی Tkinter را بررسی کنیم. بازی مار یک بازی کلاسیک و محبوب است که الگوی حرکت ساده‌ای دارد و برای مبتدیان نیز بسیار مناسب است.
معرفی انواع کد های برنامه نویسی پایتون
معرفی انواع کد های برنامه نویسی پایتون
پایتون یک زبان برنامه نویسی سطح بالا و همه فن حریف است. سطح بالا به این معنی که قواعد و دستورات آن بسیار شبیه به زبان انسان است و یادگیری دستورات آن به نسبت زبان های برنامه نویسی دیگر بسیار ساده‌تر است. این مزیت باعث شده تا شاخه‌های مختلف علم برای کار‌های کامپیوتری خود به سراغ این زبان بروند که شبکه‌های کامپیوتری و هوش مصنوعی نمونه‌هایی از این گرایش‌ها هستند.
آموزش چاپ اعداد زوج در پایتون
آموزش چاپ اعداد زوج در پایتون
در این مقاله، به طور خاص به آموزش چاپ اعداد زوج در پایتون می‌​پردازیم. این موضوع مهم به ما امکان می​‌دهد تا با یکی از اصول ابتدایی برنامه‌​نویسی در پایتون آشنا شویم و با استفاده از این زبان، عملیات ساده چاپ اعداد زوج را انجام دهیم. بنابراین، در این مقاله به توضیح روش‌​های مختلف برای انجام این کار می​‌پردازیم تا باهم بتوانیم به راحتی اعداد زوج را در پایتون چاپ کرده و از این مهارت در پروژه​‌ها و برنامه​‌های خود استفاده کنیم.
آموزش ساخت جدول ضرب در پایتون + معرفی کدهای آن
آموزش ساخت جدول ضرب در پایتون + معرفی کدهای آن
ساخت جدول ضرب یکی از مهم‌ترین مباحث ریاضی است که اساسی‌ترین مفهوم آن را برای دانش‌آموزان میسر می‌کند. در این مقاله، ما به بررسی و آموزش ساخت جدول ضرب در پایتون با روش‌های مختلف پیاده‌سازی آن می‌پردازیم.