نگاهی به پدیده‌ی سوگیری جنسیتی در مدل‌های کامپیوتریِ پردازش تصویر و زبان طبیعی

آیا ممکن است کامپیوترها هم جانب‌دارانه رفتار کنند؟

نویسنده: نیما نبی‌زاده شهره حدادان

تاریخ: ۱۳ دی ۱۳۹۹

منبع: تکانه

زمان مطالعه: 7 دقیقه

آیا کامپیوترها هم میتوانند سوگیری داشته باشند و مثلا کلیشه‌های جنسیتی را تقویت کنند؟ پاسخ عجیب این سوال این است که متاسفانه بله. این مطلب توضیح می‌دهد که چرا و چگونه چنین می‌شود.

درباره‌ی جانب‌داری و سوگیری (Bias) در میان انسان‌ها زیاد (هرچند نه به اندازه‌ی کافی) صحبت شده است. قضاوت‌ها و تصمیم‌گیری‌های انسان‌ها احتمالا در هر دوره از زمان و در هر مکانی از زمین همواره با پیش‌داوری و جانب‌داری بر علیه «دیگرانی» همراه بوده. انسان‌ها گویا برای یافتن بهانه و دلیل برای سوگیری‌هایشان هرگز مشکلی نداشته‌اند: جنسیت، رنگ پوست، قومیّت، ملیت، مذهب، طبقه‌ی اجتماعی، و غیره برای انسان همواره کلیشه‌هایی ساخته که دیگران را با استفاده از آن‌ها پیش‌داوری کرده و نهایتا مورد تبعیض قرار داده است. در این مقاله تمرکز ما بیشتر بر روی سوگیری جنسیتی است، یکی از فراگیرترین انواع سوگیری که فارغ از جغرافیا و تاریخ همیشه و همه‌جا وجود داشته. حتی پیشرفته‌ترین و مدرن‌ترین مظاهر تمدن، از دانشگاه‌های معتبر غربی تا ابرشرکت‌های سیلیکون‌ولی هم هرگز از سوگیری‌ جنسیتی مبرا نبوده‌اند. پیشتر در مطلبی درباره‌ی تاریخ زنان در برنامه‌نویسی کامپیوتر، مفصل شرح داده شد که چگونه کلیشه‌های جنسیتی درباره‌ی توانایی‌های زن و مرد و نقششان در جامعه موجب عقب راندن زن‌ها در دانشگاه و صنعت شده است.

اما سوال ما در این مقاله درباره‌ی سوگیری در میان انسان‌ها نیست، بلکه ما می‌پرسیم آیا کامپیوترها هم میتوانند سوگیری داشته باشند و مثلا کلیشه‌های جنسیتی را تقویت کنند. این سوال ممکن است برای عده‌ای عجیب به نظر برسد، چرا که کامپیوترها عملا جز تعداد محدودی عملیات منطقی و محاسباتی بر روی مجموعه‌ای از صفر و یک قادر به انجام کار دیگری نیستند. چگونه ممکن است یک ابزار ساخته شده از فلز و پلاستیک روابط پیچیده‌ی قدرت و انواع و اقسام سلسله‌مراتب بین انسان‌ها را درک کرده و بر اساس آن تصمیم بگیرد. در بخشی از خاطرات آرلین گووندولین، زن سیاه‌پوستی که یکی از اولین برنامه‌نویسان کانادا است او می‌گوید «برای من آسان بود چرا که کامپیوتر اهمیت نمی‌داد که من زن یا سیاه‌پوست بودم…» اما آیا نگاه به آینده‌ و توانایی‌های این ابزار واقعا چنین چیزی را تایید می‌کند و می‌توان از طرف کامپیوترها خاطر جمع بود؟ آیا اگر کامپیوتری را مثلا مسئول سنجش توانایی‌های افراد برای استخدام کنیم تصمیم‌گیری کامپیوتر هم می‌تواند آلوده به سوگیری و پیش‌داوری باشد؟

پاسخ ما به این سوال و همچنین سوالی که در عنوان مقاله مطرح شده کوتاه است:‌ بله، متاسفانه کامپیوترها هم ممکن است سوگیری داشته باشند، به این دلیل بسیار ساده که آنها روش کارشان را از انسان و توسط داده‌هایی که انسان تولید کرده فرا می‌گیرند. در نتیجه آنها میتوانند اشتباهات انسان را به همان نسبت بازتولید کنند. برای اثبات این ادعا مثال‌های فراوانی وجود دارد.

سوگیری جنسیتی در مدل‌های بینایی رایانه‌ای

یکی از این مثال‌ها مدل‌های بینایی رایانه‌ای (Computer Vision) است. در سال‌های گذشته محققان مقالات فراوانی درباره سوگیری در مدل‌های بینایی کامپیوتر منتشر کرده اند، مثلا دریافته‌اند که فناوری‌های مبتنی بر هوش مصنوعی برای استخدام به طور ناعادلانه زنان را در فرآیند درخواست شغل غربال می‌کنند. یا مثلا شکایتی که از کمپانی فیسبوک شد به این دلیل که فناوری تشخیص چهره‌ای که به کمک آن گروه‌های هدف تبلیغات، مثلا تبلیغات خدمات مالی مثل بیمه و وام را مشخص می‌کنند زنان و به خصوص زنان رنگین‌پوست را از این گروه‌ها حذف می‌کرد.

یکی از پرکاربردترین وظایف مدلهای خودکار پردازش تصویر «برچسب‌گذاریِ» تصاویر است. هدف از برچسب‌‌گذاری تشخیص خودکار محتوای موجود در تصاویر است. مثلا اگر یک میز در تصویر وجود دارد مدل وظیفه دارد که محل وجود این میز در تصویر را با کلمه‌ی «میز» برچسب‌ بزند. مدل‌های خودکار برچسب‌گذاری تصاویر معمولا با حجم زیادی از تصاویر که از قبل دارای برچسب هستند آموزش می‌بینند و یاد می‌گیرند ویژگی‌ (feature)‌هایی از تصاویر را که به شناسایی محتویات تصویر کمک می‌کنند تشخیص دهند.

همچنین بخوانید: چرا تعداد کمی از مردان آثار نویسندگان زن را می‌خوانند؟

پیشتر در ترجمه‌ی مقاله‌ای از مجله‌ی وایرد نوشتیم زمانی که محققین اروپایی و آمریکایی تصاویر اعضای کنگره را به سرویس تشخیص چهره‌ی گوگل وارد کردند متوجه شدند که این سرویس در شناسایی تصاویر زنان سه برابر بیشتر از مردان از توصیفات ظاهری استفاده می‌کند. بیشترین برچسب‌های اعمال شده به تصاویر مردان عبارت بود از «مقام (official)» و «تاجر (businessperson)»، در حالیکه برای زنان بیشترین برچسب‌ها «لبخند» و «چانه» است.

در همان مقاله آمده که یکی از دلایل این سوگیری در مدل‌های بینایی کامپیوتری عدم توازن جنسیتی نقش‌های اجتماعی در داده‌های حجیمی است که مدل‌های پردازش تصویر به کمک آنها آموزش می‌بینند. مثلا در مجموعه‌داده‌های تصاویر، نمونه‌های خیلی بیشتری از تصاویر مردان شاغل در حوزه بازرگانی و کسب و کار نسبت به زنان فعال در همین حوزه وجود دارد. در چنین شرایطی قابل پیش‌بینی است که نرم‌افزارهای مبتنی بر یادگیری ماشینی که بر روی چنین مجموعه داده‌هایی آموزش می‌بینند سوگیری‌های موجود در برچسب‌های اطلاق شده به تصاویر را تقویت می‌کنند. تصور کنید مدل با کمک مجموعه‌ای از تصاویر آموزش دیده که در آن تصاویر مردان در نقش‌های سیاسی یا فنی هزاران بار بیشتر از تعداد تصاویر زنان با چنین نقش‌هایی است.

سرویس پردازش تصویر گوگل تمایل دارد مردانی مانند سناتور استیو داینس را به عنوان businessperson ببیند، اما زنان قانونگذار مانند لوسیل رویبال آلارد را با عناوینی مربوط به ظاهر برچسب‌گذاری می‌کند. منبع: وایرد

سوگیری جنسیتی در مدل‌های پردازش زبان طبیعی

یکی دیگر از این مثال‌ها مدل‌های پردازش زبان طبیعی‌اند، مدل‌هایی که به طور گسترده در انواع پردازش روی زبان طبیعی، مثلا ترجمه‌ی ماشینی یا تبدیل متن به گفتار و برعکس استفاده می‌شوند. در ادامه مثال‌هایی از تاثیر سوگیری جنسیتی در مدل‌های پردازش زبان طبیعی آورده شده:

ترجمه ماشینی: ترجمه‌ی «او (مرد) یک پرستار است. او(زن) یک دکتر است.» مثلا به مجارستانی و بازگشت به انگلیسی نتیجه می دهد: «او (زن) یک پرستار است. او (مرد) یک دکتر است.» (منبع)
تولید خودکار شرح برای تصویر: مدل به اشتباه زن را در تصویر مرد تشخیص می‌دهد به این دلیل که یک کامپیوتر نزدیک زن در تصویر است. (منبع)
بازشناسی گفتار: تشخیص خودکار گفتار با صدای مردانه بهتر از صدای زنانه کار می‌کند. (منبع)
تحلیل احساسات: برنامه جملات حاوی اسامی زنانه را با لحنی عصبانی‌تر از جملات حاوی اسامی مردانه طبقه‌بندی می‌کند. (منبع)
مدل‌های زبانی (تشخیص احتمال رشته‌ای از کلمات): «او(مرد) پزشک است» احتمال شرطی بالاتری نسبت به «او(زن) پزشک است» دارد. منظور از احتمال شرطی، احتمال دیدن کلمات در متن به شرط دیدن سایر کلمات است. مثلا در جمله‌ی «او پزشک است»، می‌توانید با روش‌های آماری احتمال دیدن کلمه‌ی «او» به شرط وجود کلمات «پزشک» و «است» پس از آن در متن را محاسبه کرد. (منبع)
بردار کلمات: قیاس‌هایی مانند نسبت زن به «خانه‌دار» برابر نسبت مرد به «برنامه‌نویس کامپیوتر» است به طور خودکار توسط مدل تولید می‌شود. (منبع)

در این بین وجود سوگیری در بردار کلمات اهمیت خاصی دارد، به این دلیل که این بردارها عملا ورودی اکثر مدل‌های پردازش زبان طبیعی هستند و سوگیری در عملکرد این مدل‌ها تا حد زیادی به اطلاعات نهفته در این بردارهای از پیش آماده‌ مربوط است.

در مقاله‌ای سعی کردیم به زبان ساده توضیح دهیم بردار کلمات چیست و چگونه ساخته میشود. در آن مقاله شرح داده شد که اساس ساختن بردار کلمات همواره پیدا کردن نسبت یک کلمه با سایر کلمات در متن است. همچنین روشی ساده را معرفی کردیم که با شمردن کلمات بعد و قبل از یک کلمه‌ی خاص در جمله بتوان یک بردار ساده برای آن کلمه ساخت. اینکه کلمات تا چه اندازه نزدیک به یکدیگر در متن ظاهر میشوند فاصله‌ی بین بردارهای ساخته شده برای کلمات را معین میکند.

همچنین بخوانید: حمام خانه‌ی پدربزرگ

لابد تابحال حدس زده‌اید که مشکل چنین بردارهایی چه می‌تواند باشد، بردارهای آموخته شده سوگیری‌های موجود در متن را بازتولید می‌کنند. مثلا اگر با متنی مواجه باشید که در آن اسامی مونث در محتوای خاصی، مثلا مربوط به مشاغلی مثل خانه‌داری، و اسامی مذکر در محتوای دیگری،‌ مثلا مربوط به مشاغل مهندسی وجود دارند،‌ اصلا عجیب نخواهد بود که بردار کلمات اسامی مونث به بردار کلمه‌ی «خانه‌دار» نزدیکتر و بردار اسامی مذکر به بردار کلمه‌ی «برنامه‌نویس» نزدیکتر باشد.

چگونه می‌توان با چنین سوگیری‌هایی مقابله کرد؟

برای زدودن سوگیری از مدل‌های پردازش تصویر و متن راهکارهای مختلفی ارائه شده که می‌توان آنها را ذیل دو گروه زیر طبقه‌بندی کرد:

۱- بهبود الگوریتم‌های آموزش

۲- دستکاری داده‌های آموزش

در گروه اول محققین سعی می‌کنند روش‌های یادگیری را به گونه‌ای اصلاح کنند که مدل با استفاده از همان داده‌ی قبلی سوگیری کمتری را انعکاس دهد. این روشها بعضا پیچیدگی‌های فراوانی دارند که جزییات هرکدام به نحوه‌ی عملکرد روش یادگیریِ مربوطه بستگی دارد و توضیح آنها از حوصله‌ی این متن خارج است.

گروه ‌دوم شامل راهکارهای می‌شود که با استفاده از آنها سعی می‌شود در داده‌ها‌ی آموزشی توازن بیشتری ایجاد کرد، به گونه‌ای که مدل با استفاده از همان روش‌های یادگیری گذشته سوگیری کمتری را نشان بدهد. برای این هدف، قدم اول شناسایی دلایل ایجاد سوگیری‌هاست. مثلا در حوزه‌ی بینایی کامپیوتری،‌ محققان با بررسی مجموعه‌ی ۹ میلیون عکس گوگل که برای آموزش‌ مدل‌های بینایی کامپیوتری استفاده می‌شوند، دریافتند که مردان بیشتر از زنان در صحنه‌های بیرونی و زمین‌های ورزشی برچسب‌گذاری می‌شوند زیرا تصاویر مردان با برچسب «لباس ورزشی» بیشتر در فضاهای باز مانند زمین بیس‌بال بود، در حالی که زنان در فضای بسته بازی می‌کردند یا لباس شنا به تن داشتند. برای رفع چنین عدم توازنی، محققین تصاویر بیشتری شامل زنان در فضای باز، از جمله در حال ورزش، را به داده اضافه می‌کنند.

در حوزه‌ی پردازش زبان طبیعی نیز به همین منوال قدم اول شناسایی عامل ایجاد سوگیری در داده هاست. مثلا درباره‌ی مثالِ سوگیری در بردارهای کلماتِ اسامی زن و مرد دربرابر مشاغلی مثل خانه‌داری یا مهندسی، یک روش ساده آن است که به صورت مصنوعی داده‌ای ایجاد کرد که چنین سوگیری‌ای در آن وجود نداشته و این داده را به داده‌ی اصلی آموزش اضافه کرد. به عنوان مثال می‌توان در متن اسامی مونث را با اسامی مذکر جایگزین کرد و متن دیگری برای آموزش مدل ایجاد کرد. مدلی که بر روی این متن و متن اصلی آموزش ببیند بردارهایی با توازن جنسیتی بیشتری برای اسامی افراد فرا خواهد گرفت.

نهایتا اینکه پیشرفت ناگزیر دانش و تکنولوژی امکانات فراوانی برای انسان مهیا می‌کند که چشم‌پوشی از آنها ممکن نیست. مدل‌های کامپیوتریِ پردازش تصویر و زبان طبیعی به طور گسترده در حیطه‌های مختلف زندگی انسان از پزشکی تا صنعت استفاده می‌شوند و امکانات بی‌بدیلی را برای ما فراهم می‌کنند. هرچند به این دلیل که اساس آموزش این مدل‌ها داده‌های تولید شده توسط انسان است، همواره این خطر نیز وجود دارد که کامپیوتر خطاها و زشتی‌های زندگی انسان را بازتولید کنند. به همین دلیل تشخیص و رفع این مشکلات اهمیت فراوانی دارد. به عبارت دیگر پیش از آموزش کامپیوترها و به کار گماردن آنها باید مطمئن شد که این ابزار با محتوای جنسیت‌زده و تبعیض‌آمیز تغذیه نشده است. تنها با نظارت دقیق و موشکافانه‌ی عملکرد مدل‌هاست که می‌توان چنین مشکلاتی را شناسایی کرده و آنها را رفع کرد.

0 نظر

دیدگاهتان را بنویسید لغو پاسخ