آیا ممکن است کامپیوترها هم جانبدارانه رفتار کنند؟
آیا کامپیوترها هم میتوانند سوگیری داشته باشند و مثلا کلیشههای جنسیتی را تقویت کنند؟ پاسخ عجیب این سوال این است که متاسفانه بله. این مطلب توضیح میدهد که چرا و چگونه چنین میشود.
دربارهی جانبداری و سوگیری (Bias) در میان انسانها زیاد (هرچند نه به اندازهی کافی) صحبت شده است. قضاوتها و تصمیمگیریهای انسانها احتمالا در هر دوره از زمان و در هر مکانی از زمین همواره با پیشداوری و جانبداری بر علیه «دیگرانی» همراه بوده. انسانها گویا برای یافتن بهانه و دلیل برای سوگیریهایشان هرگز مشکلی نداشتهاند: جنسیت، رنگ پوست، قومیّت، ملیت، مذهب، طبقهی اجتماعی، و غیره برای انسان همواره کلیشههایی ساخته که دیگران را با استفاده از آنها پیشداوری کرده و نهایتا مورد تبعیض قرار داده است. در این مقاله تمرکز ما بیشتر بر روی سوگیری جنسیتی است، یکی از فراگیرترین انواع سوگیری که فارغ از جغرافیا و تاریخ همیشه و همهجا وجود داشته. حتی پیشرفتهترین و مدرنترین مظاهر تمدن، از دانشگاههای معتبر غربی تا ابرشرکتهای سیلیکونولی هم هرگز از سوگیری جنسیتی مبرا نبودهاند. پیشتر در مطلبی دربارهی تاریخ زنان در برنامهنویسی کامپیوتر، مفصل شرح داده شد که چگونه کلیشههای جنسیتی دربارهی تواناییهای زن و مرد و نقششان در جامعه موجب عقب راندن زنها در دانشگاه و صنعت شده است.
اما سوال ما در این مقاله دربارهی سوگیری در میان انسانها نیست، بلکه ما میپرسیم آیا کامپیوترها هم میتوانند سوگیری داشته باشند و مثلا کلیشههای جنسیتی را تقویت کنند. این سوال ممکن است برای عدهای عجیب به نظر برسد، چرا که کامپیوترها عملا جز تعداد محدودی عملیات منطقی و محاسباتی بر روی مجموعهای از صفر و یک قادر به انجام کار دیگری نیستند. چگونه ممکن است یک ابزار ساخته شده از فلز و پلاستیک روابط پیچیدهی قدرت و انواع و اقسام سلسلهمراتب بین انسانها را درک کرده و بر اساس آن تصمیم بگیرد. در بخشی از خاطرات آرلین گووندولین، زن سیاهپوستی که یکی از اولین برنامهنویسان کانادا است او میگوید «برای من آسان بود چرا که کامپیوتر اهمیت نمیداد که من زن یا سیاهپوست بودم…» اما آیا نگاه به آینده و تواناییهای این ابزار واقعا چنین چیزی را تایید میکند و میتوان از طرف کامپیوترها خاطر جمع بود؟ آیا اگر کامپیوتری را مثلا مسئول سنجش تواناییهای افراد برای استخدام کنیم تصمیمگیری کامپیوتر هم میتواند آلوده به سوگیری و پیشداوری باشد؟
پاسخ ما به این سوال و همچنین سوالی که در عنوان مقاله مطرح شده کوتاه است: بله، متاسفانه کامپیوترها هم ممکن است سوگیری داشته باشند، به این دلیل بسیار ساده که آنها روش کارشان را از انسان و توسط دادههایی که انسان تولید کرده فرا میگیرند. در نتیجه آنها میتوانند اشتباهات انسان را به همان نسبت بازتولید کنند. برای اثبات این ادعا مثالهای فراوانی وجود دارد.
سوگیری جنسیتی در مدلهای بینایی رایانهای
یکی از این مثالها مدلهای بینایی رایانهای (Computer Vision) است. در سالهای گذشته محققان مقالات فراوانی درباره سوگیری در مدلهای بینایی کامپیوتر منتشر کرده اند، مثلا دریافتهاند که فناوریهای مبتنی بر هوش مصنوعی برای استخدام به طور ناعادلانه زنان را در فرآیند درخواست شغل غربال میکنند. یا مثلا شکایتی که از کمپانی فیسبوک شد به این دلیل که فناوری تشخیص چهرهای که به کمک آن گروههای هدف تبلیغات، مثلا تبلیغات خدمات مالی مثل بیمه و وام را مشخص میکنند زنان و به خصوص زنان رنگینپوست را از این گروهها حذف میکرد.
یکی از پرکاربردترین وظایف مدلهای خودکار پردازش تصویر «برچسبگذاریِ» تصاویر است. هدف از برچسبگذاری تشخیص خودکار محتوای موجود در تصاویر است. مثلا اگر یک میز در تصویر وجود دارد مدل وظیفه دارد که محل وجود این میز در تصویر را با کلمهی «میز» برچسب بزند. مدلهای خودکار برچسبگذاری تصاویر معمولا با حجم زیادی از تصاویر که از قبل دارای برچسب هستند آموزش میبینند و یاد میگیرند ویژگی (feature)هایی از تصاویر را که به شناسایی محتویات تصویر کمک میکنند تشخیص دهند.
پیشتر در ترجمهی مقالهای از مجلهی وایرد نوشتیم زمانی که محققین اروپایی و آمریکایی تصاویر اعضای کنگره را به سرویس تشخیص چهرهی گوگل وارد کردند متوجه شدند که این سرویس در شناسایی تصاویر زنان سه برابر بیشتر از مردان از توصیفات ظاهری استفاده میکند. بیشترین برچسبهای اعمال شده به تصاویر مردان عبارت بود از «مقام (official)» و «تاجر (businessperson)»، در حالیکه برای زنان بیشترین برچسبها «لبخند» و «چانه» است.
در همان مقاله آمده که یکی از دلایل این سوگیری در مدلهای بینایی کامپیوتری عدم توازن جنسیتی نقشهای اجتماعی در دادههای حجیمی است که مدلهای پردازش تصویر به کمک آنها آموزش میبینند. مثلا در مجموعهدادههای تصاویر، نمونههای خیلی بیشتری از تصاویر مردان شاغل در حوزه بازرگانی و کسب و کار نسبت به زنان فعال در همین حوزه وجود دارد. در چنین شرایطی قابل پیشبینی است که نرمافزارهای مبتنی بر یادگیری ماشینی که بر روی چنین مجموعه دادههایی آموزش میبینند سوگیریهای موجود در برچسبهای اطلاق شده به تصاویر را تقویت میکنند. تصور کنید مدل با کمک مجموعهای از تصاویر آموزش دیده که در آن تصاویر مردان در نقشهای سیاسی یا فنی هزاران بار بیشتر از تعداد تصاویر زنان با چنین نقشهایی است.
سوگیری جنسیتی در مدلهای پردازش زبان طبیعی
یکی دیگر از این مثالها مدلهای پردازش زبان طبیعیاند، مدلهایی که به طور گسترده در انواع پردازش روی زبان طبیعی، مثلا ترجمهی ماشینی یا تبدیل متن به گفتار و برعکس استفاده میشوند. در ادامه مثالهایی از تاثیر سوگیری جنسیتی در مدلهای پردازش زبان طبیعی آورده شده:
- ترجمه ماشینی: ترجمهی «او (مرد) یک پرستار است. او(زن) یک دکتر است.» مثلا به مجارستانی و بازگشت به انگلیسی نتیجه می دهد: «او (زن) یک پرستار است. او (مرد) یک دکتر است.» (منبع)
- تولید خودکار شرح برای تصویر: مدل به اشتباه زن را در تصویر مرد تشخیص میدهد به این دلیل که یک کامپیوتر نزدیک زن در تصویر است. (منبع)
- بازشناسی گفتار: تشخیص خودکار گفتار با صدای مردانه بهتر از صدای زنانه کار میکند. (منبع)
- تحلیل احساسات: برنامه جملات حاوی اسامی زنانه را با لحنی عصبانیتر از جملات حاوی اسامی مردانه طبقهبندی میکند. (منبع)
- مدلهای زبانی (تشخیص احتمال رشتهای از کلمات): «او(مرد) پزشک است» احتمال شرطی بالاتری نسبت به «او(زن) پزشک است» دارد. منظور از احتمال شرطی، احتمال دیدن کلمات در متن به شرط دیدن سایر کلمات است. مثلا در جملهی «او پزشک است»، میتوانید با روشهای آماری احتمال دیدن کلمهی «او» به شرط وجود کلمات «پزشک» و «است» پس از آن در متن را محاسبه کرد. (منبع)
- بردار کلمات: قیاسهایی مانند نسبت زن به «خانهدار» برابر نسبت مرد به «برنامهنویس کامپیوتر» است به طور خودکار توسط مدل تولید میشود. (منبع)
در این بین وجود سوگیری در بردار کلمات اهمیت خاصی دارد، به این دلیل که این بردارها عملا ورودی اکثر مدلهای پردازش زبان طبیعی هستند و سوگیری در عملکرد این مدلها تا حد زیادی به اطلاعات نهفته در این بردارهای از پیش آماده مربوط است.
در مقالهای سعی کردیم به زبان ساده توضیح دهیم بردار کلمات چیست و چگونه ساخته میشود. در آن مقاله شرح داده شد که اساس ساختن بردار کلمات همواره پیدا کردن نسبت یک کلمه با سایر کلمات در متن است. همچنین روشی ساده را معرفی کردیم که با شمردن کلمات بعد و قبل از یک کلمهی خاص در جمله بتوان یک بردار ساده برای آن کلمه ساخت. اینکه کلمات تا چه اندازه نزدیک به یکدیگر در متن ظاهر میشوند فاصلهی بین بردارهای ساخته شده برای کلمات را معین میکند.
لابد تابحال حدس زدهاید که مشکل چنین بردارهایی چه میتواند باشد، بردارهای آموخته شده سوگیریهای موجود در متن را بازتولید میکنند. مثلا اگر با متنی مواجه باشید که در آن اسامی مونث در محتوای خاصی، مثلا مربوط به مشاغلی مثل خانهداری، و اسامی مذکر در محتوای دیگری، مثلا مربوط به مشاغل مهندسی وجود دارند، اصلا عجیب نخواهد بود که بردار کلمات اسامی مونث به بردار کلمهی «خانهدار» نزدیکتر و بردار اسامی مذکر به بردار کلمهی «برنامهنویس» نزدیکتر باشد.
چگونه میتوان با چنین سوگیریهایی مقابله کرد؟
برای زدودن سوگیری از مدلهای پردازش تصویر و متن راهکارهای مختلفی ارائه شده که میتوان آنها را ذیل دو گروه زیر طبقهبندی کرد:
۱- بهبود الگوریتمهای آموزش
۲- دستکاری دادههای آموزش
در گروه اول محققین سعی میکنند روشهای یادگیری را به گونهای اصلاح کنند که مدل با استفاده از همان دادهی قبلی سوگیری کمتری را انعکاس دهد. این روشها بعضا پیچیدگیهای فراوانی دارند که جزییات هرکدام به نحوهی عملکرد روش یادگیریِ مربوطه بستگی دارد و توضیح آنها از حوصلهی این متن خارج است.
گروه دوم شامل راهکارهای میشود که با استفاده از آنها سعی میشود در دادههای آموزشی توازن بیشتری ایجاد کرد، به گونهای که مدل با استفاده از همان روشهای یادگیری گذشته سوگیری کمتری را نشان بدهد. برای این هدف، قدم اول شناسایی دلایل ایجاد سوگیریهاست. مثلا در حوزهی بینایی کامپیوتری، محققان با بررسی مجموعهی ۹ میلیون عکس گوگل که برای آموزش مدلهای بینایی کامپیوتری استفاده میشوند، دریافتند که مردان بیشتر از زنان در صحنههای بیرونی و زمینهای ورزشی برچسبگذاری میشوند زیرا تصاویر مردان با برچسب «لباس ورزشی» بیشتر در فضاهای باز مانند زمین بیسبال بود، در حالی که زنان در فضای بسته بازی میکردند یا لباس شنا به تن داشتند. برای رفع چنین عدم توازنی، محققین تصاویر بیشتری شامل زنان در فضای باز، از جمله در حال ورزش، را به داده اضافه میکنند.
در حوزهی پردازش زبان طبیعی نیز به همین منوال قدم اول شناسایی عامل ایجاد سوگیری در داده هاست. مثلا دربارهی مثالِ سوگیری در بردارهای کلماتِ اسامی زن و مرد دربرابر مشاغلی مثل خانهداری یا مهندسی، یک روش ساده آن است که به صورت مصنوعی دادهای ایجاد کرد که چنین سوگیریای در آن وجود نداشته و این داده را به دادهی اصلی آموزش اضافه کرد. به عنوان مثال میتوان در متن اسامی مونث را با اسامی مذکر جایگزین کرد و متن دیگری برای آموزش مدل ایجاد کرد. مدلی که بر روی این متن و متن اصلی آموزش ببیند بردارهایی با توازن جنسیتی بیشتری برای اسامی افراد فرا خواهد گرفت.
نهایتا اینکه پیشرفت ناگزیر دانش و تکنولوژی امکانات فراوانی برای انسان مهیا میکند که چشمپوشی از آنها ممکن نیست. مدلهای کامپیوتریِ پردازش تصویر و زبان طبیعی به طور گسترده در حیطههای مختلف زندگی انسان از پزشکی تا صنعت استفاده میشوند و امکانات بیبدیلی را برای ما فراهم میکنند. هرچند به این دلیل که اساس آموزش این مدلها دادههای تولید شده توسط انسان است، همواره این خطر نیز وجود دارد که کامپیوتر خطاها و زشتیهای زندگی انسان را بازتولید کنند. به همین دلیل تشخیص و رفع این مشکلات اهمیت فراوانی دارد. به عبارت دیگر پیش از آموزش کامپیوترها و به کار گماردن آنها باید مطمئن شد که این ابزار با محتوای جنسیتزده و تبعیضآمیز تغذیه نشده است. تنها با نظارت دقیق و موشکافانهی عملکرد مدلهاست که میتوان چنین مشکلاتی را شناسایی کرده و آنها را رفع کرد.