پتانسیل رادیکال دادههای بزرگ
دادههای بزرگ یا بیگ دیتا امروزه یکی از مهمترین و ارزشمندترین کالاهای سرمایهداری است. هر روز به شرکتها و سرویسهایی که در واقع از راه تحلیل و جمعآوری دادههای بزرگ درآمد کسب میکنند افزوده میشود. دادههای بزرگ در حال حاضر جهت پیشبینی رفتار انسانها جهت سودآوری بیشتر و کنترل سیاسی مورد استفاده قرار میگیرد. اما آیا این تنها پتانسیل این دادههاست؟ این متن سعی میکند به این سوال پاسخ دهد.
امروزه دادههای بزرگ برای به پیشراندن سود و زیرنظر گرفتن شهروندان به کار میرود. اما چه میشود اگر آن را به نفع جامعه به کار بیاندازیم؟ اوراکل غول دنیای نرمافزار، بیگ دیتا یا دادههای بزرگ را «الکتریسیته قرن بیست و یکم خوانده – نوعی انرژی جدید که هر چیزی را که لمس کند در تجارت، حکومت و زندگی شخصی تغییر خواهد داد».
البته هیچ توافقی در این مورد که دادههای بزرگ یا بیگ دیتا دقیقا به چه معناست وجود ندارد اما مدافعان و مخالفان توافق دارند که این مفهوم در حال تغییر دنیا است. مبلغان با اطمینان از این میگویند که تجمیع دادههای پیچیده در حال افزایش و ترکیب آن با روشهای جدید ذخیرهسازی، دسترسی و تحلیل هر کاری که ما می کنیم را متحول خواهد کرد، از تحقیقات ساده علمی تا روش مدیریت تعاملات اجتماعی. دانشمندان دادهی پیشرویی همچون الکس پتلند میگویند ما شاهد تغییری بنیادین به سمت «جامعه هدایت شونده با داده» هستیم که میتواند «عادلانهتر و موثرتر» باشد.
هیچ توافقی در این مورد که دادههای بزرگ یا بیگ دیتا دقیقا به چه معناست وجود ندارد اما مدافعان و مخالفان توافق دارند که این مفهوم در حال تغییر دنیا است.
مخالفین هم نظرات خودشان را دارند. مجله ادباسترز که نشریهای ضد مصرفی است، اخیرا با اعلام مرگ دولت-ملتها اعلام کرده که این حکومتها تسلیم ماشین اقتصادی جهانی، محاسبات و الگوریتمهای محاسباتی دادههای بزرگ شدهاند. پم دیکسون– مدیر اجرایی فروم جهانی پرایوسی- میگوید ما در آستانه آینده تاریکی و ضد آرمانشهریای هستیم که توسط فیلیپ دیک در داستانهایی مانند گزارش اقلیت ترسیم شده بود که در آن پیشبینیهای الگوریتمهای مبتنی بر دادههای بزرگ میتواند «مشخص کننده سرنوشت» انسانها باشد.
ولی این بیگ دیتا یا دادههای بزرگ که از آن حرف میزنیم چیست و به کدام نظریه باید باور داشته باشیم؟
هیچ عنصر واحدی نیست که دادههای بزرگ را از دادههای سنتی و «کوچک» جدا کند. جمعآوری دادههای بزرگ چیز جدیدی نیست و حتی در ۱۹۲۴ نیز سازمانی تلاش میکرد بیش از ۷۵۰هزار عنصر اطلاعاتی حاوی «وضعیت فیزیکی، روانی و مزاجی» خانوادههای آمریکایی را جمعآوری و مدیریت کند و در پروژهای حتی بزرگتر، سازمان بیمه اجتماعی آمریکا اطلاعات بیش از ۲۶ میلیون نفر را در دهه ۱۹۳۰ با بیش از ۵۰۰هزار کات پانچ مدیریت میکرد.
مجله ادباسترز که نشریهای ضد مصرفی است، اخیرا با اعلام مرگ دولت-ملتها اعلام کرده که این حکومتها تسلیم ماشین اقتصادی جهانی، محاسبات و الگوریتمهای محاسباتی دادههای بزرگ شدهاند.
چیزی که دادههای بزرگ را از چنین پروژههایی مجزا میکند، وسعت و حوزه کاری چیزی است که جمعآوری و تحلیل میشود. این تفاوت معمولا با عبارت «سه V» که در انگلیسی ابتدای سه کلمه Volume (اندازه)، Variety (تنوع) و Velocity (سرعت) است مشخص میشود. اندازه دادهای که حالا در حال جمعآوری شدن است، سرگیجه آور است. بیش از ۳ میلیون دیتاسنتر در همه جهان وجود دارد، و مراکز داده آمریکا مسئول مصرف حدود ۲ درصد کل مصرف برق کشور هستند. آمریکاییها در هر دقیقه بیش از دویست ساعت ویدئو و روزانه بیش از ۵۰۰میلیون عکس به این مراکز آپلود میکنند و اضافه کردن اطلاعات دیجیتال ایمیلها، تبادلات بانکی، وب، سوابق پزشکی و نرمافزارهای موبایلی هر لحظه در حال افزایش است.
این افزایش سریع اندازه با پردازش سریعتر و کاراتر نیز همراه شده است. در ۲۰۱۲، فیسبوک روزانه بیش از ۵۰۰ ترابایت اطلاعات را تحلیلی میکرد- پنجاه برابر تمام مجموعه چاپشده کتابخانه کنگره آمریکا. این روند در آینده هم ادامه خواهد داشت. حالا که دستگاههای بیشتر و بیشتر در حال مجهز شدن به حسگرهای سیمدار و بیسیم هستند و میتوانند مستقل از رابط انسانی به بانکهای اطلاعاتی بزرگ متصل شوند – چیزی که به آن «اینترنت چیزها» میگویند – اندازه و تنوع این اطلاعات عظیم دائما نیز افزایش خواهد یافت.
اندازه دادهای که حالا در حال جمعآوری شدن است، سرگیجه آور است. بیش از ۳ میلیون دیتاسنتر در همه جهان وجود دارد، و مراکز داده آمریکا مسئول مصرف حدود ۲ درصد کل مصرف برق کشور هستند.
جذابیت بیگ دیتا کاملا مشخص است. دولتها این پتانسیل را دارند که سیاستها و فعالیتهایشان را عقلانی کنند، از در تهدیدات سیاسی گرفته تا تغییر خروجی کلاسهای درسی چیزی است که دولتها را جذب این تکنولوژی جدید کرده. برای شرکتها هم ارتباطات آماریای که توسط بیگ دیتا آشکار شده، فرصت جدیدی است برای سودآوری بالاتر. فعالیتهای تصمیمگیری شده توسط داده، آنگونه که مبلغان شرکتها میگویند، میتواند باعث بالا رفتن بهرهوری و تولید شود، هزینهها را کاهش دهد، مشتریان احتمالی را تشخیص دهد و حتی بازارهای جدید را کشف کند.
ولی چیزی که در این میان توجه چندانی به آن نشده، این است که جمعآوری حجم بزرگی داده خام به تنهایی مفید یا سودآور نیست. اهمیت این صنعت در وعدهای است که در مورد پردازش این اطلاعات میدهد و فهم روابط میان متغیرها پس از تحلیل دادههای جمعآوری شده.
گاهی این روابط توسط علمی شناخته شده حمایت میشود. برای مثال در زمانی که سعی میشود ربط حضور یک ماده غذایی در وضعیت سلامتی یک گروه بسیار بزرگ در طول زمان مشخص شود. یافتن چنین مواردی در بین دادههای بزرگ سخت نیست. اما گاهی کشف رابطهها در حجم بزرگی از دادههای بدون ساختار وضعیتی پیچیدهتر ایجاد میکند. برای مثال اینکه چگونه میتوان اصلیترین فاکتورهای تاثیر گذار در نتیجه، در بین اطلاعات گسترده جمعآوری شده را مشخص کرد. معمولا انجام چنین کارهایی بر عهده الگوریتمهای هوش مصنوعی یا یادگیری ماشینی گذاشته میشود.
جذابیت بیگ دیتا کاملا مشخص است. دولتها این پتانسیل را دارند که سیاستها و فعالیتهایشان را عقلانی کنند، از در تهدیدات سیاسی گرفته تا تغییر خروجی کلاسهای درسی چیزی است که دولتها را جذب این تکنولوژی جدید کرده. برای شرکتها هم ارتباطات آماریای که توسط بیگ دیتا آشکار شده، فرصت جدیدی است برای سودآوری بالاتر.
یکی از اصول پذیرفته شده حوزه تحقیق آماری و یادگیری ماشینی، درک این واقعیت است که هیچ الگوریتم واحدی وجود ندارد که در همه موارد پاسخگو باشد. تمام الگوریتمها اشتباه هم میکنند. این اشتباه غیرقابل اجتناب است و هرچقدر اطلاعات دادههای جمعآوری شده و مورد تحلیل بزرگتر و پیچیدهتر باشند، رسیدن به الگوریتمی که بهترین نسبت بین دقت و سرعت را فراهم کند، سخت تر است.
برای واضح کردن این بحث مثال فرضیای را در نظر بگیرید که در آن الگوریتمی سعی میکند مشخص کند که آیا در یک ویدئوی یوتیوب گربهای وجود دارد یا نه. ورودی این برنامه یک کلیپ ویدئویی است و خروجی یک جواب واضح «بله» در صورتی که گربهای در ویدئو باشد و «نه» وقتی که الگوریتم به این نتیجه برسد که هیچ گربهای در ویدئو نبوده این سیستم بر اساس یک مدل آماری، که میتواند بین ویدئوهای دارای گربه و ویدئوهای بدون گربه تفاوت بگذارد، «آموزش میبیند». برای شروع یادگیری، الگوریتم حجمی از ویدئوهایی که جواب «بله» و «خیر» در مورد آنها مشخص است را به عنوان ورودی دریافت میکند و سپس سعی میکند به الگوریتمی برسد که طی آن حدسش در مورد ویدئوها با جواب از پیش مشخص حداکثر مطابقت را داشته باشد. در این حالت انتظار میرود در صورت دریافت یک ویدئوی جدید نیز، پاسخ برنامه با پاسخ واقعی هماهنگ باشد.
در طول دوره آموزش، پارامترهای این مدل آماری به شکلی تنظیم میشوند که تا حد ممکن الگوریتم را بهینهسازی کنند. از آنجایی که محو کامل اشتباه غیرممکن است، کسی که مسئولیت پیشبرد مدل آماری را دارد باید بین انواع اشتباه، انتخاب کند.
میشود این را انتخاب کرد که نمونههای «مثبت اشتباه» (ویدئوهایی که گربه ندارند ولی به عنوان ویدئوی گربه دار طبقه بندی میشوند) حداقل شود یا تصمیم گرفته شود که تعداد «منفیهای اشتباه» (ویدئوهایی که گربه دارند ولی بدون گربه طبقهبندی میشوند) به حداقل برسد یا اصولا سراغ این برویم که تعداد کل اشتباهها حداقل شود (تمام ویدئوهایی که به اشتباه طبقهبندی شدهاند).
جزییات اینکه چطور یک نفر ریاضیدان، آماردان یا برنامهنویس یا در نهایت یک دانشمند داده میتواند از روی تعداد زیادی مدل به یک مدل آماری برای تشخیص گربه در ویدئوهای یوتیوب برسد موضوعی بسیار پیچیده و مبهم است اما وضع وقتی مبهمتر و پیچیدهتر میشود که یک دولت یا شرکت بخواهد با روشی مشابه و از طریق جمعآوری اطلاعات بزرگ از روابط اجتماعی و ارتباطات مردم، به مدلی آماری برای مقصودی خاص برسد. این مساله ممکن است منجر به نتایجی وحشتناک شود
جزییات اینکه چطور یک نفر ریاضیدان، آماردان یا برنامهنویس یا در نهایت یک دانشمند داده میتواند از روی تعداد زیادی مدل به یک مدل آماری برای تشخیص گربه در ویدئوهای یوتیوب برسد موضوعی بسیار پیچیده و مبهم است اما وضع وقتی مبهمتر و پیچیدهتر میشود که یک دولت یا شرکت بخواهد با روشی مشابه و از طریق جمعآوری اطلاعات بزرگ از روابط اجتماعی و ارتباطات مردم، به مدلی آماری برای مقصودی خاص برسد. این مساله ممکن است منجر به نتایجی وحشتناک شود
به فرض اگر ارتشی به جای تلاش برای تشخیص گربهها، سعی کند الگوریتمی بسازد که به دنبال تشخیص و کشتن «جنگجویان[۱]» در ویدئوهای هواپیماهای بدون سرنشینی باشد که در بالای مناطق جنگی پرواز میکنند، داشتن «مثبت اشتباه» بالاتر به معنی کشتهشدن افراد بیگناه بیشتر است، و نه ندیدن یک گربه در یک ویدئو. از نظر آماری تلاش برای پیدا کردن حداکثر تعداد جنگجوی ممکن در یک ویدئو، به معنای کشتن تعداد بیشتری انسان بیگناه است که به اشتباه جنگجو تشخیص داده شدهاند. این مساله در قوانین جدیدی که از اصرار خود برای «کسب اطمینان از عدم هدف قرار گرفتن غیرنظامیان» کوتاه آمدهاند و آمار بالای حمله هواپیماهای بیسرنشین این کشور به مراسم عروسی به خاطر تشخیص آنها به عنوان «کاروانهای تروریستی» خودنمایی میکند.
نتایج ضداجتماعی بتسازی از دادههای بزرگ منحصر به عملیات نظامی نیست. بیگ دیتا حالا به یک دارایی ارزشمند تبدیل شده که توسط شرکتهای بزرگ برای پیشبینی رفتار خرید آدمها، وضعیت سلامتی آنها، سودآوری آنها و چیزهای مشابه استفاده میشود.
نتایج ضداجتماعی بتسازی از دادههای بزرگ منحصر به عملیات نظامی نیست. بیگ دیتا حالا به یک دارایی ارزشمند تبدیل شده که توسط شرکتهای بزرگ برای پیشبینی رفتار خرید آدمها، وضعیت سلامتی آنها، سودآوری آنها و چیزهای مشابه استفاده میشود.
این الگوریتمهای آماری به جایی رسیدهاند که به هر انسان برچسبی مخفی مثل «امتیاز سودآوری یک مشتری»، «امتیاز ریسک سلامتی یک فرد» و «خلاصه آماری بانکی» متصل کردهاند تا بتوان با یک بررسی سریع به نتیجهای در مورد هر فرد رسید. این اعداد معمولا روابط اجتماعی را نادیده میگیرند و تنها توسط شرکتهای بزرگ قابل خواندن هستند. در فروم جهانی پرایوسی گفته شده که این امتیازهای مخفی میتوانند تبعیض، نابرابری و سوگیریها را ندیده بگیرند. در سطحی عمیقتر این امتیازها مشغول تبدیل کردن اطلاعات منطقا خصوصی زندگی ما به یک کالای قابل خرید و فروش هستند که هدف نهایی آن سود بیشتر شرکتها است.
به عنوان یک نمونه شوکه کننده استفاده از بیگ دیتا در حداکثر کردن سود بنگاههای اقتصادی، میتوان به الگوریتم برنامه ریزی کارگران اشاره کرد. نرمافزار برنامه ریزی که مبتنی بر یک مدل ریاضی پیچیده کار میکند، با داشتن حجم زیادی از میزان بهرهوری هر کارگر، روندهای تاریخی فروش، آب و هوا و غیره برنامه کاریای برای کارگران میچیند که طی آن میزان تولید بر اساس تقاضای احتمالی در آینده و هزینههای تولید بهینه شده باشند. این الگوریتم کارگران را در شیفتهای یک ربع ساعتهای تقسیم میکند که هر روز تغییر میکنند تا مطمئن شوند که در هر لحظه کارگر کافی (و نه اضافه) برای تولید میزان فروش احتمالی محصول حاضر باشد. در این روش بنگاههای تولیدی علی رغم کمکردن ساعت کاری کارگران و نامنظم کردن آن، فشار کاری را روی آنها به حداکثر میرسانند.
این دادههایی را که تا این حد برای زندگی افراد صدمه زننده باشند را میتوان به نفع زندگی آنها نیز به کار گرفت. در صورتی که اتحادیههای کارگری قدرتمند یا انجمنهای صنفی از این دادهها استفاده کنند، میتوان توسط آنها و الگوریتمهای ناشی از آنها، رفاه افراد را به حداکثر رساند.
نتیجه غیرقابل اجتناب این است که زندگی کارگر به طور کامل تحت سلطه یک الگوریتم منطقی قرار میگیرد که وظیفهاش به حداکثر رساندن سود است. کارگران دیگر زمان کاری ثابتی ندارند و حتی میزان کل کاری و در نتیجه درآمدشان نیز تضمین شده نیست. اخیرا یکی از کارمندان استارباکس در مورد این سیستم نوشته است که این الگوریتم عملا مشخص میکند که پسر این کارمند چند ساعت میتواند بخوابد و او در طول یک ماه چه مواد غذاییای میتواند بخرد.
ولی این دادههایی را که تا این حد برای زندگی افراد صدمه زننده باشند را میتوان به نفع زندگی آنها نیز به کار گرفت. در صورتی که اتحادیههای کارگری قدرتمند یا انجمنهای صنفی از این دادهها استفاده کنند، میتوان توسط آنها و الگوریتمهای ناشی از آنها، رفاه افراد را به حداکثر رساند.
این امکان وجود دارد که از این اطلاعات به منظور بررسی روندهای فروش، خواستههای افراد و کسب اطمینان از اینکه در پیکهای کاری تعداد کافی کارمند در سرکار باشند استفاده کرد و مطمئن شد که همه با شتابی منطقی کار کرده و به اندازه کافی استراحت میکنند. مساله تنها این است که این الگوریتمها مشغول بهینه کردن چه چیزی هست: به جای بهینه کردن سود شرکتها، میتوان سراغ الگوریتمی رفت که به دنبال بهینه کردن زندگی کارگران است.
این تکنولوژی هم مثل دیگر تکنولوژیها پیچیده در تار و پود روابط اجتماعی است. علیرغم شعارهای پر سر و صدای طرفداران و مخالفان، ذات بیگ دیتا چیزی مثبت یا منفی در خود ندارد و نتیجه حاصل از آن، بازتاب ارزشهای جامعهای است که از آن استفاده میکند.
جنبه رهاییبخش دادههای بزرگ در دنیای تحقیقات بیولوژیک راحتتر قابل مشاهده است. در طول پانزده سال گذشته، تکنیکهای بیگ دیتا بخصوص بخشهای مبتنی بر خواندن و تحلیل رشتههای DNA با سرعت بالا توانسته حوزه تحقیقات بیولوژیک را دگرگون کند و به دانشمندها اجازه دهد که در چندین مساله بنیادین پیشرفتهای چشمگیری داشته باشند.
همانطور که این مثالها نشان میدهد، هنگامی که انگیزه سود کنار گذاشته شود، دیتاهای بزرگ میتوانند به نفع کلیت جامعه مورد استفاده قرار گیرند. این تکنولوژی هم مثل دیگر تکنولوژیها پیچیده در تار و پود روابط اجتماعی است. علیرغم شعارهای پر سر و صدای طرفداران و مخالفان، ذات بیگ دیتا چیزی مثبت یا منفی در خود ندارد و نتیجه حاصل از آن، بازتاب ارزشهای جامعهای است که از آن استفاده میکند.
تحت سیستم فعلی، دولت و ارتش از بیگ دیتا به منظور سرکوب مردم و جاسوسی از آنها استفاده میکنند. شرکتهای بزرگ آن را به منظور شدت بخشیدن به سودشان به کار میگیرند و بالا بردن تولید و افزایش روند کالایی سازی هر چیز ممکن در زندگی ما. اما دادهها و الگوریتمهای آماری مسوول این خروجیها نیستند، سرمایهداری مسوول آنها است. برای واقعیتبخشی به پتانسیل بالای دادههای بزرگ لازم است ابتدا با نیروهای غیردموکراتیکی که به دنبال استفاده از این ابزار برای کالاییسازی و سرکوب هستند مبارزه کرد.
بیگ دیتا اینجاست که بماند و سوال اصلی- مثل همیشه در دنیای سرمایهداری – این است که چه کسی آن را کنترل کرده، از نتایجش استفاده خواهد کرد.
- ۱. militants
- این مطلب در جاهایی برای فهم آسانتر تلخیص شدهاست. برای مشاهده نسخه کامل مطلب به Big Data’s Radical Potential در مجله ژاکوبن رجوع کنید.
مطلب بسیار مفیدی بود. ممنون