پتانسیل رادیکال داده‌های بزرگ

داده‌های بزرگ یا بیگ دیتا امروزه یکی از مهمترین و ارزشمندترین کالاهای سرمایه‌داری است. هر روز به شرکت‌ها و سرویس‌هایی که در واقع از راه تحلیل و جمع‌آوری داده‌های بزرگ درآمد کسب می‌کنند افزوده می‌شود. داده‌های بزرگ در حال حاضر جهت پیش‌بینی رفتار انسان‌ها جهت سودآوری بیشتر و کنترل سیاسی مورد استفاده قرار می‌گیرد. اما آیا این تنها پتانسیل این داده‌هاست؟ این متن سعی می‌کند به این سوال پاسخ دهد.

پتانسیل رادیکال داده‌های بزرگ

امروزه داده‌های بزرگ برای به پیش‌راندن سود و زیرنظر گرفتن شهروندان به کار می‌رود. اما چه می‌شود اگر آن را به نفع جامعه به کار بیاندازیم؟ اوراکل غول دنیای نرم‌افزار، بیگ دیتا یا داده‌های بزرگ را «الکتریسیته قرن بیست و یکم خوانده – نوعی انرژی جدید که هر چیزی را که لمس کند در تجارت، حکومت و زندگی شخصی تغییر خواهد داد».

البته هیچ توافقی در این مورد که داده‌های بزرگ یا بیگ دیتا دقیقا به چه معناست وجود ندارد اما مدافعان و مخالفان توافق دارند که این مفهوم در حال تغییر دنیا است. مبلغان با اطمینان از این می‌گویند که تجمیع داده‌های پیچیده در حال افزایش و ترکیب آن با روش‌های جدید ذخیره‌سازی،‌ دسترسی و تحلیل هر کاری که ما می کنیم را متحول خواهد کرد، از تحقیقات ساده علمی تا روش مدیریت تعاملات اجتماعی. دانشمندان داده‌ی پیشرویی همچون الکس پتلند می‌گویند ما شاهد تغییری بنیادین به سمت «جامعه هدایت شونده با داده» هستیم که می‌تواند «عادلانه‌تر و موثرتر» باشد.

هیچ توافقی در این مورد که داده‌های بزرگ یا بیگ دیتا دقیقا به چه معناست وجود ندارد اما مدافعان و مخالفان توافق دارند که این مفهوم در حال تغییر دنیا است.

مخالفین هم نظرات خودشان را دارند. مجله ادباسترز که نشریه‌ای ضد مصرفی است، اخیرا با اعلام مرگ دولت-ملت‌ها اعلام کرده‌ که این حکومت‌ها تسلیم ماشین اقتصادی جهانی، محاسبات و الگوریتم‌های محاسباتی داده‌های بزرگ شده‌اند. پم دیکسون– مدیر اجرایی فروم جهانی پرایوسی- می‌گوید ما در آستانه آینده تاریکی و ضد آرمان‌شهری‌ای هستیم که توسط فیلیپ دیک در داستان‌هایی مانند گزارش اقلیت ترسیم شده بود که در آن پیش‌بینی‌های الگوریتم‌های مبتنی بر داده‌های بزرگ می‌تواند «مشخص کننده سرنوشت» انسان‌ها باشد.

ولی این بیگ دیتا یا داده‌های بزرگ که از آن حرف می‌زنیم چیست و به کدام نظریه باید باور داشته باشیم؟

هیچ عنصر واحدی نیست که داده‌های بزرگ را از داده‌های سنتی و «کوچک» جدا کند. جمع‌آوری داده‌های بزرگ چیز جدیدی نیست و حتی در ۱۹۲۴ نیز سازمانی تلاش می‌کرد بیش از ۷۵۰هزار عنصر اطلاعاتی حاوی «وضعیت فیزیکی، روانی و مزاجی» خانواده‌های آمریکایی‌ را جمع‌آوری و مدیریت کند و در پروژه‌ای حتی بزرگتر، سازمان بیمه اجتماعی آمریکا اطلاعات بیش از ۲۶ میلیون نفر را در دهه ۱۹۳۰ با بیش از ۵۰۰هزار کات پانچ مدیریت می‌کرد.

مجله ادباسترز که نشریه‌ای ضد مصرفی است، اخیرا با اعلام مرگ دولت-ملت‌ها اعلام کرده‌ که این حکومت‌ها تسلیم ماشین اقتصادی جهانی، محاسبات و الگوریتم‌های محاسباتی داده‌های بزرگ شده‌اند.

چیزی که داده‌های بزرگ را از چنین پروژه‌هایی مجزا می‌کند، وسعت و حوزه کاری چیزی است که جمع‌آوری و تحلیل می‌شود. این تفاوت معمولا با عبارت «سه V» که در انگلیسی ابتدای سه کلمه Volume (اندازه)، Variety (تنوع) و Velocity (سرعت) است مشخص می‌شود. اندازه داده‌ای که حالا در حال جمع‌آوری شدن است، سرگیجه آور است. بیش از ۳ میلیون دیتاسنتر در همه جهان وجود دارد، و مراکز داده آمریکا مسئول مصرف حدود ۲ درصد کل مصرف برق کشور هستند. آمریکایی‌ها در هر دقیقه بیش از دویست ساعت ویدئو و روزانه بیش از ۵۰۰میلیون عکس به این مراکز آپلود می‌کنند و اضافه کردن اطلاعات دیجیتال ایمیل‌ها، تبادلات بانکی، وب،‌ سوابق پزشکی و نرم‌افزارهای موبایلی هر لحظه در حال افزایش است.

این افزایش سریع اندازه با پردازش سریعتر و کاراتر نیز همراه شده است. در ۲۰۱۲، فیسبوک روزانه بیش از ۵۰۰ ترابایت اطلاعات را تحلیلی می‌کرد- پنجاه برابر تمام مجموعه چاپ‌شده کتابخانه کنگره آمریکا. این روند در آینده هم ادامه خواهد داشت. حالا که دستگاه‌های بیشتر و بیشتر در حال مجهز شدن به حسگرهای سیم‌دار و بی‌سیم هستند و می‌توانند مستقل از رابط انسانی به بانک‌های اطلاعاتی بزرگ متصل شوند – چیزی که به آن «اینترنت چیزها» می‌گویند – اندازه و تنوع این اطلاعات عظیم دائما نیز افزایش خواهد یافت.

اندازه داده‌ای که حالا در حال جمع‌آوری شدن است، سرگیجه آور است. بیش از ۳ میلیون دیتاسنتر در همه جهان وجود دارد، و مراکز داده آمریکا مسئول مصرف حدود ۲ درصد کل مصرف برق کشور هستند.

جذابیت بیگ دیتا کاملا مشخص است. دولت‌ها این پتانسیل را دارند که سیاست‌ها و فعالیت‌هایشان را عقلانی کنند، از در تهدیدات سیاسی گرفته تا تغییر خروجی کلاس‌های درسی چیزی است که دولت‌ها را جذب این تکنولوژی جدید کرده. برای شرکت‌ها هم ارتباطات آماری‌‌ای که توسط بیگ دیتا آشکار شده، فرصت جدیدی است برای سودآوری بالاتر. فعالیت‌های تصمیم‌گیری شده توسط داده، آنگونه که مبلغان شرکت‌ها می‌گویند، می‌تواند باعث بالا رفتن بهره‌وری و تولید شود، هزینه‌ها را کاهش دهد، مشتریان احتمالی را تشخیص دهد و حتی بازارهای جدید را کشف کند.

ولی چیزی که در این میان توجه چندانی به آن نشده، این است که جمع‌آوری حجم بزرگی داده خام به تنهایی مفید یا سودآور نیست. اهمیت این صنعت در وعده‌ای است که در مورد پردازش این اطلاعات می‌دهد و فهم روابط میان متغیرها پس از تحلیل داده‌های جمع‌آوری شده.

گاهی این روابط توسط علمی شناخته شده حمایت می‌شود. برای مثال در زمانی که سعی می‌شود ربط حضور یک ماده غذایی در وضعیت سلامتی یک گروه بسیار بزرگ در طول زمان مشخص شود. یافتن چنین مواردی در بین داده‌های بزرگ سخت نیست. اما گاهی کشف رابطه‌ها در حجم بزرگی از داده‌های بدون ساختار وضعیتی پیچیده‌تر ایجاد می‌کند. برای مثال اینکه چگونه می‌توان اصلی‌ترین فاکتورهای تاثیر گذار در نتیجه، در بین اطلاعات گسترده جمع‌آوری شده را مشخص کرد. معمولا انجام چنین کارهایی بر عهده الگوریتم‌های هوش مصنوعی یا یادگیری ماشینی گذاشته می‌شود.

جذابیت بیگ دیتا کاملا مشخص است. دولت‌ها این پتانسیل را دارند که سیاست‌ها و فعالیت‌هایشان را عقلانی کنند، از در تهدیدات سیاسی گرفته تا تغییر خروجی کلاس‌های درسی چیزی است که دولت‌ها را جذب این تکنولوژی جدید کرده. برای شرکت‌ها هم ارتباطات آماری‌‌ای که توسط بیگ دیتا آشکار شده، فرصت جدیدی است برای سودآوری بالاتر.

یکی از اصول پذیرفته شده حوزه تحقیق آماری و یادگیری ماشینی، درک این واقعیت است که هیچ الگوریتم واحدی وجود ندارد که در همه موارد پاسخگو باشد. تمام الگوریتم‌ها اشتباه هم می‌کنند. این اشتباه غیرقابل اجتناب است و هرچقدر اطلاعات داده‌های جمع‌آوری شده و مورد تحلیل بزرگتر و پیچیده‌تر باشند، رسیدن به الگوریتمی که بهترین نسبت بین دقت و سرعت را فراهم کند، سخت تر است.

برای واضح کردن این بحث مثال فرضی‌ای را در نظر بگیرید که در آن الگوریتمی سعی‌ می‌کند مشخص کند که آیا در یک ویدئوی یوتیوب گربه‌ای وجود دارد یا نه. ورودی این برنامه یک کلیپ ویدئویی است و خروجی یک جواب واضح «بله» در صورتی که گربه‌ای در ویدئو باشد و «نه» وقتی که الگوریتم به این نتیجه برسد که هیچ گربه‌ای در ویدئو نبوده این سیستم بر اساس یک مدل آماری، که می‌تواند بین ویدئوهای دارای گربه و ویدئوهای بدون گربه تفاوت بگذارد، «آموزش می‌بیند». برای شروع یادگیری، الگوریتم حجمی از ویدئوهایی که جواب «بله» و «خیر» در مورد آن‌ها مشخص است را به عنوان ورودی دریافت می‌کند و سپس سعی می‌کند به الگوریتمی برسد که طی آن حدسش در مورد ویدئوها با جواب از پیش مشخص حداکثر مطابقت را داشته باشد. در این حالت انتظار می‌رود در صورت دریافت یک ویدئوی جدید نیز، پاسخ برنامه با پاسخ واقعی هماهنگ باشد.

در طول دوره آموزش، پارامترهای این مدل آماری به شکلی تنظیم می‌شوند که تا حد ممکن الگوریتم را بهینه‌سازی کنند. از آنجایی که محو کامل اشتباه غیرممکن است، کسی که مسئولیت پیشبرد مدل آماری را دارد باید بین انواع اشتباه، انتخاب کند.

می‌شود این را انتخاب کرد که نمونه‌های «مثبت اشتباه» (ویدئوهایی که گربه ندارند ولی به عنوان ویدئوی گربه دار طبقه بندی می‌شوند) حداقل شود یا تصمیم گرفته شود که تعداد «منفی‌های اشتباه» (ویدئوهایی که گربه دارند ولی بدون گربه طبقه‌بندی می‌شوند) به حداقل برسد یا اصولا سراغ این برویم که تعداد کل اشتباه‌ها حداقل شود (تمام ویدئوهایی که به اشتباه طبقه‌بندی شده‌اند).

جزییات اینکه چطور یک نفر ریاضی‌دان، آماردان یا برنامه‌نویس یا در نهایت یک دانشمند داده می‌تواند از روی تعداد زیادی مدل به یک مدل آماری برای تشخیص گربه در ویدئوهای یوتیوب برسد موضوعی بسیار پیچیده و مبهم است اما وضع وقتی مبهم‌تر و پیچیده‌تر می‌شود که یک دولت یا شرکت بخواهد با روشی مشابه و از طریق جمع‌آوری اطلاعات بزرگ از روابط اجتماعی و ارتباطات مردم، به مدلی آماری برای مقصودی خاص برسد. این مساله ممکن است منجر به نتایجی وحشتناک شود

جزییات اینکه چطور یک نفر ریاضی‌دان، آماردان یا برنامه‌نویس یا در نهایت یک دانشمند داده می‌تواند از روی تعداد زیادی مدل به یک مدل آماری برای تشخیص گربه در ویدئوهای یوتیوب برسد موضوعی بسیار پیچیده و مبهم است اما وضع وقتی مبهم‌تر و پیچیده‌تر می‌شود که یک دولت یا شرکت بخواهد با روشی مشابه و از طریق جمع‌آوری اطلاعات بزرگ از روابط اجتماعی و ارتباطات مردم، به مدلی آماری برای مقصودی خاص برسد. این مساله ممکن است منجر به نتایجی وحشتناک شود

به فرض اگر ارتشی به جای تلاش برای تشخیص گربه‌ها، سعی کند الگوریتمی بسازد که به دنبال تشخیص و کشتن «جنگجویان[۱]» در ویدئوهای هواپیماهای بدون سرنشینی باشد که در بالای مناطق جنگی پرواز می‌کنند، داشتن «مثبت اشتباه» بالاتر به معنی کشته‌شدن افراد بیگناه بیشتر است، و نه ندیدن یک گربه در یک ویدئو. از نظر آماری تلاش برای پیدا کردن حداکثر تعداد جنگجوی ممکن در یک ویدئو، به معنای کشتن تعداد بیشتری انسان بیگناه است که به اشتباه جنگجو تشخیص داده شده‌اند. این مساله در قوانین جدیدی که از اصرار خود برای «کسب اطمینان از عدم هدف قرار گرفتن غیرنظامیان» کوتاه آمده‌اند و آمار بالای حمله هواپیماهای بی‌سرنشین این کشور به مراسم عروسی به خاطر تشخیص آن‌ها به عنوان «کاروان‌های تروریستی» خودنمایی می‌کند.

نتایج ضداجتماعی بت‌سازی از داده‌های بزرگ منحصر به عملیات نظامی نیست. بیگ دیتا حالا به یک دارایی ارزشمند تبدیل شده که توسط شرکت‌های بزرگ برای پیش‌بینی رفتار خرید آدم‌ها، وضعیت سلامتی آن‌ها، سودآوری آن‌ها و چیزهای مشابه استفاده می‌شود.

نتایج ضداجتماعی بت‌سازی از داده‌های بزرگ منحصر به عملیات نظامی نیست. بیگ دیتا حالا به یک دارایی ارزشمند تبدیل شده که توسط شرکت‌های بزرگ برای پیش‌بینی رفتار خرید آدم‌ها، وضعیت سلامتی آن‌ها، سودآوری آن‌ها و چیزهای مشابه استفاده می‌شود.

این الگوریتم‌های آماری به جایی رسیده‌اند که به هر انسان برچسبی مخفی مثل «امتیاز سودآوری یک مشتری»، «امتیاز ریسک سلامتی یک فرد» و «خلاصه آماری بانکی» متصل کرده‌اند تا بتوان با یک بررسی سریع به نتیجه‌ای در مورد هر فرد رسید. این اعداد معمولا روابط اجتماعی را نادیده می‌گیرند و تنها توسط شرکت‌های بزرگ قابل خواندن هستند. در فروم جهانی پرایوسی گفته شده که این امتیازهای مخفی می‌توانند تبعیض، نابرابری و سوگیری‌ها را ندیده بگیرند. در سطحی عمیق‌تر این امتیازها مشغول تبدیل کردن اطلاعات منطقا خصوصی زندگی ما به یک کالای قابل خرید و فروش هستند که هدف نهایی آن سود بیشتر شرکت‌ها است.

به عنوان یک نمونه‌ شوکه کننده استفاده از بیگ دیتا در حداکثر کردن سود بنگاه‌های اقتصادی، می‌توان به الگوریتم برنامه ریزی کارگران اشاره کرد. نرم‌افزار برنامه ریزی که مبتنی بر یک مدل ریاضی پیچیده کار می‌کند، با داشتن حجم زیادی از میزان بهره‌وری هر کارگر، روندهای تاریخی فروش، آب و هوا و غیره برنامه کاری‌ای برای کارگران می‌چیند که طی آن میزان تولید بر اساس تقاضای احتمالی در آینده و هزینه‌های تولید بهینه شده باشند. این الگوریتم کارگران را در شیفت‌های یک ربع ساعته‌ای تقسیم می‌کند که هر روز تغییر می‌کنند تا مطمئن شوند که در هر لحظه کارگر کافی (و نه اضافه) برای تولید میزان فروش احتمالی محصول حاضر باشد. در این روش بنگاه‌های تولیدی علی رغم کم‌کردن ساعت کاری کارگران و نامنظم کردن آن، فشار کاری را روی آن‌ها به حداکثر می‌رسانند.

این داده‌هایی را که تا این حد برای زندگی افراد صدمه زننده باشند را می‌توان به نفع زندگی آن‌ها نیز به کار گرفت. در صورتی که اتحادیه‌های کارگری قدرتمند یا انجمن‌های صنفی از این داده‌ها استفاده کنند، می‌توان توسط آن‌ها و الگوریتم‌های ناشی از آن‌ها، رفاه افراد را به حداکثر رساند.

نتیجه غیرقابل اجتناب این است که زندگی کارگر به طور کامل تحت سلطه یک الگوریتم منطقی قرار می‌گیرد که وظیفه‌اش به حداکثر رساندن سود است. کارگران دیگر زمان کاری ثابتی ندارند و حتی میزان کل کاری‌ و در نتیجه درآمدشان نیز تضمین شده نیست. اخیرا یکی از کارمندان استارباکس در مورد این سیستم نوشته است که این الگوریتم عملا مشخص می‌کند که پسر این کارمند چند ساعت می‌تواند بخوابد و او در طول یک ماه چه مواد غذایی‌ای می‌تواند بخرد.

ولی این داده‌هایی را که تا این حد برای زندگی افراد صدمه زننده باشند را می‌توان به نفع زندگی آن‌ها نیز به کار گرفت. در صورتی که اتحادیه‌های کارگری قدرتمند یا انجمن‌های صنفی از این داده‌ها استفاده کنند، می‌توان توسط آن‌ها و الگوریتم‌های ناشی از آن‌ها، رفاه افراد را به حداکثر رساند.

این امکان وجود دارد که از این اطلاعات به منظور بررسی روندهای فروش، خواسته‌های افراد و کسب اطمینان از اینکه در پیک‌های کاری تعداد کافی کارمند در سرکار باشند استفاده کرد و مطمئن شد که همه با شتابی منطقی کار کرده و به اندازه کافی استراحت می‌کنند. مساله تنها این است که این الگوریتم‌ها مشغول بهینه کردن چه چیزی هست: به جای بهینه‌ کردن سود شرکت‌ها، می‌توان سراغ الگوریتمی رفت که به دنبال بهینه کردن زندگی کارگران است.

این تکنولوژی هم مثل دیگر تکنولوژی‌ها پیچیده در تار و پود روابط اجتماعی است. علیرغم شعارهای پر سر و صدای طرفداران و مخالفان، ذات بیگ دیتا چیزی مثبت یا منفی در خود ندارد و نتیجه حاصل از آن، بازتاب ارزش‌های جامعه‌ای است که از آن استفاده می‌کند.

جنبه رهایی‌بخش داده‌های بزرگ در دنیای تحقیقات بیولوژیک راحت‌تر قابل مشاهده است. در طول پانزده سال گذشته، تکنیک‌های بیگ دیتا بخصوص بخش‌های مبتنی بر خواندن و تحلیل رشته‌های DNA با سرعت بالا توانسته حوزه تحقیقات بیولوژیک را دگرگون کند و به دانشمندها اجازه دهد که در چندین مساله بنیادین پیشرفت‌های چشم‌گیری داشته باشند.

همان‌طور که این مثال‌ها نشان می‌دهد، هنگامی که انگیزه سود کنار گذاشته شود، دیتاهای بزرگ می‌توانند به نفع کلیت جامعه مورد استفاده قرار گیرند. این تکنولوژی هم مثل دیگر تکنولوژی‌ها پیچیده در تار و پود روابط اجتماعی است. علیرغم شعارهای پر سر و صدای طرفداران و مخالفان، ذات بیگ دیتا چیزی مثبت یا منفی در خود ندارد و نتیجه حاصل از آن، بازتاب ارزش‌های جامعه‌ای است که از آن استفاده می‌کند.

تحت سیستم فعلی، دولت و ارتش از بیگ دیتا به منظور سرکوب مردم و جاسوسی از آن‌ها استفاده می‌کنند. شرکت‌های بزرگ آن را به منظور شدت بخشیدن به سودشان به کار می‌گیرند و بالا بردن تولید و افزایش روند کالایی سازی هر چیز ممکن در زندگی ما. اما داده‌ها و الگوریتم‌های آماری مسوول این خروجی‌ها نیستند، سرمایه‌داری مسوول آن‌ها است. برای واقعیت‌بخشی به پتانسیل بالای داده‌های بزرگ لازم است ابتدا با نیروهای غیردموکراتیکی که به دنبال استفاده از این ابزار برای کالایی‌سازی و سرکوب هستند مبارزه کرد.

بیگ دیتا اینجاست که بماند و سوال اصلی- مثل همیشه در دنیای سرمایه‌داری – این است که چه کسی آن را کنترل کرده، از نتایجش استفاده خواهد کرد.

  1. ۱. militants
  2. این مطلب در جاهایی برای فهم آسان‌تر تلخیص شده‌است. برای مشاهده نسخه کامل مطلب به  Big Data’s Radical Potential  در مجله ژاکوبن رجوع کنید.