تربیت هوش مصنوعی با داده‌های مشکوک مشکل‌ساز می‌شود

ده‌ها مدل هوش مصنوعی که برای پیش‌بینی بیماری آموزش دیده بودند با داده‌های نامطمئن تربیت شده‌اند.

تاریخ انتشار: ۲۷ فروردین ۱۴۰۵ | ۱۵:۰۵

تاریخ آخرین ویرایش: ۲۷ فروردین ۱۴۰۵ | ۱۴:۲۱

تربیت هوش مصنوعی با داده‌های مشکوک مشکل‌ساز می‌شود

به گزارش چابک آنلاین، این مدل‌ها برای پیش‌بینی خطر ابتلای افراد به دیابت یا سکته مغزی طراحی شده‌اند و به گفته پژوهشگران، برخی از آن‌ها ممکن است از قبل روی بیماران هم استفاده شده باشند.

به نقل از نیچر، پژوهشگران در یک پیش‌چاپ (preprint) در پایگاه medRxiv گزارش داده‌اند که از مجموعه‌داده‌های نامطمئن برای آموزش مدل‌های هوش مصنوعی استفاده شده است؛ مدل‌هایی که برای پیش‌بینی خطر سکته مغزی و دیابت افراد طراحی شده‌اند.

برخی از این مدل‌ها ظاهرا حتی در محیط‌های بالینی نیز استفاده شده‌اند، اگرچه مشخص نیست آیا این موضوع منجر به تشخیص‌های اشتباه شده است یا خیر. حداقل دو مجله نیز در حال بررسی مطالعاتی هستند که از این مجموعه‌داده‌ها استفاده کرده‌اند.

آدریان بارنت، آمارشناس دانشگاه فناوری کوئینزلند در بریزبن استرالیا و همکارانش ۱۲۴ مقاله داوری ‌شده را شناسایی کرده‌اند که گزارش می‌دهند از یکی از دو مجموعه‌ داده سلامت با دسترسی آزاد استفاده کرده‌اند؛ داده‌هایی که اطلاعات کمی درباره منشأ آن‌ها ارائه شده است.

یک تحلیل نشان داد چندین «ناهنجاری غیرعادی» در داده‌ها وجود دارد که در داده‌های واقعی انسان انتظار نمی‌رود؛ همین موضوع باعث شده بارنت و همکارانش به این شک کنند که شاید این داده‌ها ساختگی باشند. بارنت می‌گوید: کشف چنین چیزی واقعاً شگفت‌انگیز بود.

حداقل دو مورد از این مدل‌ها در بیمارستان‌هایی در اندونزی و اسپانیا استفاده شده‌اند. یکی از آن‌ها در یک درخواست ثبت اختراع دستگاه پزشکی در سال ۲۰۲۴ نیز ثبت شده است و دو مورد دیگر به‌صورت ابزارهای وب عمومی در دسترس هستند که به افراد اجازه می‌دهند با وارد کردن اطلاعات خود، سطح خطرشان را بررسی کنند.

سوده‌دیپ بهائومیک، پژوهشگر سلامت عمومی در مؤسسه جهانی سلامت جرج در سیدنی، می‌گوید: مدل‌های پیش‌بینی که بر اساس داده‌هایی با منشأ نامشخص آموزش داده شده‌اند، جایی در تصمیم‌گیری‌های بالینی ندارند. آن‌ها ذاتاً غیرقابل اعتماد هستند.

او می‌گوید اگر این ابزارها از داده‌های واقعی استفاده نکنند، احتمالا پیش‌بینی‌های نادرست ارائه می‌دهند و پزشکان را به تصمیم‌های اشتباه مانند تجویز غیرضروری دارو یا عدم تجویز در مواقع لازم سوق می‌دهند.

او اضافه می‌کند که نهادها و تأمین‌کنندگان مالی باید پژوهشگران را ملزم کنند منشأ داده‌های استفاده ‌شده در مدل‌های پزشکی را شفاف اعلام کنند و مجلات علمی باید مقالاتی را که این شرط را رعایت نمی‌کنند، رد کنند.

بارنت می‌گوید این مجموعه‌ داده‌ها باید از دسترس خارج شوند تا مطالعات بیشتری بر اساس آن‌ها انجام نشود.

اشتراک‌گذاری داده‌ها

دو مجموعه ‌داده بررسی‌شده در این مطالعه که هنوز داوری علمی نشده است، در پلتفرم Kaggle بارگذاری شده‌اند؛ پلتفرمی که توسعه‌ دهندگان از آن برای دسترسی به داده‌ها و ساخت مدل‌های یادگیری ماشینی استفاده می‌کنند.

اولین مجموعه‌داده با عنوان مجموعه‌ داده پیش‌بینی سکته بارگذاری شده و با توضیح ۱۱ ویژگی بالینی برای پیش‌بینی سکته معرفی شده است.

این داده شامل اطلاعات سلامت ۵٬۱۱۰ نفر است؛ از جمله عواملی مانند سابقه بیماری قلبی، وضعیت تأهل، میانگین قند خون و شاخص توده بدنی (BMI). اما زمانی که پژوهشگران میانگین قند خون را در برابر شناسه شرکت‌کنندگان ترسیم کردند، چندین ناهنجاری مشاهده شد.

یکی از آن‌ها این بود که تعداد بسیار کمی داده گمشده وجود داشت؛ در حالی که داده‌های واقعی معمولا ناقص هستند، چون برخی افراد پیگیری را از دست می‌دهند، از مطالعه خارج می‌شوند یا فوت می‌کنند.

بارنت می‌گوید: هیچ مجموعه ‌داده‌ واقعی در جهان تا این حد کامل نیست.

بارنت و گروهش دریافتند ۱۰۴ مقاله از این مجموعه ‌داده برای ساخت مدل‌های پیش‌بینی سکته استفاده کرده‌اند؛ از جمله یک مورد در بیمارستانی در اندونزی و یک مورد دیگر که روی چند نفر آزمایش شده است. یک مطالعه دیگر در آمریکا نیز نشان می‌دهد این مدل در یک «کلینیک قلب محلی» استفاده شده است.

این مجموعه‌داده توسط فدریکو سواریانو پالاسیوس، دانشمند داده در مادرید، بارگذاری شده و بیش از ۲۸۸ هزار بار دانلود شده است.

داده‌های غیرقابل اعتماد بیشتر

مجموعه‌ داده دوم با عنوان پیش‌بینی دیابت به‌عنوان مجموعه‌ داده جامع برای پیش‌بینی دیابت با داده‌های پزشکی و جمعیتی توصیف شده است.

این مجموعه شامل اطلاعات ۱۰۰ هزار نفر است؛ از جمله شاخص توده بدنی، وضعیت سیگار کشیدن و سطح قند خون.

اما گروه بارنت دریافت که این داده‌ها فقط ۱۸ مقدار گسسته برای قند خون در کل افراد دارند؛ چیزی که از نظر علمی غیرممکن است، چون تنوع بسیار زیادی در افراد واقعی وجود دارد. همچنین هزاران مقدار تکراری نیز شناسایی شده است.

این گروه ۲۱ مطالعه را یافت که از این داده برای ساخت مدل‌های پیش‌بینی دیابت استفاده کرده‌اند؛ اما هیچ‌کدام از این مدل‌ها تاکنون در محیط بالینی استفاده نشده‌اند.

این داده توسط محمد مصطفی، مهندس داده در چنای هند، بارگذاری شده و او گفته است که داده‌ها از پرونده‌های الکترونیکی سلامت تجمیع شده‌اند. او در پاسخ به یک کاربر گفته است که به دلیل محرمانگی یا محدودیت‌ها نمی‌تواند منبع دقیق داده را افشا کند.

واکنش نویسندگان

ماه گذشته، پژوهشگران نگرانی‌های خود را درباره ۱۲۴ مقاله در سایت PubPeer مطرح کردند؛ سایتی که دانشمندان برای بررسی پس از انتشار از آن استفاده می‌کنند.

کارپاگام، مهندس رایانه در مؤسسه فناوری هند، نویسنده اصلی یکی از مقالات در آوریل ۲۰۲۵ است.

او در PubPeer نوشته که از داده‌ها برای «اعتبارسنجی عملکرد» استفاده شده، نه برای نتیجه‌گیری بالینی. او همچنین گفته در زمان انجام پژوهش از مشکوک بودن یا مصنوعی بودن داده‌ها اطلاعی نداشته‌اند. او اضافه کرده که استفاده از داده‌های موجود در مخازن عمومی برای توسعه مدل‌ها در جامعه یادگیری ماشینی رایج است.

واکنش مجلات

سردبیر Scientific Reports اعلام کرده است که در حال بررسی پنج مقاله است و در صورت لزوم اقدام خواهد کرد. از ۳۱ مارس، سه مقاله پس گرفته شده‌اند.

یکی از همکاران یک مقاله اندونزیایی گفته که مطالعه آن‌ها فقط یک پروژه دانشگاهی برای تست الگوریتم بوده است و در کلینیک استفاده نشده است.