تربیت هوش مصنوعی با دادههای مشکوک مشکلساز میشود
دهها مدل هوش مصنوعی که برای پیشبینی بیماری آموزش دیده بودند با دادههای نامطمئن تربیت شدهاند.
به گزارش چابک آنلاین، این مدلها برای پیشبینی خطر ابتلای افراد به دیابت یا سکته مغزی طراحی شدهاند و به گفته پژوهشگران، برخی از آنها ممکن است از قبل روی بیماران هم استفاده شده باشند.
به نقل از نیچر، پژوهشگران در یک پیشچاپ (preprint) در پایگاه medRxiv گزارش دادهاند که از مجموعهدادههای نامطمئن برای آموزش مدلهای هوش مصنوعی استفاده شده است؛ مدلهایی که برای پیشبینی خطر سکته مغزی و دیابت افراد طراحی شدهاند.
برخی از این مدلها ظاهرا حتی در محیطهای بالینی نیز استفاده شدهاند، اگرچه مشخص نیست آیا این موضوع منجر به تشخیصهای اشتباه شده است یا خیر. حداقل دو مجله نیز در حال بررسی مطالعاتی هستند که از این مجموعهدادهها استفاده کردهاند.
آدریان بارنت، آمارشناس دانشگاه فناوری کوئینزلند در بریزبن استرالیا و همکارانش ۱۲۴ مقاله داوری شده را شناسایی کردهاند که گزارش میدهند از یکی از دو مجموعه داده سلامت با دسترسی آزاد استفاده کردهاند؛ دادههایی که اطلاعات کمی درباره منشأ آنها ارائه شده است.
یک تحلیل نشان داد چندین «ناهنجاری غیرعادی» در دادهها وجود دارد که در دادههای واقعی انسان انتظار نمیرود؛ همین موضوع باعث شده بارنت و همکارانش به این شک کنند که شاید این دادهها ساختگی باشند. بارنت میگوید: کشف چنین چیزی واقعاً شگفتانگیز بود.
حداقل دو مورد از این مدلها در بیمارستانهایی در اندونزی و اسپانیا استفاده شدهاند. یکی از آنها در یک درخواست ثبت اختراع دستگاه پزشکی در سال ۲۰۲۴ نیز ثبت شده است و دو مورد دیگر بهصورت ابزارهای وب عمومی در دسترس هستند که به افراد اجازه میدهند با وارد کردن اطلاعات خود، سطح خطرشان را بررسی کنند.
سودهدیپ بهائومیک، پژوهشگر سلامت عمومی در مؤسسه جهانی سلامت جرج در سیدنی، میگوید: مدلهای پیشبینی که بر اساس دادههایی با منشأ نامشخص آموزش داده شدهاند، جایی در تصمیمگیریهای بالینی ندارند. آنها ذاتاً غیرقابل اعتماد هستند.
او میگوید اگر این ابزارها از دادههای واقعی استفاده نکنند، احتمالا پیشبینیهای نادرست ارائه میدهند و پزشکان را به تصمیمهای اشتباه مانند تجویز غیرضروری دارو یا عدم تجویز در مواقع لازم سوق میدهند.
او اضافه میکند که نهادها و تأمینکنندگان مالی باید پژوهشگران را ملزم کنند منشأ دادههای استفاده شده در مدلهای پزشکی را شفاف اعلام کنند و مجلات علمی باید مقالاتی را که این شرط را رعایت نمیکنند، رد کنند.
بارنت میگوید این مجموعه دادهها باید از دسترس خارج شوند تا مطالعات بیشتری بر اساس آنها انجام نشود.
اشتراکگذاری دادهها
دو مجموعه داده بررسیشده در این مطالعه که هنوز داوری علمی نشده است، در پلتفرم Kaggle بارگذاری شدهاند؛ پلتفرمی که توسعه دهندگان از آن برای دسترسی به دادهها و ساخت مدلهای یادگیری ماشینی استفاده میکنند.
اولین مجموعهداده با عنوان مجموعه داده پیشبینی سکته بارگذاری شده و با توضیح ۱۱ ویژگی بالینی برای پیشبینی سکته معرفی شده است.
این داده شامل اطلاعات سلامت ۵٬۱۱۰ نفر است؛ از جمله عواملی مانند سابقه بیماری قلبی، وضعیت تأهل، میانگین قند خون و شاخص توده بدنی (BMI). اما زمانی که پژوهشگران میانگین قند خون را در برابر شناسه شرکتکنندگان ترسیم کردند، چندین ناهنجاری مشاهده شد.
یکی از آنها این بود که تعداد بسیار کمی داده گمشده وجود داشت؛ در حالی که دادههای واقعی معمولا ناقص هستند، چون برخی افراد پیگیری را از دست میدهند، از مطالعه خارج میشوند یا فوت میکنند.
بارنت میگوید: هیچ مجموعه داده واقعی در جهان تا این حد کامل نیست.
بارنت و گروهش دریافتند ۱۰۴ مقاله از این مجموعه داده برای ساخت مدلهای پیشبینی سکته استفاده کردهاند؛ از جمله یک مورد در بیمارستانی در اندونزی و یک مورد دیگر که روی چند نفر آزمایش شده است. یک مطالعه دیگر در آمریکا نیز نشان میدهد این مدل در یک «کلینیک قلب محلی» استفاده شده است.
این مجموعهداده توسط فدریکو سواریانو پالاسیوس، دانشمند داده در مادرید، بارگذاری شده و بیش از ۲۸۸ هزار بار دانلود شده است.
دادههای غیرقابل اعتماد بیشتر
مجموعه داده دوم با عنوان پیشبینی دیابت بهعنوان مجموعه داده جامع برای پیشبینی دیابت با دادههای پزشکی و جمعیتی توصیف شده است.
این مجموعه شامل اطلاعات ۱۰۰ هزار نفر است؛ از جمله شاخص توده بدنی، وضعیت سیگار کشیدن و سطح قند خون.
اما گروه بارنت دریافت که این دادهها فقط ۱۸ مقدار گسسته برای قند خون در کل افراد دارند؛ چیزی که از نظر علمی غیرممکن است، چون تنوع بسیار زیادی در افراد واقعی وجود دارد. همچنین هزاران مقدار تکراری نیز شناسایی شده است.
این گروه ۲۱ مطالعه را یافت که از این داده برای ساخت مدلهای پیشبینی دیابت استفاده کردهاند؛ اما هیچکدام از این مدلها تاکنون در محیط بالینی استفاده نشدهاند.
این داده توسط محمد مصطفی، مهندس داده در چنای هند، بارگذاری شده و او گفته است که دادهها از پروندههای الکترونیکی سلامت تجمیع شدهاند. او در پاسخ به یک کاربر گفته است که به دلیل محرمانگی یا محدودیتها نمیتواند منبع دقیق داده را افشا کند.
واکنش نویسندگان
ماه گذشته، پژوهشگران نگرانیهای خود را درباره ۱۲۴ مقاله در سایت PubPeer مطرح کردند؛ سایتی که دانشمندان برای بررسی پس از انتشار از آن استفاده میکنند.
کارپاگام، مهندس رایانه در مؤسسه فناوری هند، نویسنده اصلی یکی از مقالات در آوریل ۲۰۲۵ است.
او در PubPeer نوشته که از دادهها برای «اعتبارسنجی عملکرد» استفاده شده، نه برای نتیجهگیری بالینی. او همچنین گفته در زمان انجام پژوهش از مشکوک بودن یا مصنوعی بودن دادهها اطلاعی نداشتهاند. او اضافه کرده که استفاده از دادههای موجود در مخازن عمومی برای توسعه مدلها در جامعه یادگیری ماشینی رایج است.
واکنش مجلات
سردبیر Scientific Reports اعلام کرده است که در حال بررسی پنج مقاله است و در صورت لزوم اقدام خواهد کرد. از ۳۱ مارس، سه مقاله پس گرفته شدهاند.
یکی از همکاران یک مقاله اندونزیایی گفته که مطالعه آنها فقط یک پروژه دانشگاهی برای تست الگوریتم بوده است و در کلینیک استفاده نشده است.