交流合作

您所在位置:首頁 > 交流合作 > 正文

科學家們可以看一下ML系統 并建議如何減少它的偏差

文章作者:www.utbltn.icu發布時間:2019-10-22瀏覽次數:1553

機器學習系統現在用于確定從股票價格到醫療診斷的所有內容,以及他們如何做出決策從未如此重要。

麻省理工學院的一種新方法表明,罪魁禍首不僅僅是算法本身,而是數據本身的收集方式。

“計算機科學家經常說,偏向這些系統的方法就是簡單地設計更好的算法,”麻省理工學院教授,大衛桑塔格和博士后助理Fredrik D. Johansson的主要作者Irene Chen說。博士生。 “但算法只能與他們使用的數據一樣好。我們的研究表明,你可以用更好的數據做出更大的改變。”

研究具體的例子,研究人員可以找出準確性差異的潛在原因,并量化每個因素對數據的個體影響。然后他們展示了如何改變他們收集數據的方式可以減少每種類型的偏差,同時仍然保持相同的預測準確性。

“我們將此視為一個工具箱,幫助機器學習工程師找出他們的數據所要求的問題,以便診斷他們的系統為什么會做出不公平的預測,”Sontag說。

陳說,最大的誤解之一就是更多的數據總是更好。獲得更多參與者并不一定有用,因為從完全相同的人群中提取通常會導致相同的亞群。即使是流行的圖像數據庫ImageNet,其數百萬張圖像也被證明偏向北半球。

根據桑塔格的說法,關鍵是走出去從那些代表不足的人那里獲得更多數據。例如,該團隊研究了一個收入預測系統,發現將女性員工錯誤分類為低收入和男性員工的可能性是高收入的兩倍。他們發現,如果他們將數據集增加10倍,這些錯誤的發生率將降低40%。

在另一組數據中,研究人員發現,對于亞洲患者而言,系統預測重癥監護室(ICU)死亡率的能力不太準確。現有的減少歧視的方法基本上只會降低非亞洲預測的準確性,當你談到像醫療保健這樣的環境時,預測可能會有生死攸關的問題。

陳說他們的方法允許他們查看數據集并確定來自不同人群的參與者需要多少來提高低精度組的準確性,同時仍然保持具有更高準確度的組的準確性。

“我們可以繪制軌跡曲線,看看如果我們增加超過2,000人而不是20,000人會發生什么。從這一點我們可以看出,如果我們想擁有最好的世界,數據集的大小應該是,“陳說。 “通過這種更加細致入微的方法,醫院和其他機構可以更好地進行成本效益分析,看看獲取更多數據是否有用。”

您還可以嘗試從現有參與者那里獲取其他類型的數據。但是,如果額外數據實際上不相關,那么這不會改善一些事情,例如IQ研究人員身高的統計數據。然后問題就變成了如何確定何時以及為誰收集更多信息。

一種方法是識別具有高精度差異的患者群體。對于ICU患者,一種稱為主題建模的文本聚類方法表明患有心臟病和癌癥的患者在準確性方面具有較大的種族差異。這一發現可能表明,對心臟病或癌癥患者進行更多診斷測試可降低種族差異的準確性。

該團隊將于12月在蒙特利爾的神經空間處理系統(NIPS)年會上發表論文。

蓝海赚钱