領導關懷

您所在位置:首頁 > 領導關懷 > 正文

中科院院士陳潤生:基因大數據將帶來全新的生物和醫療產業

文章作者:www.utbltn.icu發布時間:2019-12-06瀏覽次數:899

11月1日下午,首屆中國智谷會議和人工智能與產業創新峰會在江蘇省南京市召開。會議的主題是“感知時代,創造中國”。中國科學院院士,中國科學院生物物理研究所研究員陳潤生應邀發表演講。

陳潤生院士因完成中國完整基因組第一次完整的生物信息學服務而聞名。他在演講中詳細闡述了大數據在生物醫學領域以及精準醫學領域的廣泛應用前景,并指出中國目前在發展過程中面臨挑戰和機遇。

陳潤生院士對精準醫學有四個主要觀點。首先,精準醫學的本質是大數據和臨床醫學的結合。其次,精準醫學可以將醫療保健的基本概念從目前的診斷和治療推廣到健康。保證;第三,精準醫學的基因測序數據可以促進相關產業的分子診斷和藥物設計目標;第四,新的醫療設施與精準醫學的概念,以及衛生工作者的新型職業。

最后,陳潤生認為,目前精準醫學面臨的挑戰是如何利用基因測序閾值來減少數據帶來的大數據和數據背后的價值。

據了解,本次會議由新華網股份有限公司和南京市經濟信息委員會主辦,清華大學智能技術與系統國家重點實驗室聯合主辦。中國科學院沉陽自動化研究所機器人國家重點實驗室,清華大學全球工業4.5研究所及其他機構提供支持,新華網榮媒體未來研究所,新華網移動互聯網產品創新研發基地和江寧經濟技術開發區。

以下是陳潤生院士的記錄:

陳潤生:親愛的專家和領導,我很榮幸參加這次會議。我想今天我將談論大數據和精準醫學,因為現在每個人都知道精準醫學非常熱,雖然它仍然比人工智能小。兄弟,但我們知道,自2015年國際精準醫學討論以來,在包括我國在內的許多發達國家,不僅是每個人都非常關注的領域,而且我們的國家領導人對精準醫學的發展也很重要。說明也反映在資金中。

所以今天我主要談談精準醫學的四個方面。如你所知,2005年1月20日,美國總統巴拉克奧巴馬(Barack Obama)在美國進行了精密醫學研究。從那時起,精準醫學在世界范圍內普及。重視精準醫學的時間是不夠的,但熱量很高,所以我在四個方面談談我自己的看法,一個是與你溝通,我希望能夠開始一些討論。

第一個問題,精準醫學的本質是什么,核心是什么?我在中國看過各種各樣的評論。我已經討論過精密醫學的各個方面。我認為精準醫學的核心實際上是一點點。很明顯,就是大數據和醫學的結合。更具體地說,它是群體大數據和臨床醫學的結合。

換句話說,在臨床醫學中使用群體大數據來提高醫學診斷的準確性,提高治療效果。然后在這里,包括兩個含義,一個意思是小組學習的大數據,另一個是醫學。那么群體大數據包括兩個含義,一個是組學,另一個是大數據。我們知道,近年來,隨著臨床研究的發展,我們在基因組所代表的分子水平上獲得了越來越多的人類信息。這是前所未有的。然后,隨著基因組所代表的組學數據的發展,人們正在積累越來越多的關于遺傳密碼的信息,不僅包括遺傳信息,還包括蛋白質信息。后來,人們發現挖掘這些信息將獲得大量反映人類健康和疾病的信息。

因此,有人建議,如果將這些信息應用于臨床,肯定會提高臨床效果。這是精準醫學的本質意義。然而,僅獲得這些遺傳密碼的信息是不夠的。眾所周知,所有遺傳密碼的信息都是非常大量的大數據。這些大數據非常容易衡量,包括我們現在在我們國家所知道的。每個人都可以獲得元的遺傳密碼,但是你不了解你的遺傳密碼,因為它只有四個字,所以要讀他,你需要開發大數據分析。理論方法和技術,因此必須在大型臨床研究中使用組學數據和大數據分析方法的組合。因此,它的一部分是群體大數據,一部分是醫學,兩者結合起來形成精準醫學的本質和核心。這是第一個問題。關于精準醫學的本質,他也是因為該團體而來自實際的90年代。用于臨床開發的學習數據不能轉化為轉化醫學,個性化醫學,現在從2011年開始有精準醫學的名稱,但無論如何,他的本質是明確的,即群體大數據在臨床醫學中的應用。

第二個問題,精準醫學給醫學帶來了什么樣的重要變化?如果精準醫學只是稍微增加藥物,我認為精準醫學不一定會吸引更多領導者的注意,那么它會引起更多領導者的關注,精準醫學的內涵必然會有一些本質的變化,那么什么是這個重要的變化?總之,精準醫學本質上引起了各國領導人的關注。精準醫學具有改變醫療健康潛力的基本概念。也就是說,醫療的基本概念已從目前的診斷和治療轉變為健康保障。我們知道目前的醫療系統面向患者,那么他主要治療所謂的治療患者。但是,由于未來精準醫學的發展,由于群體大數據的干預,這個時間不僅健康。它僅適用于患者,適用于全體患者。如果我們測量他的全知數據并在他沒有生病時分析組學大數據,那么他可以評估他未來健康發展的風險因素。適當的干預,使一些疾病不發展,一些疾病降低他的程度,提高他的生活質量,使整個醫療衛生系統向前推進,并在疾病生病前評估和保證胃病。一些人認為,概念的根本變化可能會導致一些新興產業的出現。有人預測,所謂的精準醫學轉型所帶來的新概念可能會導致到2018年改變2000億美元。我不知道,這個數據是一些國際評估,當然,如果是200億美元。相當于2萬億元,對GDP有影響。精準醫學帶來的自然概念的這種變化必將引起各國領導人的關注。這是第二個方面,估計通過完成藥物可能會帶來一些重要的變化。

無論許多國家的精密醫學研究已經成為新一輪國家科技競爭和國際領先戰略的制高點,美國精準醫學的發展,我們都知道美國需要衡量100萬自然人的遺傳密碼。歐盟也在積極推動所謂的精準醫學研究,包括英國,法國等。日本也正在開發精準醫學。開展與精準醫療相關的投資和規劃。那么,我們如何才能仔細分析精確的藥物,以及以何種方式促進行業的轉型和發展?我認為至少有四個方面。第一個是促進大量生物樣本數據庫和數據庫的發展。如您所知,由于推廣精準藥物,需要測量數百萬人。首先,組織學信息涉及為數百萬人獲取,儲存,提取和提供生物樣品,這當然是一個大型工業。同時,這些樣本的數據大約為數百萬,這必須促進相應的大型數據庫的發展。據估計,該行業的規模可能在100億左右。

其次,對于這些樣本,我們需要測試基因組所代表的基因組數據,因此我們需要測試基因組,蛋白質組,轉移組。如你所知,這些測序數據現在已經進入公民的所有事件,所以你知道,測試你的遺產代碼,就是這樣。據估計,到2018年,這樣一個序列的規模將達到117億美元。因此,隨著樣本庫和粗略數據的測量,在這些海量數據挖掘的基礎上的下一步可以促進大量新的分子診斷指標的生產,我們知道,將增加很多與疾病相關的信息,其中許多可以用作新疾病的標志物。同時,可以找到許多新的藥物設計目標,這促進了第三產業。所謂分子診斷和藥物設計目標相關產業。

第四個當然是新的醫療設施,與精密醫學的概念。例如,有必要建立一些衛生資源和一些衛生工作者。這些行業如今可以與醫院和醫生聯系起來。這個行業不可避免地會帶來變化,而且已經在國內得到了反映。數百家小公司逐漸建立起來。當然,他們是如何獲得更好的發展還沒有討論。

我國精密醫學的發展目標沒有詳細描述,與國際接軌。在這第二個方面,精確醫學能帶來什么樣的本質變化,如何促進工業的發展,以及幾個行業的發展都能起到領導或引導作用。

我想說的第三個問題是實現精確醫學。你想做什么?有什么可以做得更精確呢?所以精密醫學,我想至少有兩個條件。第一個必須有集團大數據的基礎。我們知道,精密醫學是在臨床實踐中使用群體大數據,所以首先要獲取群體學習大數據,然后是基因組學、蛋白質組、轉移組、代謝組等,這些數據都是無用的,第二步是挖掘群體數據,挖掘將使用群體大數據。他提出了數據分析的理論方法,包括張先生剛才提到的人工智能方法、深度學習方法等,這種基于知識的方法用來挖掘這些組學,從分子水平上獲得與疾病相關的知識。它是第一個基礎。

利用臨床疾病中使用的這些分子知識和組學知識,我們必須建立第二個基礎,即建立由基因型代表的信息核的分子水平。信息轉換應用于疾病的診斷和治療。那么這就是建立所謂的生物信息學,生物網絡,系統生物學等。有了這兩個基礎,我們當然可以更好地實現精準醫學。一個非常重要的事情是精準醫學的發展應該與當前的臨床成像,臨床生化測試和當前的臨床知識很好地結合。并不是某些公司已經確定了他們的測量順序。實際上,情況并非如此,應該更好地結合起來以使其更準確。精準醫學只是將新數據應用于原始數據以使其更好。

據說處于第四階段的精準醫學處于什么階段?眾所周知,也許我們目前的精準醫學已經成為每個人的熱門話題。每個人都認為我們現在可以做到一切準確。醫學很容易準確。我個人的觀點,精準醫學,雖然它實際上可能帶來變化,可能引領新的行業發展,也許行業的規模是巨大的,但現在它只是在路上,剛剛開始!為什么?在精準醫學的概念下,我們仍然面臨著巨大的挑戰,我們仍然面臨著巨大的困難。因此,我將在下面舉一個或兩個例子來說明目前整理藥物的困難。

為什么精準醫學只是在路上?我們的創新機會在哪里?我們在哪里面臨挑戰?在我的小組學習中,我只會舉一個例子。在我們的臨床代碼中,在我們的小組研究中,仍然有很多黑暗的信息。我們所謂的臨床密碼費用元來衡量你可以采取我自己的遺傳密碼,但現在我們只能分析一小部分法則,這就是基因組中所謂的黑暗信息,這是一個人的遺傳代碼,我們在這里有你們所有人,我也有,然后像這樣的遺傳密碼,許多重要的地方正在影響整個人的生產和法語。我們是3-10九個權力。如果你花1萬元,很容易測量密碼。如果你轉向側面,每3000個數量到一頁,100頁強大的一層,如果你把自己的臨床密碼放入密碼,它是10,000份,每頁3000個字符是你自己的遺傳密碼,我相信就個人而言,很容易獲得。您可以獲得此密碼。如果你讀每頁一千厘米,我們自己的書是厘米,這是一個白米飯。每個人都可以想象你的遺傳密碼與四十層樓的地板一樣高。每個頁面都是這樣的。如果你讀它,你會準確的。我相信沒有人可以準確。我想告訴你世界各地的所有科學家。智慧,包括生物醫學科學家的智慧,這一次,現在是我們的集體世界,我告訴你,世界上可以定期理解的部分只占這種遺傳密碼的3%。我已經多次報道過這個概念。要把這些信息傳遞給大家,似乎每個人都認為我現在知道這個密碼,不是最多,只有3%,其他97%實際上并不了解世界的智慧,大多數都不了解。

好吧,我會給你一個最普遍的證明。如果你去看看,2010年12月17日,每個人都知道,每年12月的見解將被選為2010年12月的自然科學十大突破。本期第17期評論了十大科學突破。一個是年份,另一個是人類進入21世紀并進入了這個世紀。十年來,這個十年已被添加,即與我們最接近的十年。在將所有事物放在一起的那一年,自然科學領域不僅是生物醫學,而且是自然科學中最值得關注的十件事。出現的第一個就是這個。每個人都很容易找到這個,因為這個見解非常容易找到。他說什么,表明我們的基因組或我們的遺傳密碼中的暗物質,意味著我們的大部分遺傳密碼到目前為止仍然是黑暗的,那就是97%是黑暗的,我想讓我在下面給你一些擴展的解釋。

首先,從遺傳密碼的角度來看,事實上,我們97%的遺傳密碼,從整體上來說,從法律上來說,我們人類仍然不理解,我們從中學知道的3%人都知道,尊重中心蛋白質信息的發展,3%是蛋白質生產的遺傳密碼。我們知道他的分類并了解他的信息,但其他97%的遺傳密碼與蛋白質組的產生無關。知道他在做什么,這就是遺傳密碼中的所謂暗物質,也是遺傳密碼中的非編碼序列。然后我們可以考慮這個概念,當我們測量遺傳密碼時,97%的密碼仍然是未知的。我們怎么能在這種情況下準確?因此,它遠非精確。

我舉一個戰時比較基因組的例子。這是與人類基因組一起測量的模型生物。每個人都看到頂部是大腸最短的感覺。它是大細胞的圓形細胞生物。沒有細胞核。你可以看到順便說一下,這整體代表了他的遺傳密碼,85%是紅色的,或85%用于編碼蛋白質,都知道分類的一部分,所以對于一個非常低級別的生物,如果你測量他遺傳密碼,你知道他的生活在85-90%,哪些蛋白質是已知的,但生物學更高。我們來看看中間的酵母。這是一種單細胞真核生物,略高一點。您可以看到,他用來編碼蛋白質的部分或分類的部分減少到70%,未編碼的部分增加到28%。讓我們來看看最右邊的一個,即Fairchild。這很簡單。細胞生物學雖然簡單,但已經多細胞,許多細胞,而不是單細胞。此時,您可以看到編碼蛋白質的部分減少到28%,非編碼部分增加到71%。果蠅,昆蟲,紅色部分減少到17%,非編碼部分增加到82%,97-98%是非編碼序列,所以一個所謂的比較基因組進化邏輯告訴我們,我們可能從簡單到復雜,從地面到更高,蛋白質更多,錯誤。事實上,生物從簡單到復雜,從地面到更高,增加的是非編碼序列,到目前為止我還不了解法律。這對我們來說是準確的,你做基礎生物學的巨大挑戰是我們現在感到困惑。事實上,在測量我們的遺傳密碼后,我們發現我們大多數人仍然不知道生物效應。

有些人有兩個職能發揮作用。遺產代碼被稱為基因,生成生物有一個重要條件。我們的信息將被分發。有了生物學的東西,這個遺產代碼必須轉向,第二個進入21世紀。科學家提出了這個問題,稱這些占人類基因組遺傳密碼的97%。它是一個正確的產品嗎?有信息要分發嗎?換句話說,他是否積極行使職能?我不會詳細說明這個結果。這個結果是100%正面的。尋找這些非編碼序列就像我們制造蛋白質的基因一樣。它表達的每一刻,每時每刻,所以他們真的在做生物功能,然后我可以舉幾個這些事的例子,他與腫瘤的關系,當然,雖然我們不完全理解它,但有一些支離破碎舉例說明他的生物學功能。例如,有一種來自97%的產品,稱為PCGEM1,它可以引起前列腺癌,而不是由蛋白質引起的,更重要的是,MALAT-1可以導致細胞肺癌。我們都知道我們國家的肺癌正在增加。在速度上,我們現在在臨床醫院,用于檢測腫瘤的指標是我說的3%,治療目標也是你使用的藥物的3%。我現在告訴你,97%,有很多例子。他也與癌癥有關,但它從未被納入我們的臨床診斷和治療。你認為這種腫瘤能治好嗎?大腦中沒有概念。你沒有考慮過他。當然,我沒想到會發現并對待他。當然,例如,代謝性疾病是相同的,也就是說,我們仍然有97%更嚴重的情況相關的事情到目前為止尚未如此融入我們的診斷和治療愿景,即所謂的黑暗精準醫學面臨組學的信息。很大的挑戰。

當然,也有好的。如您所知,H19是非編碼序列的重要組成部分。他可以保護我們。如果我們的一些細胞變成癌細胞,我們可以通過細胞樣途徑將它們摧毀。這就是我們所知道的P53。同樣,我們知道97%與我們的疾病和健康有關。我們找到的這些代碼中有多少找不到。眾所周知,3%的人很容易知道。我們可能有一個基因。這是基本預防。我們97%的人現在可以評估。他有多少原件?我知道我們不了解人。出于道德原因,老鼠,他的基因研究已經做了研究,并且所有原件都是采取的,無論你是編碼還是非編碼,共發現181,000。這是實際執行鼠標功能的原始函數的下限。事實上,它肯定比他大。在此發現3%的含義決定了20,000。換句話說,我們仍然有161,000。 97%,這個161,000,據我所知,世界上有多少科學家分析過,大約有1000個,換句話說,還有160,000個機會,你找到了一個新的功能原創,你做了他的功能,毫無疑問他是發表于Insight非常好,現在告訴大家仍有16萬個機會,有太多機會發現一些非常重要的組件功能。這兩個區域在2016年由這兩個區域進行了97%的研究,我曾經開過個玩笑,說每個人都有3%計算從1900年開始研究約有50%Noel近3%的贏家,現在知道有97% ,97到3,大約1300左右,所以我們有超過一千個機會在這個領域做出原創和特殊的貢獻,只有一個地方被占用,所以我們有巨大的機會。然后這是他們依靠獲得諾貝爾獎的論文。

因此,從精準醫學的角度來看,我們現在做不到的準確性是因為存在巨大的數據。他唯一的兩根手指沒有挖掘,但另一方面,他可以給我們一個全新的。這個機會,無論是對技術研究還是產業發展的巨大研究,所以非編碼研究無疑將為疾病的診斷和治療提供新的診斷方向,或為藥物的設計和開發提供新的平臺,對于新物種,新特性的培育提供了新的基礎。組學有很多方向。精準醫學才剛剛開始。時間和時間之間的關系是兩三分鐘。我認為大數據,每個人都是大數據專家。我想我只能很快談論這個話題。事實上,在分析大數據時仍然存在一些核心挑戰。第一數據量很大。眾所周知,當前的音序器可以在一次普通操作中轉到1T。數據方面,世界上有成千上萬的這類儀器,包括所謂的數據,在我的小組中得到一個T,所以這些數字量非常大。然后每個人都有3×10九種力量。測序時,他測量了他的基因組并使用了100萬美元。現在每個人都知道,只需1萬美元,您就可以獲得自己的遺傳密碼。

這些數據告訴您,就數據質量而言,他的噪聲非常高,同時大量此類數據源缺失值。第二個樣本非常小,我們要解決腫瘤問題,但我們知道腫瘤變量,自變量可能是幾萬個,但我們的樣本只有一百個數量級,那么我們為什么要測試,例如,要研究腫瘤或心腦血管疾病,他自己的變量是數千個訂單,我們的百萬級,就像政府一樣,測量一百萬人就足夠了。其次,我們建立一個合適的數學模型,以便我們可以匹配,而不僅僅是一個特定的基因,它還涉及到網絡。這些網絡知道這些網絡是動態的,有些是不同的。每個人都知道,不僅是群體數據,還有生物數據,我們需要的不僅僅是科學和技術界。我們知道我們的國內數據共享存在根本問題。如果數據共享問題沒有解決,我們就是在大數據,小數據工作時代,發布小數據的公司,顯然不能適應國際競爭的趨勢。所以我在后面非常粗糙,對不起,占用每個人的時間,謝謝!

蓝海赚钱