人類的代碼是什么?
可能大家都知道基因是一個生命的源代碼,我們可能很小的時候就就問我們的父母,我們到底從哪里來?當然,我們很久之后才知道我們不是從垃圾箱撿來的,我們是人體的3D打印機打印出來的。
那我一直在問,這個3D打印機怎么知道哪里是我的眼睛哪里是我的鼻子呢?實際上3D打印機的背后是生命的源代碼,我們從父母雙方繼承來的遺傳物質。
父母精子和卵子的結合,最關鍵過程實際上是遺傳物質的交換、重組形成了新的生命。每個人的源代碼都是不一樣,這就解釋為什么我們每個人都是特一的,都是唯一的。
不僅僅我們人與人之間的源代碼不一樣,我們和我們周圍所有生命世界,都是由源代碼控制的,而且這些源代碼都不一樣,正是這種不一樣才塑造出我們多姿多彩的世界。
當然我們今天聽到林老師的分享,這樣的不一樣,造成了玫瑰的多姿多彩,玫瑰是美的。但是我們也聽到大苗的演講,我們在這世界上還有這樣一群因為出生遺傳缺陷而導致的各種障礙。
實際上源代碼的各種變化有很多,它們會造成錯誤。我們知道,地中海貧血癥在中國的南方兩廣地區人群中錯誤的攜帶率高達1/9,九個人里面有一個人攜帶了這樣的錯誤。
而這樣的這樣錯誤導致了紅細胞的攜氧能力不足,最終導致了這些小孩沒有辦法像正常小孩一樣活潑健康地成長。這樣的變化同時也會引起更嚴重的疾病,比如說癌癥。
中國現在一年新發的癌癥超過了400萬,而這樣的癌癥變化是怎么來的?癌癥的變化實際上是源代碼出錯最后導致失控。
比如說,這里舉一個例子,P53,這是一個很簡單的基因,這個基因一小段序列的缺失最終導致了整個癌癥通路的激活,最終導致了癌癥的發生,所以這種錯誤實際上是非常可怕的。
所以我們就想,既然這個代碼很重要,我們一定要把這個代碼解讀出來,從而能夠掌握這樣的代碼,所以我們就要做一件事情,就是要把這個代碼測出來,我們叫做測序。測序怎么測呢?實際上基因的源代碼只有4個字符——ATCG。
就像計算機里面用的0、1這樣的字符來代替所有的信息一樣,ATCG長串序列的組合造成了所有源代碼的基本組成。這個ATCG源代碼存在于什么樣的物質上呢?存在于一種我們稱之為DNA的物質上,這可能是目前是世界上最有效的存儲體系。
0.000,000,000,001,5克的DNA里含有30億堿基的信息,包含了我們一生生老病死的壓力。如果用1克DNA來計算的話,信息量可以達到ZB級別,這可以把目前沉淀下來的所有互聯網數據都裝進去還足夠。
所以這是一個非常有效的存儲體系,它字符間的間距只有0.34納米,遠遠強于我們目前半導體工業10納米的水平。所以這是個非常復雜的體系,我們想去解讀它是一個艱巨的工程。
所以我們在解讀第一個人類基因組的時候用了13年,有6個國家的200多位科學家花了30億美金才完成。當然隨著技術進步,我們已經可以非常容易和快捷的把基因組測出來。現在所有人都可以非常簡單的擁有自己的基因組,那這是怎么做到的呢?
首先,我們的DNA在細胞核里面,我們把DNA從中體取出來。但是DNA非常長,將近有上億個堿基的序列。
所以我們為了簡化工作,必須把它打斷成一段一段的小碎片,這樣可以大大簡化我們的工作。然后我們再把它形成這樣的一個結構,通過這個結構把DNA復制上千遍。
復制的目的是為了放大信號,這樣信號就可以放大一千倍,讀取起來就會更容易。這樣上千倍的DNA可以相互纏繞,形成一個納米球,它可以放到測序芯片上進行測序。
而測序的時候我們把四種堿基ATCG分別標成不同的顏色,A標成紅色,C標成黃色,T標成橙色,G標成綠色。這樣我們就可以按順序把堿基的序列讀出來。
我剛剛提到,這是一個很小的片段,我們把上億個片段組裝成人們的基因組。
可以「讀」以后,我們還能「寫」基因嗎?
正是因為我們可以讀,所以我們現在非常想寫。寫這個事情我們人類一直在做,試圖扮演上帝的角色。從人類有農業開始,就一直在做改寫源代碼、改寫基因組的工作。
我們在實驗室里有更高效的方式,從外源導入基因,比如將水母熒光蛋白轉入到小鼠體內做一些功能試驗,最近非常熱門的是基因編輯,它可以非常精準的對幾個堿基進行修改。
所以剛剛提到的一小個字符的錯誤,一小段序列的缺失,也許未來我們可以通過這種更精準的基因治療方法來治療疾病。為什么基因編輯這么熱?就是因為它帶來了治愈疾病的新的希望。
當然,掌握了這些編碼的規則之后,人類最想做的還是真正創造自己的生命,從頭開始寫自己的代碼。
合成生物學就是從頭寫人工代碼的這樣一項工作,我們已經成功完成了細菌源和生物的編碼撰寫,最近我們在做的是人工酵母的基因組撰寫。可以想見,隨著我們讀和寫能力的提升,我們改造命運、改造規則的能力會越來越強。
有了這些技術,我們在想怎樣讓這些技術造福人類。
2008年,華大收到了一封長長的血書。這封血書是一位魚鱗病患者的媽媽咬破手指寫的,這位媽媽本身也是位魚鱗病患者。她一生中遭受過許多痛苦、孤獨和不幸。
但當她生下自己的小生命時,發現女兒遺傳了自己的疾病基因。這位母親非常痛苦,陷入深深的自責。這樣的故事在中國各個地方到處都在發生,但這本是可以避免的。
中國的出生缺陷比例是5.6%,也就是每20個新生兒里面可能就有這樣那樣的殘疾,很多家庭都是因為這樣因病致貧。這個事情從本源上來說就是基因出錯,從目前技術來說是完全可以解決的。
所以我們想用這個幫助每個家庭都能生出健康的寶寶,所以我們啟動了「千萬家庭遠離遺傳出生缺陷」計劃,用技術試圖改變這樣的現狀,把中國的出生缺陷降下來。
通過我們的努力,目前已經對600多種疾病進行了篩查,完成了150萬例孕婦的篩查,幫助了8000個家庭避免了出身缺陷的不幸。
同樣作為基因組的疾病,癌癥也可以通過基因組技術來進行改變,擺脫規則的束縛。
這三位美麗的女明星,梅艷芳、陳曉旭、姚貝娜,她們都是因為癌癥離世,而這些本都可以通過技術的力量去改變的。
而安吉麗娜朱莉,她通過基因檢測發現自己攜帶了BRCA1基因突變,而這誘發乳腺癌的風險高達87%,所以她毅然決定進行了雙側乳腺的切除,從而避免了罹患乳腺癌的不幸。這樣一個技術完全是可以推廣到所有人可以使用的。
如果身患癌癥,因為這是基因代碼出現了錯誤,所以也是可以改變的。當你找到代碼樹到底是哪段出錯后,可以選擇精準的靶向用藥,從而能夠贏得生機。
當然,最好的還是在癌癥還沒有出現或者是在早期的時候,將其扼殺在搖籃。所以我對游離DNA檢測的技術非常熱衷,這可能最終幫助人們消滅癌癥,或者把癌癥當作感冒一樣去治療。
什么意思呢?大家都知道,懷胎需要十月,癌癥從最早一個細胞的突變,到變成癌癥組織,它也需要漫長的時間,少則五六年,多則十幾年。但當它長成影像學可以觀測到的時候,已經到了中晚期。
如果我們能夠在早期,甚至只有幾個細胞的時候,像我們做新生兒篩查,在懷孕第十周時就能檢測到體內的變化,那么癌癥的治療應該不是難事。
這樣的事情其實是可以做到的,和新生兒細胞一樣,癌細胞是會快速增長的細胞,它會把自己代謝產生的游離DNA釋放到血液中,循環系統搜集全身的廢物,最后在血液里匯集。
所以我們可以測定血液里含量極低的突變,來進行早起的檢測和干預,從而預防癌癥。所以我覺得,這是技術帶來的突破。雖然這個技術還在早期,但我越來越看到它給治療癌癥帶來的希望。
共享數據,造福全人類
我們到目前已經掌握的知識,已經徹底改變了對疾病的認識。我們現在雖然能讀出基因組所有的序列,但真正能夠去解釋的含義不超過1%。有99%的區域,我們稱之為基因組上的暗物質。
我們知道這些暗物質區域有它的功能,但它們到底怎樣影響我們的生命形式,我們還不知道。所以我們在做的事情就是希望突破人類對基因的局限,真正掌握自己的命運,讀懂基因組的每一個字符,但這個工作量非常大。
比如讓人工智能去研究一個蘋果,它要去看一千個、一萬個蘋果;同樣,你要研究一本生命之書的變化,你要演講上千上萬,甚至百萬級別的變化。
我們做了一個計算:如果想得到1%新的基因組認知,至少需要ZB級別的數據量,基本上看起來是不可為。所以為了產生足夠的數據量,我們必須有足夠便宜、足夠高通量、足夠快速的平臺和工具。
說到通量最大,華大基因5年前就號稱全球最大的基因組中心,我們買了128臺進口測序儀。我們從中得到了巨大的科學發現,也獲得了巨大的產業突破。
但我們也遇到了瓶頸:因為最大,所以被高度關注,在技術上、儀器維修上、價格上受到各種圍追堵截。我們深刻體會到,沒有自主知識產權所導致的快速發展瓶頸。
4年前到今天,我們花費40億做了一件事,做真正自己的國產測序儀。這件事,我們在去年年底的時候做成了,大家可以看到,我們在做第一個人類基因組測序的時候花了30億美金,做第一個中國人基因組時花了100萬美金。測一個基因組還需1萬美金。
當我們發布第一臺自主測序儀時,價格降到了1000美金。但這還遠遠不是我們的終極目標和追求。我們希望價格可以更低,低到什么程度?幾百美金,甚至幾百人民幣。
正是因為我們有了自主的平臺,所以我們擁有了最大的數據。到目前為止,我們測定了1000萬份不同的樣本,產生出超過20PB的數據,美國前副總統戈爾在他一本叫《未來》的書中做了統計,認為華大基因產出了全世界50%以上的基因組數據。
我們對全球農業基因數據的貢獻也超過了70%。按照傳統的商業邏輯,我們好像應該把這些數據像寶貝一樣藏在角落里,自己去挖掘。但實際上,我們沒有這么做。因為只依靠我們自身的能力,是不可能解讀出人類的天書的。
所以我們做了一件事,把已經產生的數據、即將要產生的數據、人類未來所有的數據都放到一個共享的平臺,我們建了一個全球最大的基因共享平臺,叫做中國國家基因庫。
這個庫在今年9月22日將正式對外開放。我們建這個平臺的目的,就是為了匯聚全世界的科學家和全球所有聰明頭腦的力量,共同解讀人類基因組這本天書。
我們覺得,雖然道路還很曲折,但是想要真正能夠掌握自身的規則,掌握人類自身的生命密碼,100%的理解基因組里每一個字符的含義,這一天的到來是可以預估的。
到了那一天,我們也許就能實現人類的終極追求;到了那一天,也許我們就可以讓基因科技真正造福人類;到了那一天,也許我們有希望治愈所有的疾病;到了那一天,我們可以期待所有人都可以健康的活到120歲。
因為除了人類的基因之外,我們也掌握了所有基因的天書。
我們也有可能解決農業的問題,真正解決饑荒的問題。我們也能夠和自然和諧共處,建設未來城市。
所以我們在做的事情絕不僅僅是一群科學家對生命本源的熱愛,而且我們在做的可能也是全人類最大的公益事業。
人類從來沒有停止過對自身本源的探索,也從來沒有放棄過對生命的追求。
從古代帝王道士煉丹,到達芬奇的密碼,其實大家一直都是在這路上探索著。
我們一直在做的就是這樣一件事——探索生命本源的密碼,真正幫助人類擺脫生老病死的自然規律,最終把人類自己的命運掌握在手中!