激動のタンパク質計算科学
単なる話題提供ですが、タンパク質計算科学と呼ばれる領域が今日すんごいです。
(個人的に、第二のジスルフィドの発見, aducanumab承認, GlycoRNAに続いて2021の4大ニュースとしてランクイン)
GoogleよりAlphaFold2の論文がNature、RoseTTAFold論文がScienceに同時に出ました。
3D protein structure prediction via AI deep learning. つまり、たんぱく質の立体構造をAIで予想する系。この領域では今まで、実験、つまり「X線結晶構造解析」でやっていました。
(1953にワトソン、クリック、ロザリンド フランクリンがDNAの二重螺旋を発見した方法. いや僕そんな詳しくは知らないんですけど。)
従来の計算科学領域では、「やっぱ、計算では実験には敵わないよね」くらいのAIの予想精度だったのですが、Google がalphaFold出してきて、「うあやばい!計算が実験を超える日が来るかも?!!」みたいになってきたのがここ数年くらいで、去年の10月(論文未発表)に、AlphaFold2のデータが世に出てきて、「ヤベェ計算と実験がもう同じレベルじゃん。。。」ってなってました。
今回の論文は、その時のやつです。
もはや、実験で得られた構造とAI予測構造がほぼ同じやん!ってなってて、実際ズレも1オングストローム以下(水素原子1個分以下)くらいになってきています。きもすぎる。昔僕が産総研にいた時に、たんぱく質構造の予測でHomology Modellingって手法で同じことをやってたことがあるのですが、もはやこれがもうゲームというか幼稚園児のおもちゃみたいに思えてきます(多分実際におもちゃ)。
実際に当時から仲のいい産総研時代の研究員の方々に聞くと、Natureとかに出てくるディープラーニング創薬系の論文はもう日本では太刀打ちできないみたいな話でした。「この論文おもろくないっすか!」って言って見せに行くと、「ヤベェなこれ!!!え、もうコードも公開されてるんですか?!どれどれ。EEEええええ?!すごい。すごいです●●さん!!!ええ、もうこんなところまで行ってるんですか?向こうF1でこっち三輪車みたいな戦いですよ」って感じに言われたのをすごい鮮明に覚えてます。
しかしまあ、X線結晶構造解析は手のかかる方法で、タンパク質によっては結晶を作るのに2,3年とかかかったり、中には結晶を取れないタンパクもあります。結晶を取れたとしても、その解像度が低くて議論にならないとかいうこともままあります(それで苦しんでいる仲間を何人も知っています)。今でも結晶構造解析のデータを含む論文が出たら、1ランク上のjournalにいけるって感じがありますし、タンパクによってはNat, Cell, Scienceの姉妹紙クラスには乗るような世界です(先日京都大の同期が実際にSci Advに出してた。これで学位出すらしい。いいな。。)。
はい、単なる話題提供でした。
=====================================
参考文献
1.
=====================================
参考URL
https://science.sciencemag.org/content/early/2021/07/14/science.abj8754
https://www.nature.com/articles/s41586-021-03819-2
https://twitter.com/erictopol/status/1415732633305190405?s=21
Eric Topol のTweetが初期は参考になった:
https://twitter.com/erictopol/status/1415732633305190405?s=21
=====================================
関連書籍
タンパク質計算科学 ―基礎と創薬への応用