理化学研究所主宰の哺乳類ゲノムの国際研究コンソーシアム、FANTOM。現在の第5期FANTOM5では、500種類以上の細胞(臓器由来含む) について、ゲノムから転写されたRNAが網羅的に測定・解析された。FANTOM5データの多くはすでに公開済みだが、データ取得プロセスや試料の品質、データ処理などを詳しく記述した報告は、今回のScientific Data が初めてだ。同時に、FANTOM5などの遺伝子発現データを簡単に検索・閲覧できるウェブツール「RefEx」に関する論文も同誌に報告。公開データの活用を促すこれらの研究に尽力した4人のデータサイエンティストに話を伺った。
------
―― FANTOMは、日本の代表的な国際研究コンソーシアムの1つです。その名付け親は坊農さんとお聞きしました。
坊農:FANTOMの発足は2000年にさかのぼりますが、当初の目標は、「マウスcDNA(遺伝子)の機能アノテーション」でした。そこで、その英語表記からアルファベットを抜き出し、覚えやすそうな名前、FANTOM(ファントム)を考えつきました。このコンソーシアムは、主宰の林崎良英(はやしざき・よしひで)博士の下で、現在の第5期まで継続し、発展してきています。途中で対象がマウス(mouse)ゲノムから哺乳類(mammalian)ゲノムに変更されましたが、幸い、名称につく「M」の文字は変えずに済みました。
―― アノテーションとはどういう意味ですか?
坊農:アノテーションは「注釈付けする」という意味です。ある生物のゲノム配列が解読されても、長い配列のどこにどのような遺伝子が存在し、それがどのように転写されて遺伝子発現が起こるのか、といったことは即座には分かりません。それを明らかにすることを、ゲノムの機能アノテーションといいます。実際、ヒトやマウスのゲノム配列が解読されて15年以上たちますが、ゲノムの機能の全容はまだ十分解明されてはいないのです。ゲノムの機能を明らかにする方法の1つに、ゲノムDNAから転写されて生じるRNAを調べる方法があります。細胞に含まれる全RNA(トランスクリプトーム)を抽出し、その配列や量を明らかにするのです。それをさらに詳細に解析すると、遺伝子の発現量、転写の調節の仕組みなど、いろいろなことが明らかになってくるのです。FANTOMはこれまで一貫して、トランスクリプトーム解析を軸に進められてきました。
―― では、最新のFANTOM5の研究内容について、第5期の中心メンバーの川路さんと粕川さんにお聞きします。
川路:FANTOM5でも、細胞の全RNAを解析しました。今期の特徴の1つは、この解析を、体中のさまざまな細胞や臓器に対して行った点です。ヒトとマウスが中心ですが、500種以上に上ります。
過去に、がん細胞株などを対象にした解析は数多く行われてきましたが、今回は、正常な細胞(初代培養細胞、組織片)を大規模にカバーした点に特徴があります。また、規模は小さくなりますが、ラット、イヌ、マカクザル、ニワトリを対象にした解析も行いました。もう1つの特徴は、全RNAの解析に、理研が開発したCAGE法を用いたことです。これは、転写の開始点を一塩基解像度で測定できる方法で、得られた開始点の情報をもとに、プロモーターを18万個、エンハンサーを6万5千個、ヒトゲノム中に同定できました。複雑な遺伝子発現の制御の一端を示すデータです
―― FANTOM5の研究成果はすでに論文発表されていますね。
粕川:はい。2014年にNature に発表したプロモーターやエンハンサーに関する論文を皮切りに、50報以上の関連論文が報告されています。最近は、ノンコーディングRNAやマイクロRNAに関する論文も出ました。FANTOM5には、共同研究者を含め、20カ国から500人が参加しており、関連論文はまだ増えると思います。
Scientific Data の記事としてデータを報告
―― 今回、FANTOM5のデータに関する報告をされました。
川路:FANTOM5の膨大な研究データを、他の人々にも活用してもらいたいと考えていました。哺乳類の細胞多様性と遺伝子制御に関するデータは、生命科学研究の基盤になりますので。
そんな折、データの出版に焦点を当てたScientific Data やData in Brief といったデータ・ジャーナルが創刊されました。データ取得の背景、データの品質や内容などの詳細に関する報告は、そのデータが自分の期待と合致するかを知りたい潜在的な利用者にとって有用である、という背景からだと思います。そこで、Scientific Data の記事(Data Descriptor)として、FANTOM5データの全体像や詳細を報告することにしたのです。データの多くは、すでに公共データベースに登録・公開されていましたが、データが利用される機会をもっと広げたい、という思いがありました。
―― いくつかに分けて報告されていますね。
粕川:はい。データ取得の方法は対象とするRNAの種類によって異なりますし(例えばノンコーディングRNAならばCAGE法とRNA-seq法など)、最適なデータ処理プロセスも対象生物により異なります。そこで、大まかなグループ分けをして、別々のData Descriptorとして報告しました。
川路:まずはヒトとマウスのCAGEデータについて報告しましたが、今後、ラットとイヌ、マカクザルのデータも順次報告していきます。Nature Researchのウェブサイトで、関連記事がFANTOM5 Collectionとして特集されています。
川路:冒頭には、Scientific Data に掲載されたComment記事へのリンクがあり、ここでFANTOM5データの概要を解説しました。また、Nature や関連誌に掲載された論文も集められ、FANTOM5の成果が一望できます。
―― データ更新に関するData Descriptorも含まれていますね。
粕川:RNA配列のゲノム上の位置は、ヒトゲノムの参照配列に対応させて割り出します。ところが、参照配列は何年かごとに更新され、既に、FANTOM5で使用したものより新しいバージョンが登場しています。そこで我々は、データ公開に当たり、最新バージョンを使用してFANTOM5データの解析をやり直し、再処理済のデータとしたのです。最新のデータでなければ、使用されなくなりますからね。
このデータ再解析の仕方をData Descriptorで説明しました。それは1つの解析プログラムを走らせれば済むという単純な作業ではなく、解析結果の妥当性を評価し、評価に基づいてデータの扱いを変更するなど、多くの判断が求められる作業でした。このような再解析や更新作業は、データの利便性を維持する上で必須であるにも関わらず、科学的発見でないとして論文発表に至らないケースが多々あります。今回このような形でこの成果も発表できたのはとてもうれしいですね。
RefExからもFANTOM5のデータが閲覧できる
―― 坊農さんと小野さんはScientific Data のArticleの記事カテゴリに報告されていますね。
坊農:私と小野さんは現在、DBCLSに所属しており、研究者が使いやすいウェブツールを作り、データ共有化や再利用促進に資するのがミッションの1つです。そこで、FANTOM5のデータを含む、遺伝子発現解析の基準となるデータを閲覧・検索することができるシンプルなビューワー「RefEx」を作りました。FANTOM5のデータが広範囲の生物学者に有用であることや、データを利用しやすくすることの意義などをこの記事で説明しています。
小野:FANTOM5のデータは、理研のデータベースからも閲覧可能ですが、そこでは、転写調節機構の解析に主眼が置かれています。従って、詳細な転写開始単位ごとの検索画面が用意され、RNAを定量したデータは「転写開始活性」として表示されています。一方、私たちは、転写調節解析を専門としない一般的な生物学者でもデータを活用できることを目指しました。そのため、FANTOM5データを再解析し、得られた転写開始単位ごとの詳細なデータを遺伝子単位にまとめて、いわゆる「遺伝子発現量」として検索できるようにしてあります。
―― RefExは2012年頃から公開されていますね。
坊農:はい。RefExはもともと40の健康な臓器別の遺伝子発現を比較できるウェブツールとして出発し、小野さんと私が中心になって充実化を進めてきました。現在は、従来の40臓器別分類データに加え、FAMTOM5専用ビューワーを追加する形で表示しています。
小野:遺伝子発現データは、測定する試料の種類や状態、計測方法の影響を大きく受けるので、信頼できるデータの基準のようなものがほしいと学生のころから思っていました。ですから、複数の手法で測定したデータが一覧できるRefExの作成には、大いに意義を感じています。
データ共有の促進にScientific Data が果たす役割
―― Scientific Data の目標の1つは「データ再利用の促進」です。同誌はどのように活用できるとお考えですか。
粕川:私はゲノム分野の研究者として、常日頃から他の研究コンソーシアムなどのデータを使用しています。今の時代、そうしないと研究になりません。そのようなときに、データの説明や品質などを確認する必要がありますから、Scientific Data に説明があるのは大助かりです。これまでは、論文のsupplementとして記載されていることが多かったのですが、説明が不十分で分かりにくく、データが複数の論文に分散していることさえあります。
坊農:いわゆる一般的な実験研究者にとっても、自分の研究に公共データを利用することにはメリットがあるでしょう。例えば、無駄な実験をしないで済むといったような。ですから、彼らにとっても、データが分かりやすく解説されていることは有用だと思います。
―― 一般の実験研究者は、遺伝子発現データを具体的にどのように利用できるでしょうか。
川路:山中伸弥(やまなか・しんや)先生は、細胞の初期化因子候補を絞りこむ際にFANTOMのデータも活用された、と伺ったことがあります。
小野:そうですね。まず考えられるのは、候補遺伝子の絞り込みでしょう。例えば、がん治療の標的となる遺伝子の候補を数十個得ていた研究者が、RefExを用いて正常組織での発現量が非常に低い遺伝子を検索し、追加実験の対象を効率的に絞り込むことができたといった例があります。
坊農:自分の出したデータの再現性の検証にも使えますよね。自分たちの研究結果を公共データを用いて再解析し、同じ結果が得られることを示す、という方法です。このような再解析を行いたい実験生物学者は大勢いると思います。ただ、多少のデータ解析技術を学ぶ必要はあるでしょう。そのための講習会を私たちも開いています。
―― データを再利用するときの注意は?
小野:オリジナルデータがどのような条件で得られたものか、そして、適切な品質の実験で得られているかを確認することが大切でしょう。
また、データを再解析してRefExなどで提供する側としては、ビューワー内の情報をたどれるようにしておくことが重要だと思っています。データの信頼性は再解析者側でも確認していますが、本来的にはオリジナルデータに依存するからです。そういう意味で、Scientific Data の役割は重要です。なおRefExでは、私たちがオリジナルデータをどう処理したかも、もちろん明示してあります。
―― では、データの生成者は、Scientific Data への報告を通じて何を期待しますか?
川路:苦労して取得したデータなのでぜひ広く活用して欲しいと考えたとき、データを中心とした報告ができる場がある。これは、とても大きなメリットだと思います。
粕川:データベースの更新が研究者としての評価の対象にならないのは、1つには、データの引用を評価するシステムができていないからです。今回のScientific Data への報告がきっかけで、評価につながるシステムが形成されることを願ってやみません。
―― データ共有や再利用が日本でも盛んになるのですね。
坊農:データの共有を促進することが世界的に重要視されている現代、日本でもその動きが急速に加速していると感じます。日本は、データ解析者の「バイオハッカソン」を主宰してきました。データのFAIR原則は、このバイオハッカソンから生まれたものです。
FANTOMプロジェクトからも今回のようなデータの報告があり、データ共有が世界でも日本でもますます盛んになっていくことを期待しています。
―― ありがとうございました。
*1 Collection: The FANTOM5 project
*2 バイオインフォマティクスに関連する技術開発を合宿形式で行う会議。JSTとDBCLSが2008年より主催。
*3 オープンサイエンスやデータ共有において重要と提唱されているFindable(見つけられる)、Accessible(アクセスできる)、Interoperable(相互運用可能)、Reusable(再利用できる)という4つの原則。
参考文献
- Forrest A. R. et al. Nature507, 462–470 (2014).
- Hon C. C. et al. Nature543, 199–204 (2017).
- de Rie D. et al. Nature Biotechnology35, 872–878 (2017).
- Noguchi S. et al Scientific Data4, 170112 (2017).
- Bertin N. et al. Scienific Data4, 170147 (2017).
- Kawaji H. et al. Scientific Data4, 170113 (2017).
- Abugessaisa I. et al. Scientific Data4, 170107 (2017).
- Ono H. et al. Scientific Data4, 170105 (2017).
- Andersson R. et al. Nature507, 455-461 (2014).