TY - JOUR
T1 - Discovery of widespread transcription initiation at microsatellites predictable by sequence-based deep neural network
AU - FANTOM Consortium
AU - Grapotte, Mathys
AU - Saraswat, Manu
AU - Bessière, Chloé
AU - Menichelli, Christophe
AU - Ramilowski, Jordan A.
AU - Severin, Jessica
AU - Hayashizaki, Yoshihide
AU - Itoh, Masayoshi
AU - Tagami, Michihira
AU - Murata, Mitsuyoshi
AU - Kojima-Ishiyama, Miki
AU - Noma, Shohei
AU - Noguchi, Shuhei
AU - Kasukawa, Takeya
AU - Hasegawa, Akira
AU - Suzuki, Harukazu
AU - Nishiyori-Sueki, Hiromi
AU - Frith, Martin
AU - Abugessaisa, Imad
AU - Aitken, Stuart
AU - Aken, Bronwen L.
AU - Alam, Intikhab
AU - Alam, Tanvir
AU - Alasiri, Rami
AU - Alhendi, Ahmad M.N.
AU - Alinejad-Rokny, Hamid
AU - Alvarez, Mariano J.
AU - Andersson, Robin
AU - Arakawa, Takahiro
AU - Araki, Marito
AU - Arbel, Taly
AU - Archer, John
AU - Archibald, Alan L.
AU - Arner, Erik
AU - Arner, Peter
AU - Asai, Kiyoshi
AU - Ashoor, Haitham
AU - Astrom, Gaby
AU - Babina, Magda
AU - Baillie, J. Kenneth
AU - Bajic, Vladimir B.
AU - Bajpai, Archana
AU - Baker, Sarah
AU - Baldarelli, Richard M.
AU - Balic, Adam
AU - Bansal, Mukesh
AU - Batagov, Arsen O.
AU - Batzoglou, Serafim
AU - Beckhouse, Anthony G.
AU - Beltrami, Antonio P.
AU - Beltrami, Carlo A.
AU - Bertin, Nicolas
AU - Bhattacharya, Sharmodeep
AU - Bickel, Peter J.
AU - Blake, Judith A.
AU - Blanchette, Mathieu
AU - Bodega, Beatrice
AU - Bonetti, Alessandro
AU - Bono, Hidemasa
AU - Bornholdt, Jette
AU - Bttcher, Michael
AU - Bougouffa, Salim
AU - Boyd, Mette
AU - Breda, Jeremie
AU - Brombacher, Frank
AU - Brown, James B.
AU - Bult, Carol J.
AU - Burroughs, A. Maxwell
AU - Burt, Dave W.
AU - Busch, Annika
AU - Caglio, Giulia
AU - Califano, Andrea
AU - Cameron, Christopher J.
AU - Cannistraci, Carlo V.
AU - Carbone, Alessandra
AU - Carlisle, Ailsa J.
AU - Carninci, Piero
AU - Carter, Kim W.
AU - Cesselli, Daniela
AU - Chang, Jen Chien
AU - Chen, Julie C.
AU - Chen, Yun
AU - Chierici, Marco
AU - Christodoulou, John
AU - Ciani, Yari
AU - Clark, Emily L.
AU - Coskun, Mehmet
AU - Dalby, Maria
AU - Dalla, Emiliano
AU - Daub, Carsten O.
AU - Davis, Carrie A.
AU - de Hoon, Michiel J.L.
AU - de Rie, Derek
AU - Denisenko, Elena
AU - Deplancke, Bart
AU - Detmar, Michael
AU - Deviatiiarov, Ruslan
AU - Di Bernardo, Diego
AU - Diehl, Alexander D.
AU - Dieterich, Lothar C.
AU - Dimont, Emmanuel
AU - Djebali, Sarah
AU - Dohi, Taeko
AU - Dostie, Jose
AU - Drablos, Finn
AU - Edge, Albert S.B.
AU - Edinger, Matthias
AU - Ehrlund, Anna
AU - Ekwall, Karl
AU - Elofsson, Arne
AU - Endoh, Mitsuhiro
AU - Enomoto, Hideki
AU - Enomoto, Saaya
AU - Faghihi, Mohammad
AU - Fagiolini, Michela
AU - Farach-Carson, Mary C.
AU - Faulkner, Geoffrey J.
AU - Favorov, Alexander
AU - Fernandes, Ana Miguel
AU - Ferrai, Carmelo
AU - Forrest, Alistair R.R.
AU - Forrester, Lesley M.
AU - Forsberg, Mattias
AU - Fort, Alexandre
AU - Francescatto, Margherita
AU - Freeman, Tom C.
AU - Frith, Martin
AU - Fukuda, Shinji
AU - Funayama, Manabu
AU - Furlanello, Cesare
AU - Furuno, Masaaki
AU - Furusawa, Chikara
AU - Gao, Hui
AU - Gazova, Iveta
AU - Gebhard, Claudia
AU - Geier, Florian
AU - Geijtenbeek, Teunis B.H.
AU - Ghosh, Samik
AU - Ghosheh, Yanal
AU - Gingeras, Thomas R.
AU - Gojobori, Takashi
AU - Goldberg, Tatyana
AU - Goldowitz, Daniel
AU - Gough, Julian
AU - Greco, Dario
AU - Gruber, Andreas J.
AU - Guhl, Sven
AU - Guigo, Roderic
AU - Guler, Reto
AU - Gusev, Oleg
AU - Gustincich, Stefano
AU - Ha, Thomas J.
AU - Haberle, Vanja
AU - Hale, Paul
AU - Hallstrom, Bjrn M.
AU - Hamada, Michiaki
AU - Handoko, Lusy
AU - Hara, Mitsuko
AU - Harbers, Matthias
AU - Harrow, Jennifer
AU - Harshbarger, Jayson
AU - Hase, Takeshi
AU - Hasegawa, Akira
AU - Hashimoto, Kosuke
AU - Hatano, Taku
AU - Hattori, Nobutaka
AU - Hayashi, Ryuhei
AU - Hayashizaki, Yoshihide
AU - Herlyn, Meenhard
AU - Hettne, Kristina
AU - Heutink, Peter
AU - Hide, Winston
AU - Hitchens, Kelly J.
AU - Sui, Shannon Ho
AU - ’t Hoen, Peter A.C.
AU - Hon, Chung Chau
AU - Hori, Fumi
AU - Horie, Masafumi
AU - Horimoto, Katsuhisa
AU - Horton, Paul
AU - Hou, Rui
AU - Huang, Edward
AU - Huang, Yi
AU - Hugues, Richard
AU - Hume, David
AU - Ienasescu, Hans
AU - Iida, Kei
AU - Ikawa, Tomokatsu
AU - Ikemura, Toshimichi
AU - Ikeo, Kazuho
AU - Inoue, Norihiko
AU - Ishizu, Yuri
AU - Ito, Yosuke
AU - Itoh, Masayoshi
AU - Ivshina, Anna V.
AU - Jankovic, Boris R.
AU - Jenjaroenpun, Piroon
AU - Johnson, Rory
AU - Jorgensen, Mette
AU - Jorjani, Hadi
AU - Joshi, Anagha
AU - Jurman, Giuseppe
AU - Kaczkowski, Bogumil
AU - Kai, Chieko
AU - Kaida, Kaoru
AU - Kajiyama, Kazuhiro
AU - Kaliyaperumal, Rajaram
AU - Kaminuma, Eli
AU - Kanaya, Takashi
AU - Kaneda, Hiroshi
AU - Kapranov, Philip
AU - Kasianov, Artem S.
AU - Kasukawa, Takeya
AU - Katayama, Toshiaki
AU - Kato, Sachi
AU - Kawaguchi, Shuji
AU - Kawai, Jun
AU - Kawaji, Hideya
AU - Kawamoto, Hiroshi
AU - Kawamura, Yuki I.
AU - Kawasaki, Satoshi
AU - Kawashima, Tsugumi
AU - Kempfle, Judith S.
AU - Kenna, Tony J.
AU - Kere, Juha
AU - Khachigian, Levon
AU - Kiryu, Hisanori
AU - Kishima, Mami
AU - Kitajima, Hiroyuki
AU - Kitamura, Toshio
AU - Kitano, Hiroaki
AU - Klaric, Enio
AU - Klepper, Kjetil
AU - Klinken, S. Peter
AU - Kloppmann, Edda
AU - Knox, Alan J.
AU - Kodama, Yuichi
AU - Kogo, Yasushi
AU - Kojima, Miki
AU - Kojima, Soichi
AU - Komatsu, Norio
AU - Komiyama, Hiromitsu
AU - Kono, Tsukasa
AU - Koseki, Haruhiko
AU - Lassmann, Timo
AU - Li, Ruohan
AU - Roy, Riti
AU - Tam, Kin Tung
AU - Testa, Alison C.
AU - Winteringham, Louise N.
PY - 2021/12/1
Y1 - 2021/12/1
N2 - Using the Cap Analysis of Gene Expression (CAGE) technology, the FANTOM5 consortium provided one of the most comprehensive maps of transcription start sites (TSSs) in several species. Strikingly, ~72% of them could not be assigned to a specific gene and initiate at unconventional regions, outside promoters or enhancers. Here, we probe these unassigned TSSs and show that, in all species studied, a significant fraction of CAGE peaks initiate at microsatellites, also called short tandem repeats (STRs). To confirm this transcription, we develop Cap Trap RNA-seq, a technology which combines cap trapping and long read MinION sequencing. We train sequence-based deep learning models able to predict CAGE signal at STRs with high accuracy. These models unveil the importance of STR surrounding sequences not only to distinguish STR classes, but also to predict the level of transcription initiation. Importantly, genetic variants linked to human diseases are preferentially found at STRs with high transcription initiation level, supporting the biological and clinical relevance of transcription initiation at STRs. Together, our results extend the repertoire of non-coding transcription associated with DNA tandem repeats and complexify STR polymorphism.
AB - Using the Cap Analysis of Gene Expression (CAGE) technology, the FANTOM5 consortium provided one of the most comprehensive maps of transcription start sites (TSSs) in several species. Strikingly, ~72% of them could not be assigned to a specific gene and initiate at unconventional regions, outside promoters or enhancers. Here, we probe these unassigned TSSs and show that, in all species studied, a significant fraction of CAGE peaks initiate at microsatellites, also called short tandem repeats (STRs). To confirm this transcription, we develop Cap Trap RNA-seq, a technology which combines cap trapping and long read MinION sequencing. We train sequence-based deep learning models able to predict CAGE signal at STRs with high accuracy. These models unveil the importance of STR surrounding sequences not only to distinguish STR classes, but also to predict the level of transcription initiation. Importantly, genetic variants linked to human diseases are preferentially found at STRs with high transcription initiation level, supporting the biological and clinical relevance of transcription initiation at STRs. Together, our results extend the repertoire of non-coding transcription associated with DNA tandem repeats and complexify STR polymorphism.
UR - http://www.scopus.com/inward/record.url?scp=85107388625&partnerID=8YFLogxK
U2 - 10.1038/s41467-021-23143-7
DO - 10.1038/s41467-021-23143-7
M3 - Article
C2 - 34078885
AN - SCOPUS:85107388625
VL - 12
JO - Nature Communications
JF - Nature Communications
SN - 2041-1723
IS - 1
M1 - 3297
ER -