mércebázissor* reference sequence az a bázissor, amelyhez viszonyítunk minden változatot. A mércebázissornak nyilvánosnak és világosan meghatározottnak kell lennie, pl. NC_000023.10, LRG_199, NG_012232.1, NM_004006.2, LRG_199t1, NR_002196.1, NP_003997.1. Mint látható, mindegyiknek egyedi azonosítója van. Mivel a mércebázissor határozza meg a bázissor számozási rendszerét és alapértelmezett állapotát (pl. kódoló, nem kódoló átirat), a bázissor eltérésének pontos értelmezéséhez szükséges, hogy a mércebázissor és a hozzátartozó azonosító is változatlan maradjon. Ezért olyan adattárakból kell származniuk, melyek változatlan azonosítókat biztosítanak pl. RefSeq (NCBI, National Center for Biotechnology Information, amely a National Library of Medicine-hez tartozik) és Ensembl (EBI).
Az N betűvel kezdődőek az NCBI RefSeq adatbázis azonosítói:
▪ chromosome – NC_000023.11;
▪ gene/genomic region – NG_012232.1;
▪ coding transcript – NM_004006.2;
▪ non-coding transcript – NR_004430.2;
▪ protein – NP_003997.1.
Az Ensembl azonosítók ENS kezdetűek:
▪ gene/genomic region - ENSG00000198947.15
▪ coding transcript - ENST00000357033.8
▪ non-coding transcript - ENST00000383925.1
▪ protein - ENSP00000354923.3
Az LRG a Locus Reference Genomic adatbázis rövidítéséből jön. Az első adatbázis volt. Még mindig gyakran használják, de már ők is az NCBI és Ensembl adatbázisokra irányítanak.
Mindegyik rendszerben van a mércebázissor fajtáját jelölő betű előtag is. Az elfogadott előtagok a következők:
c. coding DNA (kódoló DNS )
g. linear genomic (sejtmagi DNS)
m. mitochondrial DNA (energiatestecsi DNS)
n. non-coding DNA (nem kódoló DNS)
o. circular genomic (gyűrűs DNS)
p. protein (fehérje)
r. RNA (transcript) (RNS; átirat)
Javasolt a legújabb genom felépítésen alapuló mércebázissorok használata, a GRCh38/hg38 (Genome Reference Consortium Human Build 38), amely az NCBI legújabban bővített adattára.
Összegezve: a mércebázissor megadásában feltüntetjük – egyebek mellett – a betű előtagot és a helyet is. Példák:
gén: NC_000023.11:g.32389644G>A A géni DNS NC_000023.11 mércebázissorához hasonlítva a 32389644. helyen lévő G nukleotid A-ra cserélődik.
átirat (transcript): NM_004006.2:c.4375C>T az NM_004006.2 kódoló DNS mércebázissorához hasonlítva a 4375. helyen lévő C nukleotid T-re cserélődik.
fehérje (aminosav): NP_003997.1:p. Arg1459 (p.Arg1459Ter) Az NP_003998.1 mércebázissorához hasonlítva az 1459. arginin aminosav helyett záró bázissor keletkezett.
ismétlet: NM_000044.3:c.171GCA[23] Az NM_000044.3 kódoló DNS mércebázissorához hasonlítva a 171. helytől kezdődően a GCA 23-szor ismétlődik.