mércebázissor* reference sequence az a bázissor, amelyhez viszonyítunk minden változatot. A mércebázissornak nyilvánosnak és világosan meghatározottnak kell lennie, pl. NC_000023.10, LRG_199, NG_012232.1, NM_004006.2, LRG_199t1, NR_002196.1, NP_003997.1. Mint látható, mindegyiknek egyedi azonosítója van. Mivel a mércebázissor határozza meg a bázissor számozási rendszerét és alapértelmezett állapotát (pl. kódoló, nem kódoló átirat), a bázissor eltérésének pontos értelmezéséhez szükséges, hogy a mércebázissor és a hozzátartozó azonosító is változatlan maradjon. Ezért olyan adattárakból kell származniuk, melyek változatlan azonosítókat biztosítanak pl. RefSeq (NCBI, National Center for Biotechnology Information, amely a National Library of Medicine-hez tartozik) és Ensembl (EBI).

Az N betűvel kezdődőek az NCBI RefSeq adatbázis azonosítói:

chromosome – NC_000023.11;

▪ gene/genomic region – NG_012232.1;

▪ coding transcript – NM_004006.2;

▪ non-coding transcript – NR_004430.2;

▪ protein – NP_003997.1.

Az Ensembl azonosítók ENS kezdetűek:

▪ gene/genomic region - ENSG00000198947.15

▪ coding transcript - ENST00000357033.8

▪ non-coding transcript - ENST00000383925.1

▪ protein - ENSP00000354923.3

Az LRG a Locus Reference Genomic adatbázis rövidítéséből jön. Az első adatbázis volt. Még mindig gyakran használják, de már ők is az NCBI és Ensembl adatbázisokra irányítanak.

Mindegyik rendszerben van a mércebázissor fajtáját jelölő betű előtag is. Az elfogadott előtagok a következők:

c. coding DNA (kódoló DNS )

g. linear genomic (sejtmagi DNS)

m. mitochondrial DNA (energiatestecsi DNS)

n. non-coding DNA (nem kódoló DNS)

o. circular genomic (gyűrűs DNS)

p. protein (fehérje)

r. RNA (transcript) (RNS; átirat)

Javasolt a legújabb genom felépítésen alapuló mércebázissorok használata, a GRCh38/hg38 (Genome Reference Consortium Human Build 38), amely az NCBI legújabban bővített adattára.

Összegezve: a mércebázissor megadásában feltüntetjük – egyebek mellett – a betű előtagot és a helyet is. Példák:

gén: NC_000023.11:g.32389644G>A A géni DNS NC_000023.11 mércebázissorához hasonlítva a 32389644. helyen lévő G nukleotid A-ra cserélődik.

átirat (transcript): NM_004006.2:c.4375C>T az NM_004006.2 kódoló DNS mércebázissorához hasonlítva a 4375. helyen lévő C nukleotid T-re cserélődik.

fehérje (aminosav): NP_003997.1:p. Arg1459 (p.Arg1459Ter) Az NP_003998.1 mércebázissorához hasonlítva az 1459. arginin aminosav helyett záró bázissor keletkezett.

ismétlet: NM_000044.3:c.171GCA[23] Az NM_000044.3 kódoló DNS mércebázissorához hasonlítva a 171. helytől kezdődően a GCA 23-szor ismétlődik.