2. 400038 重庆,陆军军医大学(第三军医大学)军事预防医学系:毒理学研究所
2. Institute of Toxicology, Faculty of Military Preventive Medicine, Army Medical University (Third Military Medical University), Chongqing, 400038, China
结直肠癌是全球发病率和死亡率都高的恶性肿瘤之一,尤其发达国家和地区结直肠癌的发病率较发展中国家更甚[1-2],而中晚期结直肠癌治愈率低,故发达国家结直肠癌死亡较高。随着社会经济水平的发展,我国的结直肠癌的发病率也呈逐渐上升的趋势[3]。由于结直肠癌的早期症状不明显或症状不具有特异性,一般诊断时已为中晚期甚至已发生转移,而早期结直肠癌治愈率明显高于晚期和转移癌[2]。在结直肠癌的起始、生长、侵袭和转移过程中多种生物分子发生改变[4]。研究显示,转录辅因子PC4在染色质重塑,DNA复制,DNA损伤修复,细胞增殖、凋亡及周期等过程中起重要作用[5-6]。PC4在肺癌、乳腺癌、前列腺癌、口腔上皮癌等肿瘤或肿瘤细胞中具有重要作用。SHI等[7-8]研究发现PC4在乳腺癌、前列腺癌及肺癌的临床标本中呈高表达,而相应的正常上皮细胞及良性增生组织中的表达则相对较低。LIAO等[9]研究发现,乳腺癌MCF-7细胞株中PC4可调节转录因子Sp1介导的LHR基因转录活性。然而,目前尚少有研究报道PC4在结直肠癌中的作用,亦少见PC4与疾病风险关联的研究报道。
基因启动子区序列在转录因子等调控元件识别和调控基因表达中发挥着关键作用。研究显示,启动子区的多态性(无论是遗传学还是表观遗传学方面)可导致基因转录调控的异常,癌基因或抑癌基因的转录调控异常与肿瘤的发生密切相关[10]。目前对PC4基因单核苷酸多态性与疾病关联的研究十分缺乏,仅有1篇关于自闭症MET受体酪氨酸激酶通路的多基因遗传学证据的研究中提及PC4基因启动子区SNP位点rs2008245[11]。结合生物信息学和文献分析已知,PC4基因位于染色体5p13.3,而染色体5p13属于易变区域[12-13]。PC4作为一个广泛的转录辅因子,可能通过影响多种肿瘤相关基因的表达而对结直肠癌的易感性发挥作用,因此我们认为,PC4基因的潜在功能性SNP也可能会对结直肠癌的易感性产生影响。本研究拟通过对PC4基因启动区潜在功能性SNP位点与结直肠癌发病风险的关联研究,探索PC4基因遗传变异作为结直肠癌遗传易感性分子标记的可能性,以期为结直肠癌的预防提供基础信息。
1 材料与方法 1.1 生物信息学检索PC4基因启动子区SNP位点从目前全球基因组SNP位点预测覆盖最全面的SNP数据库(NCBI)中以基因名称SUB1检索该基因的所有SNP位点。在SNP数据库(NCBI)GRCh37.p13和GRCh38.p7两个版本中限定检索条件:Type(single nucleotide variant)、Molecular consequence(5’-UTR和upstream 2KB)、1000 Genomes MAF≥0.01,导出检索结果,将GRCh37.p13和GRCh38.p7两个版本的SNP位点数据合并。然后按照以下步骤筛选潜在的功能性SNP位点:①将SNP数据库(NCBI)中所得的SNP位点输入转录因子结合位点预测数据库SNP2TFBS(http://ccg.vital-it.ch/snp2tfbs/pwmviewer.php),获得可能位于转录因子识别区的SNP位点;②将SNP数据库(NCBI)所得SNP位点输入SNP功能预测在线工具SNPinfo Web Server(https://snpinfo.niehs.nih.gov/),获得可能位于转录因子识别区的SNP位点;③将SNP数据库(NCBI)所得数据输入MAPPER2(http://genome.ufl.edu/mapper/mapper-run?init=rs),选定评分大于90%且SNP位点突变前后转录因子结合预测的分数改变≥3的位点;④结合①~③3步所得的SNP位点,以至少在2个数据库中均提示位于转录因子识别区并可能影响转录因子结合能力的SNP为候选位点;⑤通过LDlink(https://analysistools.nci.nih.gov/LDlink/?tab=ldmatrix)对筛选出的SNP位点进行连锁不平衡检测。
1.2 SNP分型通过生物信息学共筛选出7个SNP位点,分别为rs116123859、rs2008245、rs11555314、rs6891588、rs10061905、rs182519875和rs368305438,其中rs116123859、rs2008245、rs11555314和rs6891588通过探针法PCR进行基因分型,而rs10061905、rs182519875和rs368305438通过PCR扩增后送至生工经Sanger测序法进行测序然后分型。
测序位点(rs10061905、rs182519875和rs368305438)的引物由上海生工的技术人员设计并合成。3个位点相邻紧密,同一片段测序即可完成3个位点基因分型,因此3个位点使用同一对引物(正向:5′-AGCTCCCTGAATCTTCCTGTGA-3′,反向:5′-ATCTCTGGGTGCCT-CTGTGG-3′)。探针法分型的位点引物和探针由百乐的技术支持人员李楠帮忙设计,经上海生工技术支持优化并合成,序列见表 1。
rsID | 引物和探针 | 序列(5′→3′) | 产物长度(bp) | 荧光基团 | 淬灭基团 |
rs116123859 | 正向引物 | TGCTTGTCACCTTCCTGTTATACC | 112 | ||
rs116123859 | 反向引物 | AAACGAAATCTTCAGCCTTTGC | 112 | ||
rs116123859 | 探针1 | CTGGTTCATTCTCACCTCGTTTTTTTCTG | 112 | FAM | BHQ1 |
rs116123859 | 探针2 | TCAGTCCTGGTTCATTTTCACCTCGT | 112 | VIC | BHQ2 |
rs2008245 | 正向引物 | GCTGTGTTCTTTGCGTCTCAAC | 102 | ||
rs2008245 | 反向引物 | CCACCCATCCCACCCTTATAG | 102 | ||
rs2008245 | 探针1 | CCATTACACATTCCCCTCCCAGCT | 102 | FAM | BHQ1 |
rs2008245 | 探针2 | CCATTACACATTCCGCTCCCAGCTTTA | 102 | VIC | BHQ2 |
rs11555314 | 正向引物 | TTCTCTGTCAGTCGCGAGCG | 135 | ||
rs11555314 | 反向引物 | CCGAAGGCAGCTCACGG | 135 | ||
rs11555314 | 探针1 | AAGAGGGTGTTAGACTGCTAGAGCC | 135 | FAM | BHQ1 |
rs11555314 | 探针2 | AAGAGGGTGTTCGACTGCTAGAGCC | 135 | VIC | BHQ2 |
rs6891588 | 正向引物 | ATCTGCCCGCCTCAGGC | 121 | ||
rs6891588 | 反向引物 | TTCATACTTGCGTTGTCCTGCC | 121 | ||
rs6891588 | 探针1 | TGAGCCACCACGCCCAGC | 121 | FAM | BHQ1 |
rs6891588 | 探针2 | TGAGCCGCCACGCCCAGC | 121 | VIC | BHQ2 |
探针和引物由上海生工核对优化并合成;荧光探针分别于5′端和3′端两端标记 |
测序样本的PCR条件为第1个循环50 ℃ 2 min预热和95 ℃ 2 min变性,95 ℃ 15 s变性,60 ℃退火和延伸1 min,第2个循环开始只变性15 s,循环39次,共40个循环;反应体系为SYBR green Mix(4472908 ABI,美国)10 μL,正向引物1 μL,反向引物1 μL,去离子水6 μL,基因组DNA(5 ng/μL)2 μL。
探针法PCR的条件为第1个循环95 ℃变性3 min,然后95 ℃变性15 s,4个SNP位点的退火和延伸温度不同,rs116123859、rs2008245、rs11555314和rs6891588的退火和延伸温度分别是67 ℃ 30 s、64.5 ℃ 30 s、63.5 ℃ 30 s和66 ℃ 30 s,第2个循环开始只变性15 s,然后退火和延伸,循环39次,共40个循环。反应体系:总体积为10 μL,其中探针预混液(2×)5 μL,正向引物(20×)、反向引物(20×)、探针1(40×)、探针2(40×)分别为0.5 μL,去离子水2 μL,模板DNA(5 ng/μL)1 μL。
1.3 病例对照样本来源本研究采用成组匹配的病例对照研究设计。研究对象均来自2002年1月至2004年6月陆军军医大学三所附属医院住院患者。病例和对照的来源、选择和基本情况等详见前期发表的论文[14]。病例纳入标准:①以经组织病理学诊断为结直肠癌患者为病例组;②年龄30~70岁;③性别不限;④发病时间为初次诊断起发病6个月之内、首次入院、未经过任何治疗的新发结直肠肿瘤患者;⑤若患者能够明确回忆开始出现黏液血便、柏油样便等危险征兆的时间并因此就诊,且经县级以上医疗机构初次诊断为疑似结直肠癌,则从患者第1次出现大便异常的当月开始计算;⑥重庆本地居民,于重庆地区连续居住时间超过15年,或者累计居住时间超过30年,且在外连续居住不超过5年。排除标准:①家族性腺瘤性息肉病患者及遗传性非息肉病性患者;②同时患其他肿瘤或者有肿瘤史者;③经县级以上医疗机构诊断,患严重的消化道性疾病或严重心脑血管疾病(如中风、重度高血压,以及脂肪肝、肝硬化、糖尿病、代谢综合征)等营养和代谢相关疾病者。对照纳入标准:①以年龄±5岁、性别和居住地为匹配因素,选择同期非肿瘤住院患者为对照;②重庆本地居民,居住时间要求同病例。对照排除标准:经县级以上医疗机构诊断,患严重的消化道性疾病或严重心脑血管疾病(如中风、重度高血压,以及脂肪肝、肝硬化、糖尿病、代谢综合征)等营养和代谢相关疾病者。所有病例和对照的相关背景、生活方式和膳食摄入等信息以调查员面访方式及生活方式和半定量食物频数问卷采集[15],同时采集所有研究对象外周血2.5 mL,提取DNA用于基因分型。
1.4 统计学分析采用SAS 9.1统计软件进行分析。根据研究目的及数据分布特征,对人群样本信息采用描述统计和χ2检验,采用单因素及多因素Logistic回归分析对不同基因型及显、隐形模型[16]与结直肠癌的发病风险进行关联分析。SNP分型结果经Hardy-Weinberg平衡检验进行遗传平衡检测[17]。P < 0.05(双侧检验)为差异有统计学意义。
2 结果 2.1 PC4基因启动子区检索到的SNP位点SNP数据库(NCBI)中在PC4启动子区共检索到48个符合要求的SNP位点。以SNP2TFBS在线工具对SNP(NCBI)数据库中检索到的48个SNP位点进行功能预测,结果提示有19个SNP位于转录因子识别区;以SNPinfo Web Server在线工具对SNP(NCBI)数据库中检索到的48个SNP位点进行功能预测,结果提示有3个转录因子识别区;以MAPPER2在线工具对SNP(NCBI)数据库中检索到的48个SNP位点进行功能预测,结合SNP2TFBS、SNPinfo和MAPPER2 3个数据库输出结果,对PC4基因启动子区的SNP进行精细定位、是否具有影响PC4转录的可能性及分型方法的可行性等进行系列生物信息学分析后,最终确定PC4基因启动子区的rs2008245、rs116123859、rs11555314、rs6891588、rs10061905、rs182519875和rs368305438共7个SNP位点作为候选分析的靶标位点(表 2)。将7个SNP位点输入LDlink在线工具进行连锁不平衡检测,界定连锁不平衡检测参数R2=0.80、D’=1.00,结果提示各候选SNP位点两两间相互均不连锁。
rsID | 等位基因 | 最小等位基因频率 | 转录因子 |
rs11555314 | A/C | A=0.0685 | SMAD2_SMAD3_SMAD4 |
rs2008245 | C/G | C=0.3325 | MZF1_5-13, Sp1, MAZ |
rs116123859 | T/C | C=0.0170 | PPARG, IRF, IRF-1, PPARG, HNF1A |
rs368305438 | A/G | G=0.0160 | EGR2, HMG-I/Y, squamosa, Cf2_Ⅱ, XFD-2, MEF2A, POU1F1 |
rs182519875 | A/G | G=0.1108 | EGR2, squamosa, Cf2_Ⅱ, XFD-2, MEF2A, POU1F1 |
rs10061905 | A/G | A=0.4505 | EGR2, squamosa, Cf2_Ⅱ |
rs6891588 | A/G | G=0.2536 | Klf4, Klf1, Znf143, Sp1, ZF5 |
2.2 人群样本基本信息
研究共纳入488例结直肠癌病例和894例对照。为明确后续SNP关联分析中可能的混杂因素,首先对人口统计学信息、常见相关生活方式及主要营养素对结直肠癌的影响进行单因素分析,结果表明性别、吸烟、饮茶及咖啡等与结直肠癌风险关联不显著;年龄、饮酒、能量摄入、蛋白质摄入和膳食纤维摄入的差异有统计学意义(χ2分别为16.90、14.23、8.62、12.31和28.47,P值分别为0.001、0.001、0.035、0.006和 < 0.001)。除性别、年龄、家族史、吸烟、饮酒等一般应纳入的常规因素外,在后续关联分析中还将能量、脂肪、蛋白等常量营养素和膳食纤维摄入作为校正因素。见表 3。
变量名称 | 病例组 (n=488) |
对照组 (n=894) |
χ2值 | P值 |
年龄a | 16.90 | 0.001 | ||
0~35 | 50(10.42) | 99(11.15) | ||
36~50 | 123(25.63) | 284(31.98) | ||
51~65 | 202(42.08) | 383(43.13) | ||
≥66 | 105(21.88) | 122(13.74) | ||
性别 | 0.08 | 0.781 | ||
女 | 214(43.85) | 399(44.63) | ||
男 | 274(56.15) | 495(55.37) | ||
肿瘤家族史b | 3.65 | 0.056 | ||
无 | 383(78.48) | 713(82.71) | ||
有 | 105(21.52) | 149(17.29) | ||
吸烟c | 3.53 | 0.171 | ||
不吸烟 | 280(58.33) | 521(61.44) | ||
戒烟 | 38(7.92) | 46(5.42) | ||
吸烟 | 162(33.75) | 281(33.14) | ||
饮酒d | 14.23 | 0.001 | ||
不饮酒 | 305(63.54) | 612(72.51) | ||
戒酒 | 30(6.25) | 27(3.20) | ||
饮酒 | 145(30.21) | 205(24.29) | ||
饮茶e | 0.00 | 0.991 | ||
不喝 | 276(56.67) | 499(56.70) | ||
喝 | 211(43.33) | 381(43.30) | ||
咖啡f | 0.20 | 0.656 | ||
不喝 | 451(92.61) | 809(91.93) | ||
喝 | 36(7.39) | 71(8.07) | ||
能量摄入g | 8.62 | 0.035 | ||
1(最低) | 149(30.66) | 216(25.15) | ||
2 | 109(22.43) | 214(24.91) | ||
3 | 132(27.16) | 214(24.91) | ||
4(最高) | 96(19.75) | 215(25.03) | ||
蛋白质摄入h | 12.31 | 0.006 | ||
1(最少) | 152(31.28) | 215(25.03) | ||
2 | 132(27.16) | 214(24.91) | ||
3 | 115(23.66) | 215(25.03) | ||
4(最多) | 87(19.90) | 215(25.03) | ||
脂肪摄入i | 6.53 | 0.088 | ||
1(最少) | 149(30.66) | 217(25.26) | ||
2 | 126(25.93) | 213(24.80) | ||
3 | 101(20.78) | 215(25.03) | ||
4(最多) | 110(22.63) | 214(24.91) | ||
纤维摄入j | 28.47 | < 0.001 | ||
1(最少) | 183(37.65) | 215(25.03) | ||
2 | 123(25.31) | 215(25.03) | ||
3 | 95(19.55) | 215(25.03) | ||
4(最多) | 85(17.49) | 214(24.91) | ||
a、b、c、d、e、f、g、h、i、j分别代表总样本中相应参数信息的缺失值,分别为14、32、54、58、15、15、37、37、37、37例 |
2.3 SNP分型及其与结直肠癌发病风险的关联分析
对照组中PC4基因启动子区7个SNP位点的分型结果经Hardy-Weinberg平衡检测均为平衡:rs116123859,χ2=0.00,P=0.95;rs2008245,χ2=3.80,P=0.051;rs11555314,χ2=0.00,P=0.994;rs6891588,χ2=3.05,P=0.081;rs10061905,χ2=1.86,P=0.172;rs182519875,χ2=0.12,P=0.734;rs368305438,χ2=0.03,P=0.85。
表 4结果提示,关联分析结果中,rs116123859在隐性模型条件下,CC+CT基因型者比TT基因型(常见基因型)者结直肠癌的风险显著升高(OR=4.89,95% CI=1.29~18.51,P=0.020),但经年龄、家族史和主要营养素摄入等多因素校正后,差异不具有统计学意义(ORadj=3.31,95% CI=0.84~13.06,Padj=0.087)。同样在隐性模型下,rs6891588位点AG+GG基因型者患结直肠癌的风险比AA基因型者稍微升高,但差异无统计学意义,经多因素校正后,差异具有统计学意义(ORadj=1.28,95% CI=1.00~1.64,Padj=0.048)。其余位点各基因型在多因素校正前后均未显示与结直肠癌风险之间有显著关联。
SNPs | 病例组 [n=488,例(%)] |
对照组 [n=894,例(%)] |
ORcrude (95% CI) |
Pcrude值 | ORadj (95% CI) |
Padj值 |
rs116123859a | ||||||
TT | 477(98.35) | 875(99.66) | 1.00 | 1.00 | ||
CT | 6(1.24) | 3(0.34) | 3.67(0.91~14.74) | 0.067 | 2.33(0.55~9.93) | 0.253 |
CC | 2(0.41) | 0(0.00) | NA | NA | NA | NA |
CT+CC | 8(1.65) | 3(0.34) | 4.89(1.29~18.51) | 0.020 | 3.31(0.84~13.06) | 0.087 |
rs2008245b | ||||||
GG | 192(40.51) | 343(38.84) | 1.00 | 1.00 | ||
CG | 214(45.15) | 436(49.38) | 0.88(0.69~1.12) | 0.285 | 0.92(0.72~1.19) | 0.548 |
CC | 68(14.35) | 104(11.78) | 1.17(0.82~1.66) | 0.388 | 1.17(0.80~1.71) | 0.408 |
CG+GG | 406(85.65) | 779(88.22) | 1.00 | 1.00 | ||
CC | 68(14.35) | 104(11.78) | 1.26(0.90~1.74) | 0.176 | 1.22(0.86~1.74) | 0.261 |
rs11555314c | ||||||
CC | 373(77.87) | 713(80.84) | 1.00 | 1.00 | ||
AC | 97(20.25) | 160(18.14) | 1.16(0.87~1.54) | 0.305 | 1.15(0.85~1.55) | 0.376 |
AA | 9(1.88) | 9(1.02) | 1.91(0.75~4.86) | 0.173 | 2.11(0.79~5.67) | 0.138 |
AC+AA | 106(22.13) | 169(19.16) | 1.20(0.91~1.58) | 0.193 | 1.19(0.89~1.60) | 0.232 |
rs6891588d | ||||||
AA | 280(59.70) | 569(64.08) | 1.00 | 1.00 | ||
AG | 158(33.69) | 273(30.74) | 1.18(0.92~1.50) | 0.190 | 1.29(1.00~1.67) | 0.052 |
GG | 31(6.61) | 46(5.18) | 1.37(0.85~2.21) | 0.197 | 1.22(0.73~2.05) | 0.450 |
AG+GG | 189(40.30) | 319(35.92) | 1.20(0.96~1.52) | 0.113 | 1.28(1.00~1.64) | 0.048 |
rs10061905e | ||||||
GG | 168(34.78) | 280(32.15) | 1.00 | 1.00 | ||
AG | 221(45.76) | 410(47.07) | 0.90(0.70~1.16) | 0.404 | 0.94(0.72~1.23) | 0.650 |
AA | 94(19.46) | 181(20.78) | 0.87(0.63~1.19) | 0.368 | 0.82(0.59~1.15) | 0.256 |
AG+AA | 315(65.22) | 591(67.85) | 1.00 | 1.00 | ||
GG | 168(34.78) | 280(32.15) | 1.13(0.89~1.42) | 0.324 | 1.11(0.86~1.43) | 0.422 |
rs182519875f | ||||||
AA | 354(73.29) | 666(76.46) | 1.00 | 1.00 | ||
AG | 114(23.60) | 190(21.81) | 1.13(0.87~1.47) | 0.371 | 1.05(0.79~1.40) | 0.724 |
GG | 15(3.11) | 15(1.72) | 1.88(0.91~3.89) | 0.089 | 2.07(0.95~4.53) | 0.068 |
AG+GG | 129(26.71) | 205(23.53) | 1.18(0.92~1.53) | 0.195 | 1.12(0.85~1.48) | 0.412 |
rs368305438g | ||||||
AA | 458(94.82) | 818(93.92) | 1.00 | 1.00 | ||
AG | 23(4.76) | 52(5.97) | 0.79(0.48~1.31) | 0.359 | 0.75(0.44~1.27) | 0.281 |
GG | 2(0.41) | 1(0.11) | 3.57(0.32~39.46) | 0.299 | 4.12(0.36~47.14) | 0.254 |
AG+GG | 25(5.17) | 53(6.08) | 1.00 | 1.00 | ||
AA | 458(94.82) | 818(93.92) | 1.19(0.73~1.94) | 0.492 | 1.24(0.74~2.08) | 0.414 |
a、b、c、d、e、f和g代表的DNA样本缺失或分型失败数分别为19、25、21、25、28、28和28 |
2.4 风险倾向基因型数量与结直肠癌的风险关联研究
由于单个SNP位点的效应绝大多数情况下均为微小效应,为判断多个SNP位点相同“风险”方向的基因型是否具有累积效应,我们又分析了个体携带不同“风险”基因型的数量与结直肠癌发病风险之间的关联。表 5结果显示,随着个体携带的“风险”基因型数量增加,结直肠癌的发病趋势也显著增加(Ptrend=0.004)。
风险等位基因数量 | 病例组 [n(%)] |
对照组 [n(%)] |
ORcrude(95% CI) | Pcrude值 | ORadj(95% CI) | Padj值 |
1 | 73(16.29) | 165(19.44) | 1.00 | 1.00 | ||
2 | 142(31.70) | 269(31.68) | 1.19(0.85~1.68) | 0.312 | 1.21(0.84~1.74) | 0.320 |
3 | 112(25.00) | 245(28.86) | 1.03(0.73~1.47) | 0.857 | 0.98(0.67~1.43) | 0.920 |
4 | 74(16.52) | 132(15.55) | 1.27(0.85~1.88) | 0.242 | 1.22(0.80~1.85) | 0.361 |
5 | 43(9.60) | 34(4.00) | 2.86(1.69~4.84) | < 0.001 | 3.05(1.73~5.38) | < 0.001 |
6 | 4(0.89) | 4(0.47) | 2.26(0.55~9.29) | 0.258 | 2.37(0.55~10.19) | 0.274 |
χ2=8.48,Ptrend=0.004 风险等位基因型是指关联分析中提及的各个SNP位点的基因型中具有使结直肠癌发病风险增加倾向的基因型,其中以rs116123859CT/CC、rs2008245CC、rs11555314AC/AA、rs6891588AG/GG、rs10061905GG、rs182519875GG和rs368305438GG为“风险”倾向基因型;风险基因型数量:0“风险”基因型携带者对照组为1个,病例组为0个,分别合并入1“风险” |
2.5 单倍型与结直肠癌发病风险的关联研究
因纳入分析的7个SNP位点均位于PC4基因启动子区的范围内,我们又继续对7个位点构成的单倍型与结直肠癌发病风险之间的关联进行分析。结果显示,在本研究人群中共检出32种单倍型,但不同的单倍型在人群中的分布有较明显的相对集中趋势,约86.7%的个体所发现的单倍型集中于T_C_C_A_G_A_A、T_C_C_G_G_A_A、T_G_A_A_G_G_A、T_G_C_A_A_A_A、T_G_C_A_G_A_A、T_G_C_G_A_A_A这6种单倍型中。病例组和对照组中不同单倍型频率差异具有统计学意义(χ2=66,P < 0.001)。
为便于分析,将总频率低于30的22种单倍型依据其在病例组的频率高于或低于对照组中的频率,分别合并为病例组中频数较高的单倍型(higher frequency in cases,HFIC)和病例组中频数较低的单倍型(lower frequency in cases,LFIC)两组后,进行下一步的分析。如表 6所示,以对照组中相对频率最高的单倍型T_C_C_A_G_A_A为参照时,携带T_C_C_G_G_A_A、T_G_A_G_G_G_A及合并单倍型组HFIC单倍型携带者结直肠癌风险分别为其2.67、2.98、2.10倍(95% CI分别为1.78~4.02、1.46~6.04、1.36~3.25,P值分别为 < 0.001、0.003、< 0.001),经多因素校正后,该显著性差异仍存在,该差异与结直肠癌的发病风险增加显著相关。而LFIC合并组的风险则显著降低(OR=0.42,95% CI=0.18~0.95,P=0.036),但多因素校正后差异不显著。
单倍型名称a | 总频率 (nf) |
病例组频率 [nf(%)] |
对照组频率 [nf(%)] |
ORcrude (95% CI) |
Pcrude | ORadj (95% CI) |
Padj |
T_C_C_A_G_A_A | 699 | 219(24.66) | 480(28.61) | 1.00 | 1.00 | ||
T_C_C_A_A_A_A | 45 | 11(1.24) | 34(2.03) | 0.71(0.35~1.43) | 0.335 | 0.73(0.34~1.54) | 0.405 |
T_G_A_A_G_G_A | 124 | 42(4.73) | 82(4.89) | 1.12(0.75~1.68) | 0.576 | 1.15(0.75~1.77) | 0.511 |
T_G_A_A_G_G_G | 52 | 17(1.91) | 35(2.09) | 1.07(0.58~1.94) | 0.838 | 0.93(0.49~1.76) | 0.821 |
T_G_C_A_G_A_A | 240 | 79(8.90) | 161(9.59) | 1.08(0.79~1.47) | 0.649 | 1.13(0.81~1.57) | 0.480 |
T_G_C_G_A_A_A | 337 | 110(12.39) | 227(13.53) | 1.06(0.80~1.40) | 0.671 | 1.05(0.78~1.41) | 0.741 |
T_C_C_A_G_G_A | 71 | 28(3.15) | 43(2.56) | 1.43(0.86~2.36) | 0.165 | 1.32(0.76~2.29) | 0.333 |
T_C_C_G_G_A_A | 111 | 61(6.87) | 50(2.98) | 2.67(1.78~4.02) | < 0.001 | 2.67(1.74~4.09) | < 0.001 |
T_G_A_G_G_G_A | 33 | 19(2.14) | 14(0.83) | 2.98(1.46~6.04) | 0.003 | 3.02(1.42~6.45) | 0.004 |
T_G_C_A_A_A_A | 716 | 249(28.04) | 467(27.83) | 1.17(0.94~1.46) | 0.169 | 1.10(0.87~1.40) | 0.414 |
LFICb | 44 | 7(0.79) | 37(2.21) | 0.42(0.18~0.95) | 0.036 | 0.43(0.19~1.01) | 0.053 |
HFICc | 94 | 46(5.18) | 48(2.86) | 2.10(1.36~3.25) | < 0.001 | 1.99(1.26~3.15) | 0.003 |
a:7个SNP位点在单倍型分析中的构建顺序为rs116123859-rs2008245-rs11555314- rs6891588-rs10061905-rs182519875-rs368305438;b:病例组中频数较低的单倍型,包括T_C_A_A_G_G_G、T_C_A_G_A_A_A、T_C_A_G_G_G_G、T_C_C_A_A_G_A、T_C_C_A_G_A_G、T_C_C_A_G_G_G、T_C_C_G_A_A_A、T_G_A_G_G_A_A、T_G_C_G_G_A_A、T_G_C_G_G_G_A、T_G_C_G_G_G_A和T_C_A_A_G_G_A共12种单倍型;c:病例组中频数较高的单倍型,包括T_C_A_G_G_A_A、T_C_A_G_G_G_A、T_C_C_G_G_G_A、T_G_A_A_A_A_A、T_G_A_A_G_A_A、T_G_A_G_G_G_G、C_G_A_A_G_G_G、T_G_C_A_G_G_A、T_G_C_A_G_G_G、C_G_C_G_A_A_A共10种单倍型 |
3 讨论
PC4作为转录辅因子,参与多种基因的转录调控,包括癌基因和抑癌基因。研究显示,PC4在肺癌、前列腺癌、食管鳞状上皮细胞癌等肿瘤(细胞)的癌变、生长、侵袭、转移甚至治疗等过程中发挥重要作用[7, 18]。HU等[19]对骨肉瘤的研究显示,PC4基因在骨肉瘤组织和癌细胞株中的表达高于癌旁组织和正常对照细胞,而PC4基因高表达与骨肉瘤细胞的迁移能力和成瘤特性有关。研究者认为PC4是肿瘤的启动因子,在肿瘤的发病机制中发挥重要作用,该基因发生遗传变异,则可能与肿瘤的发病风险具有关联性。然而,目前尚少见研究报道PC4在结直肠癌发病机制中的作用。
基因启动子区往往是RNA聚合酶特异性识别和结合的DNA识别区序列,在基因的转录调控中具有非常重要的作用。启动子本身并不能控制基因的活动,只有与转录因子结合才能发挥其开关的功能[20]。启动子区DNA序列产生变异,可能影响转录因子等反式作用元件的识别和结合,从而影响基因的转录和表达[21]。作为最常见的遗传变异形式,SNP如位于基因启动子区,则可能通过影响转录因子的识别与结合而影响基因的表达,从而对疾病的不同方面产生影响[22]。目前尚少见研究报道PC4基因的上游转录调控及单核苷酸多态性与肿瘤的发病风险之间的关联。本研究在大量肿瘤样本中探索PC4基因启动子区单核苷酸多态性与结直肠癌发病风险之间关联性,在内容上具有重大的创新意义,同时为后续对PC4基因在结直肠癌发病机制中的功能研究奠定科学基础。
本研究对7个SNP位点多态性与结直肠癌发病风险之间的关联性进行系统的分析,结果显示,rs116123859在隐性模型下,CC+CT基因型者比TT基因型(常见基因型)者结直肠癌的风险显著升高,但经多因素校正后显著性不具有统计学意义。同样在隐性模型下,rs6891588位点AG+GG基因型者患结直肠癌的风险比AA基因型者稍微升高,但差异无统计学意义,经多因素校正后,差异具有统计学意义。其余位点各基因型在多因素校正前后均未显示与结直肠癌风险之间有显著关联。出现该结果的原因可能是单个SNP位点对疾病风险的影响仅为微小效应,分析中容易受到其他较强效应因素的影响,因此经多因素校正之后关联不再具有显著性。此外,如rs116123859位点的最小等位基因频率较低(MAF=0.017)也可能是导致多因素校正前后结果变化的原因,增加样本量应有助于获得稳定的结果。
尽管PC4基因的7个功能SNP位点总体未表现出对结直肠癌的发病风险有十分显著的影响,但对7个SNP位点的“风险”倾向等位基因型的累积效应的分析结果表明,同时携带5个“风险”倾向等位基因型者,与无或仅携带1个“风险”倾向等位基因型者相比,结直肠癌发病风险显著增加。但本研究中携带6个“风险”倾向等位基因型者与携带5个“风向”倾向基因型者相比,其OR稍小,风险趋势的线性出现不稳定现象,出现该现象的原因可能是携带6个“风险”倾向基因型的样本量较少(病例组和对照组均只有4例)的缘故,增加样本量有望改善该种情形。因此,上述分析提示随着风险基因型数量增加,结直肠癌的发病风险有增高的趋势(Ptrend=0.004)。这种对风险等位基因型累积效应进行风险关联分析的方法可让我们发现更多的肿瘤易感性基因。
位于同一个基因上的SNP位点并不是孤立存在的,这些SNP位点在遗传过程中常常作为一个整体传递给下一代,相邻几个SNP等位位点的组合称为单倍型。单倍型分析用于复杂疾病的关联分析中,有助于提高频率较低的等位基因的效应[23]。本研究进一步的单倍型分析后,共检测到32种单倍型。其中,T_C_C_A_G_A_A和T_G_C_A_A_A_A两种单倍型在本研究样本中频率最高。将总频率低于30的22种单倍型依据其在病例组的频率高于或低于对照组中的频率,分别合并为LFIC和HFIC两组。结果提示,单倍型T_C_C_G_G_A_A与增加结直肠癌的发病风险密切相关。在该单倍型中,仅rs2008245和rs6891588位点为罕见等位基因,其余5个SNP位点均为常见等位基因。相反,7个SNP位点均为常见等位基因的单倍型T_G_C_A_G_A_A对结直肠癌的发病风险未见显著影响。提示这些SNP位点的罕见等位基因型对增加结直肠癌的风险具有重要意义。
本研究仅分析了PC4基因启动子区的潜在功能位点,对编码区、3′端调控区等的SNP未分析,也缺乏相关位点对基因表达影响的功能验证,可能影响对PC4基因变异与结直肠癌风险关联的全面判断;由于样本量的限制,在MAF较低的情况下,单一位点与结直肠的关联评估的统计效能不足,如以rs116123859位点为例,风险基因型(CT+CC)对照组中频率仅为0.34%,OR=4.89,在α=0.05水平下,以SAS软件POWER PROC计算,统计效能仅为0.53;但在风险位点数量与CRC关联分析中,携带风险基因型数量≥5个者在对照组中的频率为4.48%,相对于≤4个风险基因型者的OR=2.5时,在α=0.05水平下,统计效能则达0.94。一方面提示风险基因型数量可能与CRC有显著关联,另一方面也提示需要在更大样本量研究中进一步验证单一SNP位点与CRC的关联。
本研究在设计和实施过程中均对偏倚进行了有效控制。为减少不同人群可能的遗传背景和生活方式差异的影响,本研究中病例和对照均来自于重庆地区人群且在实验设计阶段即对连续居住时间进行了控制;同时,除以性别、年龄和居住地为匹配因素外,对有长期(2年以上)严重消化道、心脑血管及营养代谢相关疾病史(如中风、重度高血压,以及脂肪肝、肝硬化、糖尿病、代谢综合征等)者也进行了排除。病例组无应答率为21.6%,主要原因为病情严重不能完成调查,或因病情焦虑不愿配合;对照组无应答率为19.8%,主要原因为病情焦虑不愿配合。总体上,病例组和对照组的无应答率均较低,提示样本有较好代表性。病例和对照均来自重庆地区三所大型综合性三甲医院,均为同样具有较高入院率的患者(如创伤、骨折、急性阑尾炎等),降低了入院选择偏倚。在信息采集阶段,本研究采用固定和数量较少的调查员,经统一培训后进行面访,以提高调查质量并控制信息偏倚。
综上所述,我们有理由认为PC4基因启动区单核苷酸多态性与结直肠癌的风险之间具有显著关联性,这对于探索早期结直肠癌的分子生物学标志具有重要意义。但本研究仅能提供PC4基因多态性可能与结直肠癌易感性相关的线索,且由于所选功能位点中的部分SNP位点在人群中的最小等位基因型频率较低,可能需要更大的样本量才能检出同时具有统计学差异和生物学差异的结果;同时本研究未对PC4基因在结直肠癌发病机制中的具体作用进行研究。下一步将进行PC4基因启动子区多态性功能性研究,进一步验证其在结直肠癌发病机制中的作用。
[1] | TORRE LA, BRAY F, SIEGEL RL, et al. Global cancer statistics, 2012[J]. CA Cancer J Clin, 2015, 65(2): 87–108. DOI:10.3322/caac.21262 |
[2] | KUIPERS E J, GRADY W M, LIEBERMAN D, et al. Colorectal cancer[J]. Nat Rev Dis Primers, 2015, 1: 15065. DOI:10.1038/nrdp.2015.65 |
[3] |
赫捷, 陈万青. 2012中国肿瘤登记年报[M]. 北京: 军事医学科学出版社, 2012: 302.
HAO J, CHEN W Q. Chinese annual report of cancer in 2012[M]. Beijing: Military Medical Science Press, 2012: 302. |
[4] | DRULINER BR, RUAN X, SICOTTE H, et al. Early genetic aberrations in patients with sporadic colorectal cancer[J]. Mol Carcinog, 2018, 57(1): 114–124. DOI:10.1002/mc.22738 |
[5] | MORTUSEWICZ O, ROTH W, LI N, et al. Recruitment of RNA polymerase Ⅱ cofactor PC4 to DNA damage sites[J]. J Cell Biol, 2008, 183(5): 769–776. DOI:10.1083/jcb.200808097 |
[6] | DAS C, HIZUME K, BATTA K, et al. Transcriptional coactivator PC4, a chromatin-associated protein, induces chromatin condensation[J]. Mol Cell Biol, 2006, 26(22): 8303–8315. DOI:10.1128/MCB.00887-06 |
[7] | SHI C, ZHU Y, ZHAU HE, et al. PC4, a novel marker for stem cell transformation and cancer progression[J]. J Biotechnol, 2008, 136(Suppl): S189. DOI:10.1016/j.jbiotec.2008.07.1822 |
[8] | PENG Y, YANG J, ZHANG E, et al. Human positive coactivator 4 is a potential novel therapeutic target in non-small cell lung cancer[J]. Cancer Gene Ther, 2012, 19(10): 690–696. DOI:10.1038/cgt.2012.52 |
[9] | LIAO M, ZHANG Y, KANG JH, et al. Coactivator function of positive cofactor 4 (PC4) in Sp1-directed luteinizing hormone receptor (LHR) gene transcription[J]. J Biol Chem, 2011, 286(9): 7681–7691. DOI:10.1074/jbc.M110.188532 |
[10] | WANG X, HUANG L, XU Y, et al. Association between survivin-31G > C promoter polymorphism and cancer risk: a meta-analysis[J]. Eur J Hum Genet, 2012, 20(7): 790–795. DOI:10.1038/ejhg.2011.276 |
[11] | CAMPBELL D B, LI C, SUTCLIFFE J S, et al. Genetic evidence implicating multiple genes in the MET receptor tyrosine kinase pathway in autism spectrum disorder[J]. Autism Res, 2008, 1(3): 159–168. DOI:10.1002/aur.27 |
[12] | BARBER JC, HUANG S, BATEMAN MS, et al. Transmitted deletions of medial 5p and learning difficulties; does the cadherin cluster only become penetrant when flanking genes are deleted?[J]. Am J Med Genet, 2011, 155(11): 2807–2815. DOI:10.1002/ajmg.a.34241 |
[13] | YOKOI S, YASUI K, SAITO-OHARA F, et al. A novel target gene, SKP2, within the 5p13 amplicon that is frequently detected in small cell lung cancers[J]. Am J Pathol, 2002, 161(1): 207–216. DOI:10.1016/S0002-9440(10)64172-7 |
[14] | YANG H, ZHOU Y, ZHOU Z, et al. A novel polymorphism rs1329149 of CYP2E1 and a known polymorphism rs671 of ALDH2 of alcohol metabolizing enzymes are associated with colorectal cancer in a southwestern Chinese population[J]. Cancer Epidemiol Biomarkers Prev, 2009, 18(9): 2522–2527. DOI:10.1158/1055-9965.EPI-09-0398 |
[15] | ZHOU ZY, TAKEZAKI T, MO BQ, et al. Development of a semi-quantitative food frequency questionnaire to determine variation in nutrient intakes between urban and rural areas of Chongqing, China[J]. Asia Pac J Clin Nutr, 2004, 13(3): 273–283. |
[16] | ZHANG XH, SHEN M, LIU L, et al. Association analysis of single nucleotide polymorphisms in C1QTNF6, RAC2, and an intergenic region at 14q32.2 with Graves' Disease in Chinese Han population[J]. Genet Test Mol Biomarkers, 2017, 2(8): 479–484. DOI:10.1089/gtmb.2017.0009 |
[17] | NAMIPASHAKI A, RAZAGHI-MOGHADAM Z, ANSARI-POUR N. The essentiality of reporting Hardy-Weinberg equilibrium calculations in population-based genetic association studies[J]. Cell J, 2015, 17(2): 187–192. DOI:10.22074/cellj.2016.3711 |
[18] | QIAN D, ZHANG B, ZENG XL, et al. Inhibition of human positive cofactor 4 radiosensitizes human esophageal squmaous cell carcinoma cells by suppressing XLF-mediated nonhomologous end joining[J]. Cell Death Dis, 2014, 5: e1461. DOI:10.1038/cddis.2014.416 |
[19] | HU X, ZHANG C, ZHANG Y, et al. Down regulation of human positive coactivator 4 suppress tumorigenesis and lung metastasis of osteosarcoma[J]. Oncotarget, 2017, 8: 53210–53225. DOI:10.18632/oncotarget.18290 |
[20] |
李圣彦, 郎志宏, 黄大昉. 真核生物启动子研究概述[J].
生物技术进展, 2014, 4(3): 158–164.
LI S Y, LANG Z H, HUANG D F. Research progress on eukaryotic promoter[J]. Current Biotech, 2014, 4(3): 158–164. DOI:10.3969/j.issn.2095-2341.2014.03.02 |
[21] | CONESA C, ACKER J. Sub1/PC4 a chromatin associated protein with multiple functions in transcriptionp[J]. RNA Biol, 2010, 7(3): 287–290. DOI:10.4161/rna.7.3.11491 |
[22] | HOOKER S, BONILLA C, AKEREYENI F, et al. NAT2 and NER genetic variants and sporadic prostate cancer susceptibility in African Americans[J]. Prostate Cancer Prostatic Dis, 2008, 11(4): 349–356. DOI:10.1038/sj.pcan.4501027 |
[23] | HOWELL W M, JOBS M, GYLLENSTEN U, et al. Dynamic allele-specific hybridization. A newmethod for scoring single nucleotide polymorphisms[J]. Nat Biotechnol, 1999, 17(1): 87–88. DOI:10.1038/5270 |