ปราบมะเร็งด้วย Big Data

หลายคนคงไม่เคยทราบว่าการวิจัยวิทยาศาสตร์ชีวการแพทย์ (Biomedical Science) นั้นเป็นหนึ่งในงานที่สร้างข้อมูลปริมาณมหาศาลมาพักใหญ่ ๆ แล้ว จุดเริ่มต้นของการใช้งานข้อมูลขนาดใหญ่ หรือ “Big Data” ในงานชีวการแพทย์ก็คือการตั้งฐานข้อมูลเก็บลำดับเบสของสิ่งมีชีวิตชนิดต่าง ๆ ในช่วงทศวรรษ 1980 ทั้งลำดับเบสดีเอ็นเอ (GenBank) และลำดับโปรตีน (SwissProt/UniProt) โดยตั้งแต่ปี 1982 เป็นต้นมา มีลำดับเบสดีเอ็นเอเฉพาะของมนุษย์สะสมอยู่ในฐานข้อมูลสูงถึงสองหมื่นเจ็ดพันล้านเบสแล้ว ข้อมูลปริมาณมหาศาลแบบนี้นอกจากต้องใช้ทรัพยากรมหาศาลในการจัดเก็บและบำรุงรักษา การจะนำมาใช้งานก็ต้องใช้ทรัพยากรและระเบียบวิธีที่มหาศาลไม่แพ้กัน
และเมื่อพูดถึงโรคภัยไข้เจ็บของมนุษย์ หัวข้อวิจัยอันดับหนึ่งก็คือมะเร็งนั่นเอง ซึ่งสะท้อนได้จากจำนวนเงินที่หน่วยงานวิจัยสุขภาพที่ใหญ่ที่สุดในโลกอย่าง National Institutes of Health (NIH) โดยในปี 2019 นั้นเงินวิจัยที่จัดสรรให้กับโรคมะเร็งนั้นมาเป็นอันดับ 1 นำหน้าโรคติดเชื้อและโรคสมอง แต่สามปีหลังนี้เพราะโรคโควิด-19 ทำให้การจัดสรรเงินวิจัยโรคติดเชื้อสูงขึ้น ในปี 2021 จึงตกมาอยู่อันดับที่ 3 รองจากโรคติดเชื้อและโรคสมอง
แล้วหัวข้อหลักที่เกี่ยวกับการวิจัยมะเร็งมีอะไรบ้าง? ผมขอแบ่งเป็นสามหัวข้อหลักแบบนี้ครับ
- เพื่อศึกษาการเกิดมะเร็งในระดับโมเลกุล (Molecular Carcinogenesis)
- เพื่อตรวจจับมะเร็งให้ได้เร็วที่สุดและรุกล้ำให้น้อยที่สุดก่อนจะลุกลาม (Early and Non-/Less-Invasive Cancer Detection)
- เพื่อเลือกวิธีการรักษา/ยาให้เหมาะกับผู้ป่วยแต่ละคน (Cancer Precision Medicine)
การวิจัยมะเร็งเพื่อศึกษาการเกิดมะเร็งในระดับโมเลกุล (Molecular Carcinogenesis)
เริ่มที่หัวข้อแรกก่อนก็คือการศึกษาการเกิดมะเร็งในระดับโมเลกุล ในปี 2006 นั้นประเทศสหรัฐอเมริกาได้เริ่มโครงการศึกษามะเร็งในระดับโมเลกุลแบบครบวงจร (Comprehensive Molecular Study) โดยโครงการนี้เริ่มขึ้นหลังจากที่โครงการจีโนมมนุษย์นั้นได้ร่างเบื้องต้นของจีโนมมาในปี 2003 [หลายคนอาจจะคิดว่าเราได้จีโนมมนุษย์ที่สมบูรณ์มาตั้งแต่ปี 2003 แต่ในความเป็นจริงแล้วเราได้แค่ “ร่าง” (Draft) มาเท่านั้น มีความสมบูรณ์อยู่ที่ 85% ส่วนร่างที่สำเร็จสมบูรณ์แบบ ไม่มีช่องว่างในจีโนมใด ๆ แล้วนั้นเพิ่งเสร็จเมื่อมีนาคม 2022 นี้เอง] โดยมีชื่อโครงการว่า The Cancer Genome Atlas (TCGA) ซึ่งคนตั้งชื่อคงพยายามล้อตัวย่อของโครงการให้ตรงกับชนิดของนิวคลีโอไทด์สี่ตัวในดีเอ็นเอ นั่นก็คือ Thymidine, Cytosine, Guanine, และ Adenine นั่นเอง เป้าหมายของโครงการก็คือต้องการสำรวจจีโนมและข้อมูลระดับโมเลกุลอื่น ๆ ของมะเร็งให้หลากหลายชนิดที่สุดเท่าที่จะเป็นไปได้ เพื่อที่จะเข้าใจว่ามะเร็งต่าง ๆ นั้นมีที่มาอย่างไร เติบโตได้อย่างไร ลักษณะพันธุกรรมแบบไหนในมนุษย์ที่เร่งหรือเพิ่มความเสี่ยงการเกิดมะเร็ง ซึ่งข้อมูลต่าง ๆ ที่ได้จากโครงการนี้อาจจะนำไปสู่การพัฒนาตัวบ่งชี้ชีวภาพที่สามารถตรวจจับมะเร็งในระยะต้น (Early Detection Biomarker), ตัวบ่งชี้ชีวภาพเพื่อวินิจฉัยโรค (Diagnostic Biomarker), ตัวบ่งชี้ชีวภาพที่ทำนายการรอดชีพ – ดูว่าโอกาสที่จะมีชีวิตอยู่หลังจากได้รับการรักษานั้นเป็นอย่างไร (Prognostic Biomarker), รวมไปถึงข้อมูลการเลือกใช้ยา (Personalized/Precision Medicine)
โครงการนี้แม้ว่าจะจบไปแล้วในปี 2018 แต่โดยสรุปแล้วมีชนิดของมะเร็งที่ศึกษาทั้งหมด 33 ชนิด จำนวนผู้ป่วยที่บริจาคตัวอย่างทั้งหมดประมาณ 8,000 คน มีชนิดของข้อมูลทั้งหมด 22 ชนิด จากโมเลกุลดีเอ็นเอ (การกลายพันธุ์ตำแหน่งเดี่ยว – Single Nucleotide Variant [SNV], การเปลี่ยนแปลงจำนวนชิ้นของยีนในโครโมโซม – Copy Number Variation [CNV], การเปลี่ยนแปลงโครงสร้างโครโมโซม – Structural Variation [SV]) โมเลกุลอาร์เอ็นเอ (การแสดงออกของยีน – Gene Expression, โมเลกุลควบคุมการแสดงออกของยีน – microRNA, การหลอมรวมของยีน – Fusion RNA, การตัดและเปลี่ยนรูปแบบอาร์เอ็นเอ – RNA Splice Junction/Isoform) และโมเลกุลโปรตีน (จำนวนโปรตีน – Protein Expression Quantification) รวมไปถึงข้อมูลแวดล้อมอื่น ๆ ที่ได้จากการตรวจรักษาโรคมะเร็งแบบมาตรฐาน ตั้งแต่ค่าแล็บพื้นฐานจากการตรวจเลือดปกติ ภาพจากการตรวจด้วยรังสี ทั้ง X-Ray, CT-scan, MRI, Ultrasound โดยข้อมูลระดับที่บุคคลธรรมดาอย่างเรา ๆ จะเข้าถึงได้นั้นมีปริมาณอยู่ที่ 15 Terabyte แต่ข้อมูลดิบที่สามารถนำเอามาทำการวิเคราะห์ได้อย่างละเอียดนั้นมีปริมาณอยู่ที่ 2.59 Petabyte ปริมาณข้อมูลดิบนี้อาจจะดูน้อยเมื่อเทียบกับข้อมูลของบริษัทอินเตอร์เน็ตยักษ์ใหญ่ทั้งหลาย แต่ต้องอย่าลืมว่าในระหว่างการวิเคราะห์ข้อมูลนั้นก็จะเกิดข้อมูลระหว่างทางขึ้นอีกหลายเท่า การจะวิเคราะห์ข้อมูลเหล่านี้ตามปกติใช้คอมพิวเตอร์ส่วนตัวไม่ได้อยู่แล้ว จำเป็นต้องใช้งาน High-Performance Computer (HPC) ในการวิเคราะห์และเก็บข้อมูล เข้าไปลองดูข้อมูลได้ที่ Genomics Data Common (GDC) Portal
ข้อมูลจากโครงการ TCGA นั้นเพิ่มพูนความรู้พื้นฐานของโรคมะเร็งหลายชนิดแบบก้าวกระโดด ยกตัวอย่างเช่นในมะเร็งเต้านมในท่อน้ำนมระยะต้น (Ductal Carcinoma In Situ – DCIS) นั้นสามารถแบ่งได้เป็น 4 แบบ ซึ่งมีอัตรารอดชีพทั้งก่อนและหลังจากการรักษาที่แตกต่างกัน และในระดับโมเลกุลนั้น มะเร็งเต้านม DCIS มีความคล้ายกับมะเร็งรังไข่อีกด้วย ความรู้พื้นฐานอื่น ๆ จากมะเร็งชนิดอื่น ๆ หลัก ๆ ก็จะเป็นการค้นพบยีนที่เป็นหลักในการก่อมะเร็งหากยีนเหล่านี้กลายพันธุ์ หรือที่เรียกกันว่า Driver Gene หรือการพบความผิดปกติในระดับโมเลกุลอื่น ๆ เช่นจำนวนก็อปปี้ของยีนที่เพิ่มขึ้น หรือโครงสร้างโครโมโซมที่เปลี่ยนไป หรือการหลอมรวมกันของยีนที่ปกติอยู่แยกกัน เราไม่มีทางที่จะได้ข้อมูลแบบมามาได้เลยหากเราทำการศึกษามะเร็งแบบแยกโครงการย่อย ๆ ไม่มีการรวมกันของตัวอย่างในระดับโครงการแบบ TCGA
การวิจัยมะเร็งเพื่อตรวจจับมะเร็งให้ได้เร็วที่สุดและรุกล้ำให้น้อยที่สุดก่อนจะลุกลาม (Early and Non-/Less-Invasive Cancer Detection)
สำหรับหัวข้อที่สองคือการตรวจจับมะเร็งในระยะต้นและรุกล้ำให้น้อยที่สุดนั้นมีที่มาจากความจริงที่ว่าในมะเร็งแบบก้อนแข็ง (Solid Tumor) นั้น ผู้ป่วยมะเร็งจะมีโอกาสหายขาด (Cured) ได้สูงสุดนั้นขึ้นอยู่กับว่าตรวจพบมะเร็งในระยะใด ถ้าตรวจพบมะเร็งได้ในระยะแรก ๆ นั่นหมายความว่ามะเร็งนั้นยังไม่ลุกลามเข้าไปที่อวัยวะอื่น ๆ ยังสามารถรักษาให้หายขาดได้โดยการผ่าตัด (Surgical Resection) หรือใช้รังสีรักษา (Radio Therapy) กำจัดก้อนมะเร็งออกได้หมด ปัญหาก็คือตามปกติแล้วมะเร็งแบบก้อนแข็งมักจะไม่มีอาการใด ๆ บ่งบอกว่าเป็นมะเร็งเลย ผู้ป่วยจำนวนหนึ่งที่ตรวจพบมะเร็งมักจะพบจากการตรวจที่เกิดจากอาการที่ไม่เกี่ยวข้อง แล้วผลการตรวจนั้นพบมะเร็ง แม้แต่การตรวจคัดกรองมะเร็งโดยตรงในหลาย ๆ ชนิดมะเร็งก็ไม่สามารถตรวจพบมะเร็งได้เร็วพอ
ตัวอย่างการคัดกรองมะเร็งดังกล่าวคือการใช้ซีทีสแกนแบบความเข้มข้นต่ำ (Low-dose CT Scan) การตรวจมะเร็งเต้านมด้วยแมมโมแกรม (Mammography Scan) การตรวจมะเร็งตับโดยวัดค่าอัลฟ่าฟีโตโปรตีน (a-Fetoprotein) หรือการตรวจมะเร็งปากมดลูกโดยใช้แปบสเมียร์ (Papanicolaou Smear) มีงานวิจัยจำนวนมากที่เริ่มออกมาบอกแล้วว่าการตรวจคัดกรองมะเร็งที่กล่าวมานั้นไม่มีความไว (Sensitivity) ที่สูงพอจะตรวจพบมะเร็งเหล่านี้ในระยะต้น ซ้ำร้ายในบางกรณีอาจจะก่อมะเร็งได้ เช่นในการใช้ Low-dose CT Scan ซึ่งผู้คนที่ถูกวินิจฉัยว่ามีความเสี่ยงจะเป็นมะเร็งปอด ซึ่งตอนแรกอาจจะไม่ได้เป็น แต่เมื่อเจอ Low-dose CT Scan บ่อย ๆ เข้าก็อาจจะกระตุ้นการเกิดมะเร็งได้ เป็นต้น
อีกปัญหาหนึ่งซึ่งก็มีความสำคัญไม่แพ้กันก็คือ เมื่อตรวจคัดกรองแล้วพบว่าอาจมีก้อนมะเร็งอยู่ แพทย์จำเป็นจะต้องยืนยันว่าก้อนเนื้อต้องสงสัยนั้นเป็นเนื้อร้าย (Malignant Tumor) จริง ๆ ไม่ใช่ก้อนเนื้อที่ไม่มีอันตราย (Benign Tumor) ในบางกรณีอาจจะใช้สารทึบรังสีเพื่อยืนยัน แต่ส่วนมากจำเป็นต้องทำการเจาะ/ตัดตัวอย่างชิ้นเนื้อออกมา (Core Needle/Surgical Biopsy) ส่งให้พยาธิแพทย์นำตัวอย่างนั้นไปย้อมสีพร้อมทั้งตรวจภายใต้กล้องจุลทรรศน์ เพื่อยืนยันว่าเป็นมะเร็งจริง ๆ รวมกับจำแนกชนิดของมะเร็งด้วยว่ามีต้นตอมาจากแหล่งใด ซึ่งวิธีการเจาะ หรือตัดชิ้นเนื้อนี้เป็นการทำหัตถการที่มีความเสี่ยงอยู่ในตัวเอง เนื่องจากอาจทำให้ผู้ป่วยติดเชื้อจากขั้นตอนการเจาะ/ตัดชิ้นเนื้อ หรือหนักไปกว่านั้น ถ้าบริเวณนั้นเป็นมะเร็งจริง ๆ อาจจะทำให้เนื้อเยื้อมะเร็งมีช่องให้เดินทางไปยังอวัยวะอื่นได้ ขั้นตอนที่ต้องเจาะหรือตัดชิ้นเนื้อเหล่านี้เป็นสิ่งที่ทางการแพทย์เรียกว่าเป็นหัตถการที่รุกล้ำ (Invasive Procedure) ซึ่งก่อให้เกิดความเสี่ยงอย่างที่ได้กล่าวมาแล้ว ทั้งแพทย์ และนักวิทยาศาสตร์จึงพยายามจะหาวิธีการที่รุกล้ำร่างกายคนไข้ให้น้อยที่สุด (Minimally Invasive Procedure) เช่น เจาะเลือด เก็บปัสสาวะ หรือใช้ภาพถ่ายจากรังสีต่าง ๆ เป็นต้น
เข้ากับข้อมูลพื้นฐานสิ่งที่ “Big Data” จะมาช่วยเรื่องการตรวจจับมะเร็งในระยะต้นก็คือการวิเคราะห์ข้อมูลมะเร็งระดับโมเลกุลที่มาจากคนไข้ พร้อมกับข้อมูลอื่น เช่น ข้อมูลภาพจากรังสี ผนวกอื่น ๆ ที่เก็บเอาไว้ตามมาตรฐานปัจจุบันจากผู้ป่วย เช่น ระยะของมะเร็ง ค่าต่าง ๆ จากการตรวจจากห้องปฏิบัติการ (หรือที่เราเรียกกันว่า “ผลแล็บ”) ต่าง ๆ ไม่ว่าจะเป็นปริมาณโปรตีนต่าง ๆ ไขมันหลากชนิด ปริมาณเม็ดเลือดขาว/แดง สารละลายต่าง ๆ จากเลือดและปัสสาวะ เมื่อเราเก็บข้อมูลเหล่านี้ได้ปริมาณมากเพียงพอ อาจจะอยู่ในหลักหลายพันถึงหลายหมื่นคน นักวิทยาศาสตร์และแพทย์น่าจะสามารถใช้เทคนิคแมชชีนเลิร์นนิง (Machine Learning) หรือปัญญาประดิษฐ์แบบดีปเลิร์นนิง (Deep Learning) เพื่อค้นหาว่าจากภาพถ่ายรังสี ไม่ว่าจะเป็น X-ray, MRI, CT-Scan หรือ PET Scan นั้นมีความเชื่อมโยงกับโมเลกุลที่โดดเด่น (Molecular Signature) ของก้อนมะเร็งอย่างไร ซึ่งเมื่อค้นพบว่าหน้าตาของรูปถ่ายจากรังสีนั้นมีความเชื่อมโยงกับมะเร็งในระดับโมเลกุลได้แล้ว เราก็อาจจะไม่จำเป็นต้องเจาะเลือด หรือเจาะ/ตัดชิ้นเนื้อมะเร็งมาตรวจยืนยันอีกต่อไป
ในประเทศสหรัฐอเมริกาและภูมิภาคยุโรปมีโครงการวิจัยที่เพิ่งเริ่มเมื่อไม่นานมานี้เพื่อการนี้โดยเฉพาะ ในสหรัฐอเมริกามีภาคีความร่วมมือทางภาพถ่ายรังสีและตัวบ่งชี้ชีวภาพ (Consortium for Imaging and Biomarkers – CIB) ซึ่งเป็นโครงการที่เริ่มต้นโดย NIH และมีแพทย์และนักวิทยาศาสตร์จากทั่วประเทศสหรัฐเข้าร่วม ในสหราชอาณาจักรมีโครงการเร่งรัดการใช้ภาพถ่ายรังสีสำหรับใช้ในคลีนิคเพื่อตรวจจับมะเร็งระยะต้น (National Cancer Imaging Translational Accelerator – NCITA) เป็นการรวบรวมกลุ่มแพทย์และนักวิจัยภาพถ่ายรังสีที่เกี่ยวกับมะเร็งเพื่อให้ใช้อุปกรณ์การแพทย์และการวิเคราะห์ทางคณิตศาสตร์และสถิติขั้นสูงเพื่อใช้ในงานคลีนิคได้เร็วที่สุด ในยุโรปมีอีกโครงการความร่วมมือใหญ่ก็คือ EuCanImage ที่รวบรวมกลุ่มวิจัยทางด้านภาพถ่ายรังสีสำหรับวินิจฉัยโรคมะเร็งและการวิเคราะห์ภาพถ่ายเหล่านั้นด้วยปัญญาประดิษฐ์เพื่อให้ทำงานร่วมกัน จะเห็นได้ว่า “Big Data” นั้นเป็นหนึ่งในเทคโนโลยีแกนกลางที่ทำให้ความร่วมมือนี้เกิดขึ้นได้
การวิจัยมะเร็งเพื่อเลือกวิธีการรักษา/ยาให้เหมาะกับผู้ป่วยแต่ละคน (Cancer Precision Medicine)
หัวข้อสุดท้าย ก็คือการเลือกใช้ยาที่เหมาะสมกับผู้ป่วยมะเร็งนั้น จริง ๆ แล้วงานวิจัยนี้มีมาก่อนหน้าโครงการอย่าง TCGA หลายสิบปีทีเดียว โครงการแรกที่เกิดขึ้นนั้นคือการนำเอาสารเคมีจากทั่วโลกมาคัดกรองกับเซลล์มะเร็ง 60 ชนิดที่มาจากผู้ป่วยมะเร็งในหลอดทดลอง ชื่อโครงการว่า NCI-60 Human Tumor Cell Lines Screen อยู่ภายใต้ร่มของโครงการค้นหายามะเร็งของสถาบันมะเร็งสหรัฐ (US National Cancer Institute – NCI) ที่ชื่อว่า Developmental Therapeutics Program ยามะเร็งจำนวนมากนั้นมีที่มาจากโครงการ NCI-60 Screening นี่เอง โครงการนี้ผลิตข้อมูลในระดับโมเลกุลจำนวนมาก ตั้งแต่ข้อมูลการกลายพันธุ์ใน DNA การแสดงออกของยีน (RNA) การแสดงออกของโปรตีน รวมไปถึงข้อมูลการตอบสนองต่อโมเลกุลเคมี 20,000 โมเลกุลกับเซลล์มะเร็งจำนวน 60 เซลล์ ที่จำนวนความเข้มข้นตั้งแต่หนึ่งจุดถึงสามจุด เพื่อดูการตอบสนองของเซลล์มะเร็งชนิดต่าง ๆ ต่อโมเลกุลเคมี
ข้อมูลอีกชุดหนึ่งจาก Broad Institute of MIT and Harvard ที่ชื่อ Connectivity Map (ในภายหลังเปลี่ยนชื่อเป็น CLUE แทน) ได้เก็บข้อมูลที่ลักษณะคล้ายกัน คือนำเอาโมเลกุลจำนวนหลายหมื่นชนิดมาทดสอบกับเซลล์มะเร็งหลายสิบเซลล์เพื่อดูการตอบสนองของเซลล์เหล่านั้น ข้อมูลอีกชุดที่มีคอนเซ็ปต์เดียวกันนั้นอยู่ที่ Wellcome Sanger Institute สหราชอาณาจักร ซึ่งรวบรวมข้อมูลที่คล้ายกันกับข้อมูลสองชุดแรกเอาไว้ ข้อมูลเหล่านี้เป็นจุดเริ่มต้นของการค้นหายาที่เหมาะสมกับมะเร็งของผู้ป่วยมะเร็งชนิดต่าง ๆ กันออกไป
ข้อมูลสามชุดข้างต้นนั้นใช้สิ่งที่เรียกว่า “แบบจำลอง” หรือ Model เพื่อทดสอบโมเลกุลต่าง ๆ ข้อจำกัดของวิธีนี้ก็คือแบบจำลองที่ว่านั้น แม้จะมาจากเซลล์มะเร็งของมนุษย์ แต่เซลล์เหล่านั้นถูกเลี้ยงให้โตแบบสองมิติเท่านั้น ซึ่งแตกต่างจากการเติบโตของเซลล์ในร่างกายของมนุษย์ที่เติบโตในโครงสร้างสามมิติ ในปัจจุบันนั้นนักวิทยาศาสตร์เปลี่ยนการทดลองยาและการศึกษาในแบบจำลองแบบใหม่สองชนิด คือ 1) อวัยวะสามมิติจำลอง (3D Organoid) ซึ่งใช้วิธีการเลี้ยงเซลล์มะเร็งจากมนุษย์ในโครงเจลที่ทำให้เซลล์โตในรูปแบบสามมิติเหมือนกับอวัยวะจริง และ 2) การนำเซลล์มะเร็งของคนไข้มาปลูกถ่ายไปยังหนูทดลอง (Patient-Derived Xenograft – PDX) ซึ่งสามารถใช้ในการทดลองยาที่จำเพาะกับผู้ป่วยได้ก่อนที่จะนำไปใช้จริงในผู้ป่วย เพื่อดูว่ามะเร็งนั้นตอบสนองต่อยาชนิดหนึ่งหรือหลายชนิดพร้อมกันหรือไม่ วิธีนี้จะช่วยคัดกรองยาจำนวนมากเพื่อที่จะเลี่ยงการเกิดผลข้างเคียงที่ไม่พึงประสงค์ต่าง ๆ ที่จะเกิดขึ้นจากการใช้ยา และลดการกลายพันธุ์ที่ก่อให้เกิดการดื้อยามะเร็งด้วย
ทั้งหมดนี้เป็นเพียงแค่ส่วนหนึ่งที่ Big Data มีบทบาทในการช่วยแพทย์และนักวิทยาศาสตร์เพื่อหาทางรักษามะเร็ง ยังมีอีกหลายงานที่ Big Data สามารถใช้ในงานวิจัยมะเร็งได้ ในประเทศไทยของเรานั้นก็มีโครงการ Genomics Thailand เริ่มขึ้นมาเมื่อไม่กี่ปีมานี้ที่ใช้ Big Data เข้ามาช่วยในงานการแพทย์ของประเทศไทยให้ก้าวทันโลก จากข้อมูลทั้งหมดนี้จะเห็นได้ว่าเราจำเป็นต้องมีนักวิทยาศาสตร์ นักวิจัย และแพทย์ที่สนใจและนำ “Big Data” เข้ามาใช้ในการทำวิจัยให้มากขึ้น
เนื้อหาโดย ดร. ยสวัต ป้อมเย็น
ตรวจทานและปรับปรุงโดย นนทวิทย์ ชีวเรืองโรจน์