ดึงข้อมูลจากเว็บไซต์ (Data Scraping) ด้วย Python Part 2 : Scrape HTML โดยใช้ Python
บทความนี้เป็นส่วนหนึ่งของซีรีส์ “ดึงข้อมูลจากเว็บไซต์ (Data Scraping) ด้วย Python” โดยผู้อ่านสามารถเข้าถึงภาคอื่น ๆ ของซีรีส์นี้ได้ ดังนี้ :
- Part 1 : สำรวจ ตรวจตรา ดู Data Source
- Part 2 : Scrape HTML โดยใช้ Python (บทความนี้)
- Part 3 : Scraping ข้อมูลลึกไปอีกขั้น
จากในภาค 1 ของบทความเรื่อง Data Scraping นี้ เราได้เห็นภาพรวมแล้วว่าจะต้องทำอะไรบ้างแบบคร่าว ๆ ในตอนนี้เราจะเริ่มลงมือเอา Python มา scrape HTML จากหน้าเว็บเพื่อรวบรวมข้อมูลสถานพยาบาลต่าง ๆ ทั่วประเทศ จาก เว็บไซต์ ของกองยุทธศาสตร์และแผนงานกันครับ ขั้นตอนแรกสุดคือการดึงเอา HTML code ของหน้าเว็บนั้น ๆ มาเข้าในตัวแปรใน Python script เพื่อที่เราจะได้สกัดเอาข้อมูลออกมาจาก HTML ได้ วิธีการดึงเอา HTML มานั้นเราจะใช้ Python library ที่ชื่อว่า requests โดยให้พิมพ์โค้ดเหล่านี้ลงไปครับ:
import requests
i_page = 0
url = f'http://203.157.10.8/hcode_2014/query_list.php?pageNum_rsList={i_page}'
source = requests.get(url)
ในโค้ดนี้บรรทัดสุดท้ายเป็นการทำ HTTP request ไปที่ URL ที่เรานิยามไว้ในตัวแปร string ที่ชื่อว่า url
เราเขียน url
ให้เป็น string ที่สามารถเปลี่ยนเลขหน้าได้ คือ เปลี่ยนไปตามตัวแปรที่ชื่อว่า i_page
ครับ เราทำอย่างนี้เอาไว้เพื่อที่ว่าต่อไปเราจะเอาโค้ดนี้ไปวางไว้ใน for loop ให้ scrape ทุกหน้าเว็บได้เลย ในโค้ดข้างบนนี้ที่เรา set ให้ i_page = 0
นั้นคือ URL จะเป็นของเว็บตารางหน้าแรกสุด เราสามารถที่จะดู content ในตัวแปร
ที่เราได้ดึงมาได้โดยการ source
print(source.content)
ซึ่งก็จะพบว่า source.content
นั้นมีหน้าตาเหมือนกับ HTML ที่เรา inspect กันใน developer tools ดังในบทความ Part 1 เลยครับ
Static vs Dynamic vs Hidden Websites
เนื่องจากเว็บไซต์ ที่เรากำลัง scrape กันนี้เป็น Static Website (คือเนื้อหาทั้งหมดที่แสดงบน webpage นั้นอยู่ใน HTML code แล้ว) ข้อมูลทั้งหมดที่เราอยากได้จึงอยู่ในตัวแปร source
หมดแล้ว แต่ในบางเว็บไซต์ที่ไม่ใช่ static นั้นอาจจะมีเนื้อหาหรือข้อมูลบางส่วนที่ไม่ได้อยู่ใน HTML code เช่น เนื้อหาอาจจะมาในรูปแบบของ JavaScript แทน (ใน Dynamic Website) หรือบางเว็บไซต์ ก็อาจจะต้องมีการให้บอทเรานั้น login เข้าไปก่อน เพื่อที่จะเห็นเนื้อหาทั้งหมด (Hidden Website) เป็นต้น ในกรณีเหล่านี้จะต้องใช้เทคนิคพิเศษอื่น ๆ เพิ่มเติม และใช้ Python libraries อื่น ๆ ที่นอกเหนือไปจาก requests
ซึ่งเราจะยังไม่กล่าวถึงในบทความนี้ครับ
Parse ข้อมูลจาก HTML code โดยใช้ BeautifulSoup
ในขั้นตอนที่แล้วนั้นเราได้ scrape เนื้อหาทั้งหมดมาจากหน้าแรกสุดแล้ว แต่ว่าเนื้อหาที่ได้มานั้นมันมีมากเกินกว่าที่เราอยากได้และยังค่อนข้างยุ่งเหยิง สิ่งที่เราจะต้องทำกันต่อไปคือเอาเนื้อหาในตัวแปร source
นี้มาตัดเลือก (parse) เอาเฉพาะตัวเลข รหัส 9 หลัก (code) กับรหัส 5 หลัก (oldcode) ในตารางครับเราเรียกใช้ BeautifulSoup
ได้โดยพิมพ์บรรทัดที่ 2 และ 8 ข้างล่างนี้เพิ่มลงไปใน Python script ครับ
import requests
from bs4 import BeautifulSoup
i_page = 0
url = f'http://203.157.10.8/hcode_2014/query_list.php?pageNum_rsList={i_page}'
source = requests.get(url)
soup = BeautifulSoup(source.content, 'lxml', from_encoding='utf-8')
ในโค้ดบรรทัดสุดท้ายนี้เราได้สร้าง BeautifulSoup
object ซึ่งรับเอา input มาจากเนื้อหาของ source
แล้วเอา BeautifulSoup
object นี้ไปใส่ไว้ในตัวแปรที่ชื่อว่า soup
จะสังเกตเห็นว่าเราตั้ง encoding เป็น 'utf-8'
เพราะว่าเนื้อหาใน website นี้เป็น Unicode ครับ ผู้อ่านที่สนใจสามารถศึกษาเพิ่มเติมเกี่ยว Unicode และ UTF-8 ซึ่งเป็นมาตรฐานการจัดระเบียบ เข้ารหัส และแสดงผลข้อมูลข้อความในภาษาต่าง ๆ ทั่วโลกได้ที่บทความนี้ครับ
หา Elements โดยใช้ ID
ในรูปที่ 5 ข้างล่างนี้ จะสังเกตเห็นใน Developer tools ว่า รหัส 9 หลัก (code) กับรหัส 5 หลัก (oldcode) แต่ละตัวถูกวางอยู่ใน <td>
tag ซึ่งอยู่ใน <tr>
tag (แต่ละ <tr>
tag คือ 1 Table Row นั่นเอง) และแต่ละ <tr>
tag ก็อยู่ใน <tbody>
tag ครอบด้วย <table>
tag อีกทีหนึ่ง ซึ่งตารางนี้ <table>
tag อยู่ใน <div>
tag ที่มี id='content'
ดังในรูปที่ 5 ที่ลูกศรชี้อยู่

<div>
tag เปิดครอบ <table>
tag ซึ่งเป็นตารางที่มีตัวเลขรหัส 9 หลัก (code) กับรหัส 5 หลัก อยู่ดังนั้น ในขั้นแรกของการ parse จาก HTML content ทั้งหมดนั้น เราจะเลือกเจาะเข้าไปดูเฉพาะใน Element ที่ <div>
tag นี้ครอบอยู่:
<div id=”content”>
<!-- all the data we want are in this tag -->
</div>
เราใช้ BeautifulSoup
สกัดเอาเฉพาะ Element นี้ออกมาจาก content ทั้งหมดได้ด้วยการบอกชื่อ tag ('div'
) และ ID (id='content'
) ให้แก่ BeautifulSoup
method .find()
คือให้พิมพ์บรรทัดข้างล่างนี้ลงไปใน Python script:
div = soup.find('div', id='content')
โค้ดนี้เป็นการตักเอามาเฉพาะซุปในส่วนที่เป็น Element ที่ <div>
tag ซึ่งมี id='content'
ครอบอยู่ เอามาเก็บไว้ในตัวแปรที่ชื่อว่า div
เราสามารถดูว่า HTML ใน div
นี้มีอะไรบ้างได้โดยการ print มันออกมา ซึ่งเราจะใช้ .prettify()
มาช่วยทำให้มัน print ออกมาเป็นระเบียบ ดูง่ายขึ้น (.prettify()
นี้สามารถนำไปใช้ print ได้ทุก BeautifulSoup
objects) โดยพิมพ์บรรทัดข้างล่างนี้ลงไปใน Python script:
print(div.prettify())
หา Elements โดยใช้ Class Name
มาถึงตรงนี้ เราได้ตัดซุปของเรา ทำให้ซุปมีขนาดเล็กลงแล้ว แต่มันก็ยังไม่เล็กถึงขั้นที่เราจะพอใจได้ เราจะเห็นในรูปที่ 5 ว่าข้อมูลที่เราสนใจทั้งหมดนั้นอยู่ในตาราง <table>
tag ที่มี class='tdlg'
ดังนั้นเราจะตักเอาเฉพาะส่วนตารางนี้มา โดยพิมพ์บรรทัดข้างล่างนี้ลงไปใน Python script:
table = div.find('table', class_='tdlg')
สังเกตว่าในโค้ดนี้ คำว่า class_
นั้นมี underscore ตามท้ายด้วย นั่นก็เพราะว่ามันจะได้ไม่ซ้ำกันกับ Python keyword class
ครับ ถ้าเราจะ print ดู HTML ใน table
นี้ก็ทำได้เหมือนกับตอนที่ print div
ครับ:
print(table.prettify())
ในกรณีที่ใน <div>
tag นี้มี elements ที่เป็น <table>
tag ที่มี class
ซ้ำกันหลายตาราง ตัวโค้ดข้างบนนี้จะเลือกเอามาเฉพาะตารางแรกสุด (บนสุด) แต่ถ้าอยากตักเอามาหลายตารางก็ให้ใช้โค้ดข้างล่างนี้แทนครับ:
tables = div.find_all('table', class_='tdlg')
โดยคราวนี้ tables
จะเป็นตัวแปรประเภท list of BeautifulSoup
objects ครับ คือเป็น list ที่มี elements เป็น BeautifulSoup
objects แต่ละ object เป็น table
หนึ่งตารางครับ แต่เนื่องจากในกรณีของเรานี้มีแค่ตารางเดียว ดังนั้นจึงใช้แค่ .find()
ก็เพียงพอครับ
หาหลาย Elements โดยใช้ find_all()
หลังจากที่เราตักเอาซุปเฉพาะส่วนที่เป็นตารางมาแล้ว ในตารางก็จะมี rows หลาย ๆ rows ซึ่งแต่ละ row จะถูกครอบด้วย <tr>
tag และข้างในแต่ละ row นั้นก็จะมีตัวเลขข้อมูลที่เราอยากได้ซึ่งถูกครอบด้วย <td>
tag อยู่ ดังนั้นในขั้นตอนต่อไปนี้คือการไล่ดูทีละ row เพื่อดูว่าใน row นั้นมีข้อมูลอะไรอยู่บ้าง โดยเราจะใช้ for loops สองอันซ้อนกันครับ : loop อันนอกคือการวนไล่ดูแต่ละ row, ส่วน loop อันในนั้นจะวนไล่ดูแต่ละ <td>
tag ใน row นั้น ๆ เพื่อสกัดเอาตัวเลขออกมาครับ
แต่ก่อนที่จะเข้า for loops นั้นเราจะต้องได้ list ของ rows ทั้งหมดมาก่อน เพื่อที่จะได้วนลูปได้ โดยให้เราพิมพ์บรรทัดข้างล่างนี้ลงไปใน Python script ครับ:
rows = table.find_all('tr')
โดย rows
จะเป็นตัวแปรประเภท list of BeautifulSoup
objects ครับ คือเป็น list ที่มี elements เป็น BeautifulSoup
objects แต่ละ object คือหนึ่ง BeautifulSoup
object ของหนึ่ง row ครับ
เมื่อได้ rows
มาแล้วก็ทำการวนลูปกันเลยครับ ตามโค้ดข้างล่างนี้:
ls = [] # list to store text of all elements in all the rows.
for row in rows:
# Find all elements in this row.
# Each element is enclosed by <td> tag.
elements = row.find_all('td')
# list to store text of all the elements in this row:
ls_elements_in_row = []
for element in elements:
text = element.text
ls_elements_in_row += [text]
ls += [ls_elements_in_row]
โค้ดข้างบนนี้ บรรทัดบนสุดคือเราสร้าง list เปล่าๆ (empty list) ที่ชื่อว่า ls
ขึ้นมาเพื่อจะเอาไว้เก็บข้อมูล text ทั้งหมดจากทุก elements จากทุก rows
ส่วน for loop อันนอก (ตั้งแต่บรรทัดที่ 2 ลงมา) นั้นคือการไล่ดูทีละ row
ในแต่ละ row
นั้นจะมีหลาย elements แต่ละ element นั้นมี <td>
tag ครอบอยู่ เราตักเอา elements เหล่านี้ทั้งหมดใน row
ได้โดยใช้โค้ดในบรรทัดที่ 5 คือ elements = row.find_all('td')
ซึ่งจะได้เป็น list ของ elements ทั้งหมดที่มี <td>
tag ครอบอยู่ครับ
พอเราได้ list ของ elements ทั้งหมดใน row
นี้มาแล้ว เราก็จะทำการไล่ดูทีละ element ในตัวแปร list ที่ชื่อว่า elements
เพื่อที่จะสกัดเอาข้อมูลที่เราอยากได้จาก text ของแต่ละ element ครับ ก่อนที่จะเข้า for loop อันที่สอง (ตั้งแต่บรรทัดที่ 10 ลงมา) นั้นเราจะสร้าง list เปล่าๆ (empty list) ที่ชื่อว่า ls_elements_in_row
(บรรทัดที่ 8) ขึ้นมาก่อนเพื่อเอาไว้เก็บข้อมูล text ทั้งหมดจากทุก elements ใน row
นี้ ในแต่ละรอบของ for loop ที่สองนี้คือดูทีละ element
จากใน elements
เราสกัดเอา text ของแต่ละ element
ได้โดยใช้โค้ดตามบรรทัดที่ 11 คือ text = element.text
โค้ดนี้ฝั่งขวามือคือการสกัดเอา text ออกมาจาก element
แล้วเอาไปเก็บไว้ในตัวแปรใหม่ที่ชื่อว่า text
พอได้ text มาแล้วก็เอาไปเก็บไว้ในตัวแปร list ที่ชื่อว่า ls_elements_in_row
โดยการ append เข้าไปตามในบรรทัดที่ 12 ครับ ls_elements_in_row += [text]
ซึ่งพอเราวน for loop อันในนี้ครบทุกรอบแล้วก็จะได้ข้อมูลทั้งหมดใน row
นี้มาเก็บไว้ที่ ls_elements_in_row
สุดท้ายเราก็จะเอา ls_elements_in_row
ไป append เข้ากับ ls
(ตามโค้ดในบรรทัดที่ 14) คือจะได้ ls
เป็น list of lists ครับ
ทีนี้ถ้าลอง print(ls)
ออกมาดูก็จะพบว่าข้อมูลทั้งหมดในตารางนั้นได้ถูก scrape และเอาไป parse และจัดรูปวางไว้ใน ls
นี้อย่างเป็นระเบียบเรียบร้อยครับ แต่จะมีที่ขาดตกไปคือหัวตาราง (header) ครับเพราะว่า ถ้าลองย้อนกลับไปใช้ Developer tools มา inspect ที่ row หัวตาราง (header row) จะพบว่าแต่ละ element นั้นไม่ได้ถูกครอบด้วย <td>
tag แต่ถูกครอบด้วย <th>
tag แทนครับ ตรงนี้เองที่ทำให้สมาชิกตัวแรกสุดของ ls
เป็น empty list ครับ (คือ ls[0]
เป็น empty list) วิธีการที่จะได้ header row มา คือเปลี่ยนโค้ดบรรทัดที่ 2-5 ข้างบน เป็นโค้ดบรรทัดที่ 2-8 ข้างล่างนี้แทน แล้วรัน script ใหม่ครับ:
ls = [] # list to store text of all elements in all the rows.
for i, row in enumerate(rows):
# Find all elements in this row.
# Each element is enclosed by either <th> or <td> tag.
if i==0:
elements = row.find_all('th')
else:
elements = row.find_all('td')
# list to store text of all the elements in this row:
ls_elements_in_row = []
for element in elements:
text = element.text
ls_elements_in_row += [text]
ls += [ls_elements_in_row]
ซึ่งบรรทัดที่ 5 เป็นการบอกให้ bot รู้ว่าถ้าเป็น row แรกสุด (if i==0:
) ให้หา elements โดยดูที่ <th>
tag แทน ตามในโค้ดบรรทัดที่ 6 คือให้ใช้ elements = row.find_all('th')
แทนครับ (rows[0]
คือ header row) ส่วน rows ที่เหลือทั้งหมดนั้นให้ทำแบบเดิม ดังในบรรทัดที่ 7-8
พอเราได้ข้อมูลครบทุกอย่างจากตารางใน webpage นี้แล้ว เราจะแปลงให้เป็น pandas DataFrame
เพื่อที่ต่อไปจะได้เอาไปรวม (concatenate) กันกับตารางอื่นจากหน้าเว็บหน้าอื่น ๆ ทั้งหมดได้สะดวกครับ เอาโค้ดข้างล่างนี้ไปใส่เติมเพิ่มไว้ใน Python script ได้เลย:
import pandas as pd
df = pd.DataFrame(ls[1::])
df.columns = ls[0]
ในบรรทัดที่ 3 นี้ ls[1::]
จะเอาทุก rows ใน ls
มาเป็นสมาชิกในตาราง pandas DataFrame
ยกเว้น row แรกสุด (ls[0]
) ซึ่งเป็น header (หัวตาราง) ซึ่งเราเอาไปตั้งเป็น header ของตาราง pandas DataFrame
แทนครับ (ดังในบรรทัดที่ 4)
ใช้ for loop เพื่อ scrape ตารางจากทุกหน้าเว็บ
ในส่วนที่แล้วนั้นเราได้ Python script สำหรับการ scrape ตารางจากหนึ่งหน้าเว็บ เราสามารถนำเอาโค้ดทั้งหมดนี้มารวบเป็นหนึ่ง function เพื่อที่จะได้เอาไปใช้ scrape หน้าเว็บอื่นที่เหลืออีกได้สะดวกยิ่งขึ้น ให้เราสร้าง Python script อันใหม่แบบว่างๆเปล่าๆขึ้นมา แล้วเอาโค้ดทั้งหมดที่ได้ก่อนหน้านี้มาจัดเรียงไว้ในหนึ่ง function รวบกันแล้วจะได้โค้ดหน้าตาแบบนี้ครับ :
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_table_content(i_page):
url = f'http://203.157.10.8/hcode_2014/query_list.php?pageNum_rsList={i_page}'
source = requests.get(url)
soup = BeautifulSoup(source.content, 'lxml', from_encoding='utf-8')
div = soup.find('div', id='content')
table = div.find('table', class_='tdlg')
rows = table.find_all('tr')
ls = [] # list to store text of all elements in all the rows.
for i, row in enumerate(rows):
# Each element is enclosed by either <th> or <td> tag.
if i==0:
elements = row.find_all('th')
else:
elements = row.find_all('td')
# list to store text of all the elements in this row:
ls_elements_in_row = []
for element in elements:
text = element.text
ls_elements_in_row += [text]
ls += [ls_elements_in_row]
df = pd.DataFrame(ls[1::])
df.columns = ls[0]
return df
ตัว function get_table_content()
นี้ ขอแค่เราบอกมันว่าอยากได้ข้อมูลจากหน้าเว็บไหน มันก็จะ scrape และ parse ข้อมูล แล้ว return ออกมาให้เราเป็นตาราง pandas DataFrame
อย่างเป็นระเบียบครับ รายละเอียดของแต่ละบรรทัดใน function นี้สามารถย้อนขึ้นไปอ่านได้ด้านบนครับ เราใช้ for loop เพื่อเรียก function นี้ให้สกัดเอาข้อมูลทั้งหมด 2,736 หน้าเว็บมาให้เราทีเดียวได้ตามโค้ดข้างล่างนี้ครับ :
df_all = pd.DataFrame()
for i_page in range(0, 2736):
try:
df = get_table_content(i_page)
df_all = pd.concat([df_all, df], axis=0, sort=False)
print(f'Done getting data from page {i_page}')
except:
print(f'Cannot get data from page {i_page}')
df_all.to_excel('table_id.xlsx', index=False)
เราใช้ try except (บรรทัดที่ 3 และ 7) เพื่อที่ว่าตอนรันจะได้ไม่สะดุดครับ ถ้า webpage ไหนมี error ก็ให้ข้ามไปก่อน แต่ให้ print (บรรทัดที่ 8) แจ้งเตือนให้เราทราบครับ สำหรับเว็บไซต์นี้ผมลองรันโค้ดแล้วรันผ่านทุกหน้า ไม่มีหน้าไหน error ครับ เลยไม่มีปัญหาอะไรแต่ถ้ากรณีที่มี error นั้นอาจจะเป็นได้จากหลายสาเหตุ โดยส่วนใหญ่มักจะเป็นเพราะหน้านั้นมีการจัดวางโครงสร้างตารางแตกต่างไปจากหน้าอื่น ๆ ครับ
ข้อมูลที่ดึงมาทั้งหมดจะถูกบันทึกอยู่ใน Excel ถ้าลองเปิดดูก็จะพบกับตารางหน้าตาแบบนี้เลยครับ

ในที่สุดเราก็ได้มาแล้วสำหรับตารางที่มีข้อมูลสถานพยาบาลกว่า 27,000 แห่งพร้อมข้อมูลเบื้องต้นครับ เราได้เห็นวิธีการ scrape ข้อมูลจากเว็บไซต์แบบพื้นฐานแล้ว แต่ถ้าย้อนกลับไปดูที่เว็บไซต์ก็จะพบว่ายังมีข้อมูลรายละเอียด เช่น จำนวนเตียงผู้ป่วย พิกัดทางภูมิศาสตร์ เป็นต้น ที่ในตารางนี้ยังไม่มี สาเหตุก็เพราะว่าเรายังไม่ได้เจาะเข้าไป scrape ข้อมูลจากในหน้าเว็บเหล่านี้ครับ ซึ่งจะไปทำต่อใน Part 3 กับการ scrape แบบลึกยิ่งขึ้นอีกครับ
สุดท้ายนี้ เราขอขอบคุณ สำนักงานปลัดกระทรวงสาธารณสุข สำหรับข้อมูลที่เผยแพร่สาธารณะนี้ เพื่อให้เราได้นำมาเขียนบทความที่เป็นประโยชน์ด้านการศึกษา Data Science ครับ