Hệ thống thông tin địa lý

Phần 2 - Các mô hình dữ liệu không gian

Nguyễn Hải Châu (nhchau@gmail.com)
Trường Đại học Công nghệ, ĐHQGHN

Các mô hình dữ liệu trong GIS

  • Mô hình dữ liệu là phương pháp sử dụng để biểu diễn các đối tượng của thế giới thực trong máy tính/hệ thống thông tin
  • Mô hình dữ liệu vector
    • Biểu diễn các đối tượng cơ bản: Điểm (POINT), đường (LINE), đa giác (POLYGON)
    • TIN (Triangulated Irregular Network)
    • Sử dụng tốt nhất cho các đối tượng được định nghĩa tường minh
  • Mô hình dữ liệu raster
    • Một lưới (grid) gồm các ô (cell), mỗi ô được gán giá trị biểu diễn các thuộc tính như: lớp phủ mặt đất, cao độ, hệ số phản xạ
    • Tesselation (mặt ghép)
    • Sử dụng tốt nhất cho các đối tượng biến đổi liên tục (cao độ, hệ số phản xạ...)
  • Cả hai mô hình trên đều có thể dùng để biểu diễn dữ liệu 2D và 3D

Mô hình dữ liệu vector

  • POINT: Biểu diễn các vị trí, điểm, có tọa độ 2 hoặc 3 chiều
  • LINE: Biểu diễn các đối tượng như đường giao thông, sông, đường cáp v.v.., có thể xem là tập hợp các POINT thẳng hàng
  • POLYGON: Biểu diễn các vùng như hồ, địa giới hành chính v.v.. = tập hợp các LINE 1, 2, ...n trong đó điểm đầu của LINE 1 và điểm cuối của LINE n phải trùng nhau.
  • Dữ liệu vector thường được lưu trữ với các định dạng:
    • shapefile (.shp và các file phụ trợ): Do công ty ESRI đề xuất
    • Cơ sở dữ liệu gdb: Do ESRI đề xuất
    • Một số định dạng khác
  • Phương thức để "sản xuất" dữ liệu vector:
    • Đo đạc, vẽ bản đồ
    • Số hóa bản đồ

Mô hình dữ liệu raster

  • Dữ liệu raster là lưới gồm các ô, mỗi ô tương ứng với một khu vực trên thực địa và gán giá trị tương ứng.
  • Dữ liệu raster thường được lưu trữ trong máy tính (số hóa) ở dạng ảnh:
    • PNG, JPEG, BMP, TIFF: Không có tọa độ
    • GeoTIFF: Có thông tin về hệ tọa độ, phép chiếu, hệ qui chiếu...
  • Làm cách nào để có dữ liệu raster:
    • Các thiết bị cảm biến quang học: Máy ảnh đặt trên vệ tinh, UAV
    • Các thiết bị cảm biến khác: Radar, cảm biến hồng ngoại, v.v..

Độ phân giải của dữ liệu raster

  • Dữ liệu raster có các kiểu độ phân giải khác nhau (Campbell, 2002):
    • Độ phân giải thời gian: Tần suất thu nhận dữ liệu của cảm biến
    • Độ phân giải không gian: Độ lớn của một ô trên thực địa
    • Độ phân giải phổ (spectral resolution): Khoảng cách giữa các bước sóng mà cảm biến có thể phân biệt được
    • Độ phân giải bức xạ (radiometric resolution): Khả năng phân biệt các mức tín hiệu của cảm biến
    • Độ phân giải hình học (geometric resolution): khả năng ghi lại hình ảnh của một khu vực trên bề mặt trái đất của cảm biến sao cho có thể phân biệt khu vực đó với khu vực khác có cỡ tương đương

Mô hình dữ liệu trong GIS

  • Mô hình hóa các đối tượng địa lý trong thế giới thực
  • Liên kết các thuộc tính với đối tượng địa lý đã được mô hình hóa
    • Tên, mã của đối tượng
    • Phân loại
  • Mối quan hệ không gian giữa các đối tượng địa lý đã được mô hình hóa
    • Trong nội tại một đối tượng: Độ dài, diện tích, chu vi, hình dạng...
    • Giữa hai đối tượng: Khoảng cách, hướng, topology. Topology: Mối quan hệ không gian giữa các đối tượng gần nhau, lân cận
  • Phân bố không gian của các đối tượng

Các nguồn dữ liệu không gian

Topology

  • Topology là một tập hợp các qui tắc để biểu diễn các đối tượng dữ liệu vector cơ bản trong GIS (Galati, 2006)
  • Các chức năng chính của topology:
    • Tính cục bộ của quan hệ giữa các thuộc tính không gian (complement)
    • Các đặc điểm chung của các thuộc tính (intersection)
    • Cách nhóm/gộp các thuộc tính (union)

Siêu dữ liệu không gian (spatial metadata)

  • Siêu dữ liệu (metadata) là thông tin có cấu trúc mô tả tài nguyên (hay dữ liệu nói riêng) để có thể dễ dàng tìm kiếm, sử dụng, thao tác và lập danh mục tài nguyên đó.
  • Metadata = data about data
  • Chuẩn dữ liệu metadata:
    • Content Standard for Digital Geospatial Metadata (CSDGM);
    • Dublin Core Metadata Element Set;
    • European CEN Metadata Standard (CEN/TC 287);
    • Australian Government Locator Service (AGLS) Metadata Element Set;
    • UK GEMINI Discovery Metadata Standard.

Ví dụ: dữ liệu vector

  • Địa giới hành chính của Việt Nam: http://www.gadm.org/country
    • Chọn Country = Vietnam, chọn File format = Shapefile
    • Tải file: http://biogeo.ucdavis.edu/data/gadm2.8/shp/VNM_adm_shp.zip
    • Datum: WGS 84, hệ tọa độ, qui chiếu: latitude/longitude
    • Một bộ shapefile có 4 file: .shp: hình học, .prj: qui chiếu, hệ tọa độ, datum, .dbf: thuộc tính, .shx
  • Ví dụ phép chiếu trong .prj:
    • GEOGCS["GCS_WGS_1984",DATUM["D_WGS_1984", SPHEROID["WGS_1984",6378137.0,298.257223563]], PRIMEM["Greenwich",0.0],UNIT["Degree",0.0174532925199433]]
    • GCS = Geospatial Coordinate System, Datum: WGS 84, SPHEROID: tham số ellipsoid PRIMEM = kinh tuyến gốc, UNIT: Đơn vị đo

Ví dụ: Dữ liệu raster

  • Ảnh Landsat khu vực Bắc Bộ, chụp ngày 05/09/2016:
    • Tên ảnh: LC81270452016249LGN00
    • Path:127, row:45
  • Ảnh Landsat 8 có 11 bands:
    • Band 1: Coastal aerosol
    • Band 2, 3, 4: Blue, green, red
    • Band 5: Near infrared
    • Band 6, 7: Short wave infrared 1, 2 (SWIR 1, 2)
    • Band 8: Panchromatic
    • Band 9: Cirrus
    • Band 10, 11: Thermal infrared 1, 2 (TIR 1, 2)
    • Tất cả các band đều có thông tin hệ tọa độ, qui chiếu, datum, phép chiếu... (GeoTIFF)

Thông tin không gian chung trong GeoTIFF

  • File: LC81270452016249LGN00_B9.TIF
listgeo -d /home/chau/data/gis/LC81270452016249LGN00_B9.TIF | tail -20 | head -13
## PCS = 32648 (WGS 84 / UTM zone 48N)
## Projection = 16048 (UTM zone 48N)
## Projection Method: CT_TransverseMercator
##    ProjNatOriginLatGeoKey: 0.000000 (  0d 0' 0.00"N)
##    ProjNatOriginLongGeoKey: 105.000000 (105d 0' 0.00"E)
##    ProjScaleAtNatOriginGeoKey: 0.999600
##    ProjFalseEastingGeoKey: 500000.000000 m
##    ProjFalseNorthingGeoKey: 0.000000 m
## GCS: 4326/WGS 84
## Datum: 6326/World Geodetic System 1984
## Ellipsoid: 7030/WGS 84 (6378137.00,6356752.31)
## Prime Meridian: 8901/Greenwich (0.000000/  0d 0' 0.00"E)
## Projection Linear Units: 9001/metre (1.000000m)

Thông tin tọa độ ảnh trong GeoTIFF

  • File: LC81270452016249LGN00_B9.TIF
listgeo -d /home/chau/data/gis/LC81270452016249LGN00_B9.TIF | tail -7
## 
## Corner Coordinates:
## Upper Left    (  439200.000, 2512500.000)  (104.4079496,22.7186837)
## Lower Left    (  439200.000, 2279370.000)  (104.4164846,20.6124827)
## Upper Right   (  667230.000, 2512500.000)  (106.6282113,22.7114905)
## Lower Right   (  667230.000, 2279370.000)  (106.6047496,20.6060186)
## Center        (  553215.000, 2395935.000)  (105.5143439,21.6658936)

Hiển thị dữ liệu vector và raster

  • Cài đặt chương trình Quantum GIS (QGIS) (nguồn mở)
  • Hiển thị dữ liệu vector:
    • Chọn Layer --> Add layer --> Add vector layer
    • Chọn tiếp shapefile cần hiển thị
  • Hiển thị dữ liệu raster:
    • Chọn Layer --> Add layer --> Add raster layer
    • Chọn tiếp raster file cần hiển thị

Tự tạo dữ liệu không gian?

  • Dữ liệu vector: Crowdsourcing - sử dụng các thiết bị rẻ tiền, nhiều cá nhân có thể trang bị (ví dụ: Điện thoại smartphone có GPS, thiết bị GPS cầm tay...) để thu thập dữ liệu qua cộng đồng
    • Dữ liệu vector về đường đi, được thu thập qua GPS của người sử dụng
    • Ưu điểm: Dữ liệu trải rộng ở phạm vi lớn, thậm chí toàn cầu, cập nhật nhanh
    • Nhược điểm: Độ chính xác, độ tin cậy không cao
    • Ví dụ điển hình: OpenStreetMap (http://www.openstreetmap.org)
  • Dữ liệu vector: FaceBook "check-in"
  • Dữ liệu raster: Sử dụng thiết bị bay nhỏ (Unmanned Aerial Vehicle - UAV) gắn sensor, có thể tạo ra dữ liệu 2D hoặc 3D

Ví dụ: OpenStreetMap

Ví dụ: Xây dựng bản đồ 3D bằng UAV

Tóm tắt

  • Hai mô hình dữ liệu không gian: Vector và raster
    • Các đối tượng cơ bản trong mô hình dữ liệu vector: POINT, LINE, POLYGON
    • Các loại độ phân giải khác nhau trong mô hình dữ liệu raster
  • Topology: Qui tắc cần đảm bảo khi biểu diễn dữ liệu vector
  • Metadata của dữ liệu không gian
  • Cách tạo ra dữ liệu raster và vector
  • Một số nguồn dữ liệu vector và raster
  • Hiển thị dữ liệu vector và raster bằng phần mềm GIS trên desktop: Quantum GIS