Chơng Bảy: nhận dạng ảnh
Quá trình tiền xử lý Khối nhận dạng
Hình 7.2 Sơ đồ tổng quát một hệ nhận dạng.
7.2 nhận dạng dựa trên phân hoạch không gian
Trong kỹ thuật này, các đối tợng nhận dạng là các đối tợng định lợng. Mỗi đối tợng đợc biểu
diễn bởi một véctơ nhiều chiều. Trớc tiên, ta xem xét một số khái niệm nh: phân hoạch không gian, hàm
phân biệt sau đó sẽ đi vào một số kỹ thuật cụ thể.
7.2.1 Phân hoạch không gian
Giả sử không gian đối tợng X đợc định nghĩa : X = {Xi, i=1, 2, ,m}, Xi là một véctơ. Ngời
ta nói p là một phân hoạch của không gian X thành các lớp Ci, Ci X nếu:
Ci Cj = với i j và Ci = X
Nói chung, đây là trờng hợp lý tởng: tập X tách đợc hoàn toàn. Trong thực tế, thờng gặp
không gian biểu diễn tách đợc từng phần. Nh vậy phân loại là dựa vào việc xây dựng một ánh xạ f:
X > p. Công cụ xây dựng ánh xạ này là các hàm phân biệt (Descriminant functions).
7.2.2 Hàm phân lớp hay hàm ra quyết định
Để phân đối tợng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó. Hàm phân
lớp hay hàm phân biệt là một công cụ rất quan trọng. Gọi {gi} là lớp các hàm phân lớp. Lớp hàm này
đợc định nghĩa nh sau:
nếu i k, gk(X) > gi(X) thì ta quyết định X lớp k.
Nh vậy để phân biệt k lớp, ta cần k-1 hàm phân biệt. Hàm phân biệt g của một lớp nào đó thờng dùng
là hàm tuyến tính, có nghĩa là:
g(X) = W0 + W1X1 + W2 X2+. . . + Wk Xk
trong đó:
- Wi là các trọng số gán cho các thành phần Xi.
- W0 là trọng số để viết cho gọn.
Trong trờng hợp g là tuyến tính, ngời ta nói là việc phân lớp là tuyến tính hay siêu phẳng (hyperplan).
Các hàm phân biệt thờng đợc xây dựng dựa trên khái niệm khoảng cách hay dựa vào xác suất
có điều kiện.
Lẽ tự nhiên, khoảng cách là một công cụ rất tốt để xác định xem đối tợng có " gần nhau" hay
không. Nếu khoảng cách nhỏ hơn một ngỡng nào đấy ta coi 2 đối tợng là giống nhau và gộp chúng
vào một lớp. Ngợc lại , nếu khoảng cách lớn hơn ngỡng , có nghĩa là chúng khác nhau và ta tách thành
2 lớp.
Trong một số trờng hợp, ngời ta dựa vào xác suất có điều kiện để phân lớp cho đối tợng. Lý
thuyết xác suất có điều kiện đợc Bayes nghiên cứu khá kỹ và chúng ta có thể áp dụng lý thuyết này để
phân biệt đối tợng.
Gọi : P(X/Ci) là xác suất để có X biết rằng có xuất hiện lớp Ci
P(Ci /X) là xác suất có điều kiện để X thuộc lớp Ci.
Nhập môn xử lý ảnh số - ĐHBK Hà nội -5
Chơng Bảy: nhận dạng ảnh
với X là đối tợng nhận dạng, Ci là các lớp đối tợng.
Quá trình học cho phép ta xác định P(X/Ci) và nhờ công thức Bayes về sác xuất có điều
kiện áp dụng trong điều kiện nhiều biến, chúng ta sẽ tính đợc P(Ci/X) theo công thức: P(Ci /X) =
(7.2)
Nếu P(Ci /X) > P(Ck /X) với i # k thì X Ci. Tuỳ theo các phơng pháp nhận dạng khác nhau, hàm
phân biệt sẽ có các dạng khác nhau.
7.2.3 Nhận dạng thống kê
Nếu các đối tợng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ sác xuất cho bởi:
1 (x-m)2
f(x) = exp (- )
22 22
ngời ta có dùng phơng pháp ra quyết định dựa vào lý thuyết Bayes. Lý thuyết Bayes thuộc loại lý thuyết
thống kê nên phơng pháp nhận dạng .dựa trên lý thuyết Bayes có tên là phơng pháp thống kê.
Quy tắc Bayes
- Cho không gian đối tợng X = {Xl, l=1, 2, , L}, với Xl= {x1, x2, , xp}
- Cho không gian diễn dịch = { C1, C2, , Cr}, r là số lớp
Quy tắc Bayes phát biểu nh sau:
: X > sao cho X Ck nếu P(Ck /X) > P(Cl /X) l <> k, l=1, 2, ,r.
Trờng hợp lý tởng là nhận dạng luôn đúng, có nghĩa là không có sai số. Thực tế , luôn tồn tại sai số
trong quá trình nhận dạng. Vấn đề ở đây là xây dựng quy tắc nhận dạng với sai số là nhỏ nhất.
Phơng pháp ra quyết định với
tối thiểu
Ta xác định X Ck nhờ xác suất P(Ck/X). Vậy nếu có sai số, sai số sẽ đợc tính bởi 1 - P(Ck/X).
Để đánh giá sai số trung bình, ngời ta xây dựng một ma trận L(r,r) giả thiết là có n lớp.
Ma trận L đợc định nghĩa nh sau:
lk,j > 0 nếu k <>j (tồn tại sai số) (7.3)
Lk,j = lk,j <= 0 nếu k = j (không có sai số)
Nh vậy, sai số trung bình của sự phân lớp sẽ là:
rk(X) = (7.4)
Để sai số là nhỏ nhất ta cần có rk là min. Từ công thức 7.2 và 7.4 ta có:
rk(X) = P(Cj) (7.5)
Vậy, quy tắc ra quyết định dựa trên lý thuyết Bayes có tính đến sai số đợc phát biểu nh sau:
X Ck nếu k < p với p <> k, p=1, 2, , r. (7.6)
với k là rk(X).
Trờng hợp đặc biệt với 2 lớp C1 và C2, ta dễ dàng có:
X C1 nếu P(X/C1) > (7.7)
Giả sử thêm rằng xác suất phân bố là đều (P(C1) = P(C2), sai số là nh nhau ta có:
X C1 nếu P(X/C1) > P(X/C2) (7.8)
Nhập môn xử lý ảnh số - ĐHBK Hà nội -6
Chơng Bảy: nhận dạng ảnh
7.2.4 Một số thuật toán nhận dạng tiêu biểu trong tự học
Thực tế có nhiều thuật toán nhận dạng học không có thày. ở đây, chúng ta xem xét 3 thuật
toán hay đợc sử dụng: Thuật toán nhận dạng dựa vào khoảng cách lớn nhất, thuật toán K- trung bình (K
mean) và thuật toán ISODATA. Chúng ta lần lợt xem xét các thuật toán này vì chúng có bớc tiếp nối,
cải tiến từ thuật toán này qua thuật toán khác.
7.2.4.1 Thuật toán dựa vào khoảng cách lớn nhất
a) Nguyên tắc
Cho một tập gồm m đối tợng. Ta xác định khoảng cách giữa các đối tợng và khoảng cách lớn
nhất ứng với phần tử xa nhất tạo nên lớp mới. Sự phân lớp đợc hình thành dần dần dựa vào việc xác
định khoảng cách giữa các đối tợng và các lớp.
b) Thuật toán
Bớc 1
- Chọn hạt nhân ban đầu: giả sử X1 C1 gọi là lớp g1. Gọi Z1 là phần tử trung tâm của g1.
- Tính tất cả các khoảng cách Dj1 = D(Xj,Z1) với j =1, 2, , m
- Tìm Dk1= maxj Dj1. Xk là phần tử xa nhất của nhóm g1. Nh vậy Xk là phần tử trung
tâm của lớp mới g2, kí hiệu Z2.
- Tính d1 = D12 = D(Z1,Z2).
Bớc 2
- Tính các khoảng cách Dj1, Dj2.
- Dj1 = D(Xj,Z1), Dj2 = D((Xj,Z2). Đặt Dk(2) = max j Dj
Nguyên tắc chọn
- Nếu Dk(2) < d1 kết thúc thuật toán. Phân lớp xong.
- Nếu không, sẽ tạo nên nhóm thứ ba. Gọi Xk là phần tử trung tâm của g3, kí hiệu Z3.
- Tính d3 = (D12 + D13 + D23)/3
với là ngỡng cho trớc và D13 = D(Z1,Z3), D23 = D(Z2,Z3).
Quá trình cứ lặp lại nh vậy cho đến khi phân xong. Kết quả là ta thu đợc các lớp với các đại diện là Z1,
Z2 , , Zm.
7.2.4.2. Thuật toán K trung bình ( giả sử có K lớp)
a) Nguyên tắc
Khác với thuật toán trên, ta xét K phần tử đầu tiên trong không gian đối tợng, hay nói một
cách khác ta cố định K lớp. Hàm để đánh giá là hàm khoảng cách Euclide:
Jk = (7-9)
Jk là hàm chỉ tiêu với lớp Ck. Việc phân vùng cho k hạt nhân đầu tiên đợc tiến hành theo nguyên tắc
khoảng cách cực tiểu. ở đây, ta dùng phơng pháp đạo hàm để tính cực tiểu.
Xét với Zk là biến. Ta dễ dàng có (7.9) min khi:
= 0 ==> Zk = (7.10)
Công thức 7.10 là giá trị trung bình của lớp Ck và điều này lý giải tên của phơng pháp.
Nhập môn xử lý ảnh số - ĐHBK Hà nội -7
Chơng Bảy: nhận dạng ảnh
b)Thuật toán
Chọn Nc phần tử (giả thiết có Nc lớp) của tập T. Gọi các phần tử trung tâm của các lớp đó là: X1,
X2, , XNc và ký hiệu là Z1, Z2, , ZNc.
Thực hiện phân lớp
X Ck nếu D(X,Zk) = Min D(X,Zj)(1), j =1, , Nc. (1) là lần lặp thứ nhất.
Tính tất cả Zk theo công thức 7.10.
Tiếp tục nh vậy cho đến bớc q.
X Gk(q-1) nếu D(X,Zk(q-1)) = min l D(X,Zl(q-1)).
Nếu Zk(q-1) = Zk(q) thuật toán kết thúc, nếu không ta tiếp tục thực hiện phân lớp.
7.2.4.3 Thuật toán ISODATA
ISODATA là viết tắt của từ Iteractive Self Organizing Data Analysis. Nó là thuật toán khá
mềm dẻo, không cần cố định các lớp trớc. Các bớc của thuật toán đợc mô tả nh sau:
- Lựa chọn một phân hoạch ban đầu dựa trên các tâm bất kỳ. Thực nghiệm đã chứng minh kết
quả nhận dạng không phụ thuộc vào phân lớp ban đầu [2].
- Phân vùng bằng cách sắp các điểm vào tâm gần nhất dựa vàp khoảng cách Euclide.
- Tách đôi lớp ban đầu nếu khoảng cách lớn hơn ngỡng t1.
- Xác định phân hoạch mới trên cơ sở các tâm vừa xác định lại và tiếp tục xác định tâm mới.
- Tính tất cả các khoảng cách đến tâm mới.
- Nhóm các vùng với tâm theo ngỡng t2.
Lặp các thao tác tác trên cho đến khi thoả tiêu chuẩn phân hoạch.
7.3 Nhận dạng theo cấu trúc
7.3.1 Biểu diễn định tính
Ngoài cách biễn diễn theo định lợng nh đã mô tả ở trên, tồn tại nhiều kiểu đối tợng mang
tính định tính. Trong cách biểu diễn này, ngời ta quan tâm đến các dạng và mối quan hệ giữa chúng.
Giả thiết rằng mỗi đối tợng đợc biểu diễn bởi một dãy ký tự. Các đặc tính biểu diễn bởi cùng một số ký
tự. Phơng pháp nhận dạng ở đây là nhận dạng lô gíc, dựa và hàm phân biệt là hàm Bool. Cách nhận
dạng là nhận dạng các từ có cùng độ dài.
Giả sử hàm phân biệt cho mọi ký hiệu là ga(x), gb(x), , tơng ứng với các ký hiệu a, b, . Để
dễ dàng hình dung, ta giả sử có từ "abc" đợc biểu diễn bởi một dãy ký tự X = {x1, x2, x3, x4}. Tính
các hàm tơng ứng với 4 ký tự và có:
ga(x1) + gb(x2) + gc(x3) + gc(x4)
Các phép cộng ở đây chỉ phép toán OR. Trên cơ sở tính giá trị cực đại của hàm phân biệt, ta quyết định
X có thuộc lớp các từ "abc" hay không. Trong cách tiếp cận này, đối tợng tơng đơng với câu.
7.3.2 Phơng pháp ra quyết định dựa vào cấu trúc
7.3.2.1 Một số khái niệm
Thủ tục phân loại và nhận dạng ở đây gồm 2 giai đoạn: Giai đoạn đầu là giai đoạn xác định
các quy tắc xây dựng, tơng đơng với việc nghiên cứu một văn phạm trong một ngôn ngữ chính thống.
Giai đoạn tiếp theo khi đã có văn phạm là xem xét tập các dạng có đợc sinh ra từ các dạng đó không?
Nhập môn xử lý ảnh số - ĐHBK Hà nội -8
Chơng Bảy: nhận dạng ảnh
Nếu nó thuộc tập đó coi nh ta đã phân loại xong. Tuy nhiên, văn phạm là một vấn đề lớn. Trong nhận
dạng cấu trúc, ta mới chỉ sử dụng đợc một phần rất nhỏ mà thôi.
Nh trên đã nói, mô hình cấu trúc tơng đơng một văn phạm G :G = {Vn, Vt, P, S}. Có rất nhiều
kiểu văn phạm khác nhau từ chính tắc, phi ngữ cảnh, Độc giả quan tâm xin xem các tài liệu về lý
thuyết ngôn ngữ hình thức hay ô tô mát . ở đây, xin giới thiệu một ngôn ngữ có thể đợc áp dụng trong
nhận dạng cấu trúc: đó là ngôn ngữ PLD (Picture Language Description).
Ví dụ: Ngôn ngữ PLD
Trong ngôn ngữ này, các từ vựng là các vạch có hớng. Có 4 từ vựng cơ bản:
a: b: c: và d:
Các từ vựng trên các quan hệ đợc định nghĩa nh sau:
+ : a + b
- : a - b
x: a x b
*: a * b
Văn phạm sinh ra các mô tả trong ngôn ngữ đợc định nghĩa bởi:
GA = {Vn, VT, P, S}
với Vn = {A, B, C, D, E} và VT = {a, b, c, d}. S là ký hiệu bắt đầu và P là tập luật sản xuất.
Ngôn ngữ này thờng dùng nhận dạng các mạch điện.
7.3.2.2 Phơng pháp nhận dạng
Các đối tợng cần nhận dạng theo phơng pháp này đợc biểu diễn bởi một câu trong ngôn ngữ
L(G). Khi đó thao tác phân lớp chính là xem xét một đối tợng có thuộc văn phạm L(G) không? Nói
cách khác nó có đợc sinh ra bởi các luật của văn phạmG không? Nh vậy sự phân lớp là theo cách tiếp
cận cấu trúc đòi hỏ phải xác định:
- Tập Vt chung cho mọi đối tợng.
- Các quy tắc sinh P để sản sinh ra một câu và chúng khác nhau đối với mỗi lớp.
- Quá trình học với các câu biểu diễn các đối tợng mẫu l nhằm xác định văn phạmG.
- Quá trình ra quyết định: xác định một đối tợng X đợc biểu diễn bởi một câu lx. Nếu lx nhận
biết bởi ngôn ngữ L(Gx) thì ta nói rằng X Ck.
Nhập môn xử lý ảnh số - ĐHBK Hà nội -9
Chơng Bảy: nhận dạng ảnh
Nói cách khác, việc ra quyết định phân lớp là dựa vào phân tích cúGk biểu diễn lớp Ck. pháp
của văn phạm. Cũng nh trong phân tích cú pháp ngôn ngữ, có phân tích trên xuống, dới lên, việc nhận
dạng theo cấu trúc cũng có thể thực hiện theo cách tơng tự.
Việc nhận dạng dựa theo cấu trúc là một ý tởng và dẫu sao cũng cần đợc nghiên cứu thêm.
7.4 mạng nơ ron nhân tạo và Nhận dạng theo mạng nơ ron
Trớc tiên, cần xem xét một số khái niệm cơ bản về bộ não cũng nh cơ chế hoạt động của
mạng nơ ron sinh học. Tiếp theo, để tiện theo dõi, ở đây sẽ đề cập đến một ứng dụng của mạng nơ ron
trong nhận dạng chữ viết.
7.4.1.Bộ não và nơ ron sinh học
Các nhà nghiên cứu sinh học về bộ não cho ta thấy rằng các nơ ron (tế bào thần kinh) là đơn vị
cơ sở đảm nhiệm những chức năng xử lý nhất định trong hệ thần kinh, bao gồm não, tuỷ sống và các
dây thần kinh. Mỗi nơ ron có phần thân với nhân bên trong (gọi là soma), một đầu thần kinh ra (gọi là
sợi trục axon) và một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite). Các dây thần kinh vào
tạo thành một lới dày đặc xung quanh thân tế bào, chiếm diện tích khoảng 0,25 mm2, còn dây thần kinh
ra tạo thành trục dài có thể từ 1 cm cho đến hàng mét. Đờng kính của nhân tế bào thờng chỉ là 10-4m.
Trục dây thần kinh ra cũng có thể phân nhánh theo dạng cây để nối với các dây thần kinh vào hoặc trực
tiếp với nhân tế bào các nơ ron khác thông qua các khớp nối (gọi là synapse). Thông thờng, mỗi nơ ron
có thể gồm vài chục cho tới hàng trăm ngàn khớp nối để nối với các nơ ron khác. Ngời ta ớc lợng rằng
lới các dây thần kinh ra cùng với các khớp nối bao phủ diện tích khoảng 90% bề mặt nơ ron (hình 7-3).
Các tín hiệu truyền trong các dây thần kinh vào và dây thần kinh ra của các nơ ron là tín hiệu
điện và đợc thực hiện thông qua các quá trình phản ứng và giải phóng các chất hữu cơ. Các chất này
đợc phát ra từ các khớp nối dẫn tới các dây thần kinh vào sẽ làm tăng hay giảm điện thế của nhân tế
bào. Khi điện thế này đạt tới một ngỡng nào đó, sẽ tạo ra một xung điện dẫn tới trục dây thần kinh ra.
Xung này đợc truyền theo trục, tới các nhánh rẽ khi chạm tới các khớp nối với các nơ ron khác sẽ giải
phóng các chất truyền điện. Ngời ta chia làm hai loại khớp nối: khớp nối kích thích (excitatory) hoặc
khớp nối ức chế (inhibitory).
Phát hiện quan trọng nhất trong ngành nghiên cứu về bộ não là các liên kết khớp thần kinh khá mềm
dẻo, có thể biến động và chỉnh đổi theo thời gian tuỳ thuộc vào các dạng kích thích. Hơn nữa, các nơ
ron có thể sản sinh các liên kết mới với các nơ ron khác và đôi khi, lới các nơ ron có thể di trú từ vùng
này sang vùng khác trong bộ não. Các nhà khoa học cho rằng đây chính là cơ sở quan trọng để giải
thích cơ chế học của bộ não con ngời.
Phần lớn các quá trình xử lý thông tin đều xảy ra trên vỏ não. Toàn bộ vỏ não đợc bao phủ bởi
mạng các tổ chức cơ sở có dạng hình thùng tròn với đờng kích khoảng 0,5 mm, độ cao 4 mm. Mỗi đơn
vị cơ sở này chứa khoảng 2000 nơ ron. Ngời ta chỉ ra rằng mỗi vùng não có những chức năng nhất định.
Điều rất đáng ngạc nhiên chính là các nơ ron rất đơn giản trong cơ chế làm việc, nhng mạng các nơ ron
liên kết với nhau lại có khả năng tính toán, suy nghĩ, ghi nhớ và điều khiển. Có thể điểm qua những
chức năng cơ bản của bộ não nh sau:
Nhập môn xử lý ảnh số - ĐHBK Hà nội -10
Chơng Bảy: nhận dạng ảnh
-Bộ nhớ đợc tổ chức theo các bó thông tin và truy nhập theo nội dung (Có thể truy xuất thông
tin dựa theo giá trị các thuộc tính của đối tợng)
-Bộ não có khả năng tổng quát hoá, có thể truy xuất các tri thức hay các mối liên kết chung
của các đối tợng tơng ứng với một khái niệm chung nào đó
- Bộ não có khả năng dung thứ lỗi theo nghĩa có thể điều chỉnh hoặc tiếp tục thực hiện ngay
khi có những sai lệch do thông tin bị thiếu hoặc không chính xác. Ngoài ra, bộ não còn có thể phát hiện
và phục hồi các thông tin bị mất dựa trên sự tơng tự giữa các đối tợng.
- Bộ não có khả năng xuống cấp và thay thế dần dần. Khi có những trục trặc tại các vùng não
(do bệnh, chấn thơng) hoặc bắt gặp những thông tin hoàn toàn mới lạ, bộ não vẫn có thể tiếp tục làm
việc.
-Bộ não có khả năng học.
So sánh khả năng làm việc của bộ não và máy tính
Máy tính Bộ não ngời
Đơn vị tính toán Bộ xử lý trung tâm với 105mạch logic cơ sở Mạng 1011 nơ ron
Bộ nhớ 109 bit RAM 1011 nơ ron
1010 bit bộ nhớ ngoài với 1014 khớp nối
thần kinh
Thời gian xử lý 10-8 giây 10-3 giây
Thông lợng 109 bit/giây 1014 bit/giây
Cập nhật
thông tin
105 bit/giây 1014 nơ ron/giây
Dễ dàng thấy rằng bộ não con ngời có thể lu giữ nhiều thông tin hơn các máy tính hiện đại;
Tuy rằng điều này không phải đúng mãi mãi, bởi lẽ bộ não tiến hóa chậm, trong khi đó nhờ những tiến
bộ trong công nghệ vi điện tử, bộ nhớ máy tính đợc nâng cấp rất nhanh. Hơn nữa, sự hơn kém về bộ nhớ
trở nên hoàn toàn thứ yếu so với sự khác biệt về tốc độ tính toán và khả năng xử lý song song. Các bộ vi
xử lý có thể tính 108 lệnh trong một giây, trong khi đó mạng nơ ron xử lý chậm hơn, cần khoảng vài
miligiây để kích hoạt. Tuy nhiên, bộ não có thể kích hoạt hầu nh cùng một lúc tại rất nhiều nơ ron và
khớp nối, trong khi đó ngay cả máy tính hiện đại cũng chỉ có một số hạn chế các bộ vi xử lý song song.
Nếu chạy một mạng nơ ron nhân tạo trên máy tính, phải tốn hàng trăm lệnh máy để kiểm tra một nơ ron
có đợc kích hoạt hay không (tiêu phí khoảng 10-8 x 102 giây/nơ ron). Do đó, dầu bộ vi xử lý có thể
tính toán nhanh hơn hàng triệu lần so với các nơ ron bộ não, nhng xét tổng thể bộ não lại tính toán
nhanh hơn hàng tỷ lần.
Cách tiếp cận mạng nơ ron nhân tạo có ý nghĩa thực tiễn rất lớn cho phép tạo ra các thiết bị có
thể kết hợp khả năng song song cao của bộ não với tốc độ tính toán cao của máy tính. Tuy vậy, cần phải
Nhập môn xử lý ảnh số - ĐHBK Hà nội -11
Chơng Bảy: nhận dạng ảnh
có một khoảng thời gian dài nữa để các mạng nơ ron nhân tạo có thể mô phỏng đợc các hành vi sáng
tạo của bộ não con ngời. Chẳng hạn, bộ não có thể thực hiện một nhiệm vụ khá phức tạp nh nhận ra
khuôn mặt ngời quen sau không quá 1 giây, trong khi đó một máy tính tuần tự phải thực hiện hàng tỷ
phép tính (khoảng 10 giây) để thực hiện cùng thao tác đó, nhng với chất lợng kém hơn nhiều, đặc biệt
trong trờng hợp thông tin không chính xác, không đầy đủ.
nối
Hình 7-3 . Cấu tạo nơ ron sinh học
7.4.2. Mô hình mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo (Artificial Neural Network) gọi tắt là MNR bao gồm các nút (đơn vị xử
lý, nơ ron) đợc nối với nhau bởi các liên kết nơ ron. Mỗi liên kết kèm theo một trọng số nào đó, đặc
trng cho đặc tính kích hoạt/ ức chế giữa các nơ ron. Có thể xem các trọng số là phơng tiện để lu giữa
thông tin dài hạn trong mạng nơ ron và nhiệm vụ của quá trình huấn luyện (học) mạng là cập nhật các
trọng số khi có thêm các thông tin về các mẫu học, hay nói một cách khác, các trọng số đợc điều chỉnh
sao cho dáng điệu vào ra của nó mô phỏng hoàn toàn phù hợp môi trờng đang xem xét.
Trong mạng, một số nơ ron đợc nối với môi trờng bên ngoài nh các đầu ra, đầu vào.
7.4.2.1. Mô hình nơ ron nhân tạo
Hình 7.4 . Mô hình nơ ron nhân tạo
Mỗi nơ ron đợc nối với các nơ ron khác và nhận đợc các tín hiệu sj từ chúng với các trọng số
wj. Tổng các thông tin vào có trọng số là:
Net = wj sj.
Ngời ta gọi đây là thành phần tuyến tính của nơ ron. Hàm kích hoạt g (còn gọi là hàm chuyển)
đóng vai trò biến đổi từ Net sang tín hiệu đầu ra out.
Nhập môn xử lý ảnh số - ĐHBK Hà nội -12
Chơng Bảy: nhận dạng ảnh
out = g ( Net ).
Đây là thành phần phi tuyến của nơ ron. Có 3 dạng hàm kích hoạt thờng đợc dùng trong thực tế:
Hàm dạng bớc step(x) = 1 nếu x 0 hoặc step(x) = 1 nếu x
0 nếu x< 0 0 nếu x<
Hàm dấu sign(x) = 1 nếu x 0 hoặc sign(x) = 1 nếu x
-1 nếu x< 0 -1 nếu x<
Hàm sigmoid
ở đây ngỡng đóng vai trò làm tăng tính thích nghi và khả năng tính toán của
mạng nơ ron. Sử dụng ký pháp véctơ, S = (s1, ,sn) véctơ tín hiệu vào, W=( w1, , wn) véctơ trọng số,
ta có
out = g( Net ) , Net = SW.
Trờng hợp xét ngỡng , ta dùng biểu diễn véctơ mới S'=( s1, ,sn, ), W'=( w1, , wn,-1)
Khả năng biểu diễn của nơ ron
Bộ vi xử lý máy tính dựa trên tích hợp các mạch logic cơ sở. Có thể thấy rằng các nơ ron hoàn toàn mô
phỏng khả năng tính toán của các mạch cơ sở AND, OR, NOT.
7.4.2.2. Mạng nơ ron
Mạng nơ ron là hệ thống bao gồm nhiều phần tử xử lý đơn giản (nơ ron) hoạt động song song.
Tính năng của hệ thống này tuỳ thuộc vào cấu trúc của hệ, các trọng số liên kết nơ ron và quá trình tính
toán tại các nơ ron đơn lẻ. Mạng nơ ron có thể học từ dữ liệu mẫu và tổng quát hóa dựa trên các dữ liệu
mẫu học.Trong mạng nơ ron, các nơ ron đón nhận tín hiệu vào gọi là nơ ron vào và các nơ ron đa thông
tin ra gọi là nơ ron ra.
A. Phân loại các mạng nơ ron
Theo kiểu liên kết nơ ron: Ta có mạng nơ ron truyền thẳng (feel-forward Neural Network) và
mạng nơ ron qui hồi (recurrent NN). Trong mạng nơ ron truyền thẳng, các liên kết nơ ron đi theo một
hớng nhất định, không tạo thành đồ thị không có chu trình (Directed Acyclic Graph) với các đỉnh là các
nơ ron, các cung là các liên kết giữa chúng. Ngợc lại, các mạng qui hồi cho phép các liên kết nơ ron tạo
thành chu trình. Vì các thông tin ra của các nơ ron đợc truyền lại cho các nơ ron đã góp phần kích hoạt
Nhập môn xử lý ảnh số - ĐHBK Hà nội -13
Chơng Bảy: nhận dạng ảnh
chúng, nên mạng hồi qui còn có khả năng lu giữ trạng thái trong của nó dới dạng các ngỡng kích hoạt
ngoài các trọng số liên kết nơ ron.
Theo số lớp: Các nơ ron có thể tổ chức lại thành các lớp sao cho mỗi nơ ron của lớp này chỉ đợc nối với
các nơ ron ở lớp tiếp theo, không cho phép các liên kết giữa các nơ ron trong cùng một lớp, hoặc từ nơ
ron lớp dới lên nơ ron lớp trên. ở đây cũng không cho phép các liên kết nơ ron nhảy qua một lớp.
Hình 7.5 . Mạng nơ ron truyền thẳng và nhiều lớp
Hình 7.6. Mạng nơ ron hồi qui
Dễ dàng nhận thấy rằng các nơ ron trong cùng một lớp nhận đợc tín hiệu từ lớp trên cùng một
lúc, do vậy về nguyên tắc chúng có thể xử lý song song. Thông thờng, lớp nơ ron vào chỉ chịu trách
nhiệm truyền đa tín hiệu vào, không thực hiện một tính toán nào nên khi tính số lớp của mạng, ngời ta
không tính lớp nào. Ví dụ, mạng nơ ron ở hình 7.15 có 2 lớp : một lớp ẩn và một lớp ra.
B. Hai cách nhìn về mạng nơ ron
Mạng nơ ron nh một công cụ tính toán:
Giả sử mạng nơ ron NN có m nơ ron vào và n nơ ron ra, khi đó với mỗi véc tơ các tín hiệu vào X
= (x1, ,xm), sau quá trình tính toán tại các nơ ron ẩn, ta nhận đợc kết quả ra Y=(y1, ,yn). Theo nghĩa
nào đó mạng nơ ron làm việc với t cách một bảng tra, mà không cần biết dạng phụ thuộc hàm tờng
minh giữa Y và X. Khi đó ta viết :
Y = Tinh( X, NN )
Cần lu ý thêm rằng các nơ ron trên cùng một lớp có thể tính toán đồng thời, do vậy độ phức tạp
tính toán nói chung sẽ phụ thuộc vào số lớp mạng.
Các thông số cấu trúc mạng nơ ron bao gồm:
+ Số tín hiệu vào , số tín hiệu ra.
+ Số lớp nơ ron.
+ Số nơ ron trên mỗi lớp ẩn.
+ Số lợng liên kết của mỗi nơ ron (liên kết đầy đủ, liên kết bộ phận và liên kết ngẫu nhiên).
Nhập môn xử lý ảnh số - ĐHBK Hà nội -14
Không có nhận xét nào:
Đăng nhận xét