Chủ đề: Ý kiến chút!

Trang trong tổng số 21 trang (208 bài viết)
Trang đầu« Trang trước‹ ... [5] [6] [7] [8] [9] [10] [11] ... ›Trang sau »Trang cuối

Vanachi

Ngày gửi: 27/02/2009 00:48

Cũng xin lưu ý một chút là cách "Tìm với Google" là dựa vào CSDL của Google trong quá trình "index" Thi Viện, có nghĩa là Google sẽ chỉ tìm được những trang nào trong TV mà nó đã quét thôi. Thông thường những bài mới gửi lên, hoặc những bài tương đối "hóc hiểm" (của những tác giả ít được quan tâm) thì không tìm được.

Lộ tòng kim dạ bạch,
Nguyệt thị cố hương minh.

Chưa có đánh giá nào

Chia sẻ trên Facebook

Hoa Phong Lan

Ngày gửi: 27/02/2009 02:07

:p đã viết:
Cũng xin lưu ý một chút là cách "Tìm với Google" là dựa vào CSDL của Google trong quá trình "index" Thi Viện, có nghĩa là Google sẽ chỉ tìm được những trang nào trong TV mà nó đã quét thôi. Thông thường những bài mới gửi lên, hoặc những bài tương đối "hóc hiểm" (của những tác giả ít được quan tâm) thì không tìm được.

Hì... tớ tò mò một chút

Chú có thể giảng cho tớ là google lập chỉ mục CSDL theo nguyên tắc nào nhỉ?
Bởi vì tớ thấy theo như cách kết cấu của Thi Viện thì tất cả các bài thơ đều có độ ưu tiên ngang hàng nhau đấy chứ!
Tức là theo tớ hiểu là bất cứ bài thơ nào cũng ở mức 2 theo cấu trúc chỉ mục của Thi Viện. Như đây là một ví dụ www.thivien.net/viewpoem....ID=8MDggVWjJ42Sg59oacXaZQ
Tên miền rồi đến ID của bài thơ ngay.

Vạy mà tại sao có bài thì được google lập chỉ mục, có bài lại không là sao?

Có ai còn nhớ kẻ xích lô
Lãng mạng phong lưu thích đưa đò
Tóc bạc râu dài chừ thấm mệt
Nhìn thấy cháu đẹp chẳng dám ho ... he ... he

Chưa có đánh giá nào

Chia sẻ trên Facebook

Vanachi

Ngày gửi: 27/02/2009 08:28

Google nó không thể biết được mỗi site có những địa chỉ nào trong đó, mà phải dựa vào link đặt từ các trang khác tới, như việc mò mẫm trong một mạng lưới các link vậy. Để lập chỉ mục của một site, google có một số máy (có lẽ khoảng vài ngàn, trong thuật ngữ tin học gọi là crawler, và crawler của google được gọi là googlebot) liên tục truy cập vào site đó. Đầu tiên, google biết tới TV từ các site khác mà google đã biết từ trước và có link chỉ tới TV, rồi cứ mỗi lần truy cập vào một trang mới, google sẽ trích ra được các link mới trong đó và quá trình đó cứ tiếp tục để mở rộng danh sách các link của nó.

Cấu trúc của một search engine (SE) gồm có: các Crawler (khoảng vài ngàn máy, nhưng mỗi máy có thể có nhiều Crawler chạy song song), Document Servers, Index Servers và giao diện web (Searchers).
- Các Crawler sau khi đã truy cập vào 1 trang thì lưu trang web mà nó nhận được vào Doc Servers và lập index cho các từ (word) có trong trang web đó rồi lưu vào Index Servers.
- Document Servers lưu trữ toàn bộ các trang web mà google đã tìm được để khi hiện kết quả, google sẽ trích ra một đoạn tương ứng trong trang web đó có những từ khoá được tìm.
- Index Servers lưu trữ danh sách các từ (kể cả các từ có nghĩa trong các thứ tiếng và các cụm từ vô nghĩa bất kỳ xuất hiện trên mạng) và các trang web tương ứng có chứa từ đó.
- Searchers là những máy tiếp nhận yêu cầu tìm kiếm từ người dùng, phân tích câu truy vấn rồi dựa Index Servers để tìm ra các trang thoả mãn yêu cầu tìm kiếm, thực hiện việc sắp xếp (trình bày ở dưới), rồi cuối cùng dựa vào Doc Servers để hiển thị ra kết quả và gửi lại cho người dùng.

Cấu trúc ở trên tương đối đơn giản và tất cả các SE (yahoo, google, msn,...) đều có thể làm được, chỉ cần mua đủ thiết bị để lưu trữ (số server là một bí mật của google, nhưng người ta ước đoán vào khoảng vài chục ngàn). Điều mấu chốt tạo nên sự khác biệt giữa các search engine nằm ở thuật toán sắp xếp.

Với mỗi từ được lưu trữ, danh sách các trang web có chứa từ đó có thể rất dài. Các trang trong danh sách đó sẽ có thứ tự ưu tiên khác nhau (gọi là page rank), đại để như sau: nếu từ xuất hiện ở danh sách từ khoá, hoặc ở phần tiêu đề, hoặc xuất hiện nhiều lần, hoặc ở gần link trỏ tới từ trang khác trỏ tới trang web đó,... thì trang web đó sẽ có page rank cao hơn. Có rất nhiều tiêu chí khác nhau mà tỉ mỉ như thế nào thì là bí mật thương mại của mỗi SE.

Tất nhiên, ngoài các thông tin ở trên, google còn lưu trữ kèm theo rất nhiều thông tin phụ khác để thực hiện các truy vấn đặc biệt, như ngày tháng, kiểu văn bản,...

Vì lưu trữ dưới dạng các từ nên không có cách nào để tìm được các trang nếu chỉ viết một phần từ đó. Ví dụ muốn tìm các trang có "information" mà chỉ gõ "formation" thì sẽ không ra đúng. Đây là một ưu điểm và cũng là một nhược điểm.

Vì ở mỗi site, các googlebot đều phải "mò mẫm" để biết được site đó có những trang nào, nên trang nào càng có nhiều link trỏ từ trang khác tới thì sẽ càng dễ được google biết tới, đồng thời càng nhiều trang khác trỏ tới cũng sẽ khiến trang đó có page rank cao hơn.

Khi truy cập các trang web, kể cả các trang đã lưu trữ, google vẫn liên tục truy cập lại để cập nhật, và cũng để biết trang đó còn sống hay không (nếu truy cập một số lần nhất định mà vẫn chết thì google sẽ xoá khỏi dữ liệu của nó). Google cũng đủ thông minh để biết trang nào thường xuyên hay ít thay đổi để ưu tiên truy cập thường xuyên hay không.

Hiện nay TV để ở chế độ yêu cầu đăng nhập, nhưng riêng với google em vẫn để ưu tiên cho nó không cần đăng nhập (vì nó chưa đủ thông minh để tự động đăng ký nick và đăng nhập :p), nếu không thì chỉ ít lâu là mọi người sẽ không thể tìm được gì trên TV từ google cả :D

Lộ tòng kim dạ bạch,
Nguyệt thị cố hương minh.

Chưa có đánh giá nào

Chia sẻ trên Facebook

Hoa Phong Lan

Ngày gửi: 27/02/2009 18:30

À... cảm ơn chú Điệp!
Vậy là tớ đã hiểu vì sao có những tác phẩm độc thì google không lập được chỉ mục.
Thi Viện hiện lưu trữ tới hơn 27 ngàn bài, trong đó có không ít bài chưa được trang web nào đặt link tới, do vậy là không có trong CSDL của google nhỉ!

Có ai còn nhớ kẻ xích lô
Lãng mạng phong lưu thích đưa đò
Tóc bạc râu dài chừ thấm mệt
Nhìn thấy cháu đẹp chẳng dám ho ... he ... he

Chưa có đánh giá nào

Chia sẻ trên Facebook

Vanachi

Ngày gửi: 27/02/2009 21:23

Không nhất thiết phải có link từ site khác tới bác ạ, có link từ chính TV là được rồi (từ danh sách thơ, tác giả). Chỉ có điều các danh sách đó khá nhiều trang nên google sẽ khó khăn để tìm được thôi.

Lộ tòng kim dạ bạch,
Nguyệt thị cố hương minh.

Chưa có đánh giá nào

Chia sẻ trên Facebook

DANGDEP

Ngày gửi: 03/03/2009 18:40
Đã sửa 2 lần, lần cuối bởi Nguyệt Thu vào 27/04/2009 01:56

Em là lính mới tò te
Nay em xách dép le te xin vào
Trước tiên đập đầu cúi chào
Sau rồi xin phép ta cùng nhào zô
Em thì văn cục, thơ thô
Nên mong các Bác cứ vô cho vui nhà.

DANGDEP CHÚC CẢ NHÀ MỘT TUẦN MỚI VUI KHOẺ, AN LÀNH.

Chưa có đánh giá nào

Chia sẻ trên Facebook

H.T 07

Ngày gửi: 03/03/2009 20:40

chào Em

anh Ba

Chưa có đánh giá nào

Chia sẻ trên Facebook

Anhphq

Ngày gửi: 03/03/2009 20:48

hì hì, thơ bạn vui thế ! chúc mừng bạn tìm được thi viện !

Chú dù lính mới tò te
Muốn zô thi viện thì nhè xiền ra :D
Thơ văn anh đếch cần nha
Cứ xiền đi trước là ra vấn đề :D

Đúng kiểu ma cũ bắt nạt ma mới :D

Biển xanh sâu thẳm

Chưa có đánh giá nào

Chia sẻ trên Facebook

Baba Yaga

Ngày gửi: 03/03/2009 20:56
Đã sửa 1 lần, lần cuối bởi Baba Yaga vào 04/03/2009 07:11

@anhphq:Mặc dù là lính mới em ơi!nhưng đừng có ho he bắt nạt người ta chứ ,út ít của Tứ bà đấy.. em chẳng chịu tìm hiểu gì cả khéo u đầu mất

Trong một thoáng cổng thần tiên vừa khép
Phù thủy già trong dáng vóc Thiên Nga
Úmbala...bala

Chưa có đánh giá nào

Chia sẻ trên Facebook

Anhphq

Ngày gửi: 03/03/2009 21:06
Đã sửa 1 lần, lần cuối bởi Anhphq vào 03/03/2009 21:08

oạch ! chết rùi... chị ơi kíu iem, mà chả sợ, không biết không có tội hí hí :D Cứ ném thơ em đỡ hết !!!

Thật ra xem trong Lưới tình cũng có biết Dáng đẹp, bao nhiêu anh mê mẩn, nhưng em có để ý đâu, trong lòng có mỗi một người thôi :D căn bản bảo lính mới nên không nghĩ là em út của TỨ BÀ :D

Biển xanh sâu thẳm

Chưa có đánh giá nào

Chia sẻ trên Facebook

Trang trong tổng số 21 trang (208 bài viết)
Trang đầu« Trang trước‹ ... [5] [6] [7] [8] [9] [10] [11] ... ›Trang sau »Trang cuối

Đăng nhập