Pronprapa: เสิร์ชเอนจิน (search engine)

เสิร์ชเอนจิน (search engine)

เสิร์ชเอนจิน (search engine) คือ โปรแกรมที่ช่วยในการสืบค้นหาข้อมูล โดยเฉพาะข้อมูลบนอินเทอร์เน็ต โดยครอบคลุมทั้งข้อความ รูปภาพ ภาพเคลื่อนไหว เพลง ซอฟต์แวร์ แผนที่ ข้อมูลบุคคล กลุ่มข่าว และอื่น ๆ ซึ่งแตกต่างกันไปแล้วแต่โปรแกรมหรือผู้ให้บริการแต่ละราย. เสิร์ชเอนจินส่วนใหญ่จะค้นหาข้อมูลจากคำสำคัญ (คีย์เวิร์ด) ที่ผู้ใช้ป้อนเข้าไป จากนั้นก็จะแสดงรายการผลลัพธ์ที่มันคิดว่าผู้ใช้น่าจะต้องการขึ้นมา ในปัจจุบัน เสิร์ชเอนจินบางตัว เช่น กูเกิล จะบันทึกประวัติการค้นหาและการเลือกผลลัพธ์ของผู้ใช้ไว้ด้วย และจะนำประวัติที่บันทึกไว้นั้น มาช่วยกรองผลลัพธ์ในการค้นหาครั้งต่อ ๆ ไป

รายชื่อเสิร์ชเอนจิน (search engine)เรียงลำดับตามความนิยม

สัดส่วนของผู้ใช้ในสหรัฐอเมริกา

1.กูเกิ้ล (Google) 49.2%

2.ยาฮู(Yahoo!) 23.8%

3.เอ็มเอสเอ็น (MSN ) 9.6%

4.เอโอแอล (AOL) 6.3%

5.อาสก์ (Ask)

6.อื่นๆ 8.5%

เสิร์ชเอนจิน (search engine)อื่นๆ

ไป่ตู้ (Baidu) เสิร์ชเอนจิน อันดับ 1 ของประเทศจีน
คูล (Cuil)
ยานเดกซ์ (Yandex) เสิร์ชเอนจิน อันดับ 1 ของรัสเซีย

เสิร์ชเอนจิน (search engine)ในอดีตที่เลิกใช้งานแล้ว

ในประเทศไทยมีการพัฒนาเครื่องมือค้นหาของไทยในชื่อ สรรสาร พัฒนาโดยเนคเทค

หลักการทำงานของเสิร์ชเอนจิน (search engine)

การตรวจค้นหาข้อมูลในเว็บเพจต่างๆ
ทำหน้าที่ในการรวบรวมข้อมูลที่ได้ทำการตรวจค้นไว้ในฐานข้อมูล
การแสดงผลการค้นหาข้อมูล

ประเภทของเสิร์ชเอนจิน (search engine)

ประเภทที่ 1 Crawler Based Search Engines

Crawler Based Search Engines คือ เครื่องมือการค้นหาบนอินเตอร์เน็ตแบบอาศัยการบันทึกข้อมูล และ จัดเก็บข้อมูลเป็นหลัก ซึ่งจะเป็นจำพวก Search Engine ที่ได้รับความนิยมสูงสุด เนื่องจากให้ผลการค้นหาแม่นยำที่สุด และการประมวลผลการค้นหาสามารถทำได้อย่างรวดเร็ว จึงทำให้มีบทบาทในการค้นหาข้อมูลมากที่สุดในปัจจุบัน

โดยมีองประกอบหลักเพียง 2 ส่วนด้วยกันคือ

1. ฐานข้อมูล โดยส่วนใหญ่แล้ว Crawler Based Search Engine เหล่านี้จะมีฐานข้อมูลเป็นของตัวเอง ที่มีระบบการประมวลผล และ การจัดอันดับที่เฉพาะ เป็นเอกลักษณ์ของตนเองอย่างมาก
2. ซอฟแวร์ คือเครื่องมือหลักสำคัญที่สุดอีกส่วนหนึ่งสำหรับ Serch Engine ประเภทนี้ เนื่องจากต้องอาศัยโปรแกรมเล็ก ๆ (ชนิดที่เรียกว่า จิ๋วแต่แจ๋ว) ทำหน้าที่ในการตรวจหา และ ทำการจัดเก็บข้อมูล หน้าเพจ หรือ เว็บไซต์ต่าง ๆ ในรูปแบบของการทำสำเนาข้อมูล เหมือนกับต้นฉบับทุกอย่าง ซึ่งเราจะรู้จักกันในนาม Spider หรือ Web Crawler หรือ Search Engine Robotsตัวอย่างหนึ่งของ Crawler Based Search Engine ชื่อดัง http://www.google.com

Crawler Based Search Engine ได้แก่อะไรบ้าง

จะยกตัวอย่างคร่าว ๆ ให้ได้เห็นกันเอาแบบที่เรา ๆ ท่าน ๆ รู้จักหนะครับก็ได้แก่? Google , Yahoo,MSN, Live, Search, Technorati (สำหรับ blog)?ครับ ส่วนลักษณะการทำงาน และ การเก็บข้อมูงของ Web Crawler หรือ Robot หรือ Spider นั้นแต่ละแห่งจะมีวิธีการเก็บข้อมูล และ การจัดอันดับข้อมูลที่ต่างกันนะครับ เช่น คุณทำการค้นหาคำว่า “Search Engine คืออะไร” ผ่านทั้ง 5 แห่งที่ผมให้ไว้จะได้ผลการค้นหาที่ต่างกันครับ

ประเภทที่ 2 Web Directory หรือ Blog Directory

Web Directory หรือ Blog Directory คือ สารบัญเว็บไซต์ที่ให้คุณสามารถค้นหาข่าวสารข้อมูล ด้วยหมวดหมู่ข่าวสารข้อมูลที่เกี่ยวข้องกัน ในปริมาณมาก ๆ คล้าย ๆ กับสมุดหน้าเหลืองครับ ซึ่งจะมีการสร้าง ดรรชนี มีการระบุหมวดหมู่ อย่างชัดเจน ซึ่งจะช่วยให้การค้นหาข้อมูลต่าง ๆ ตามหมวดหมู่นั้น ๆ ได้รับการเปรียบเทียบอ้างอิง เพื่อหาข้อเท็จจริงได้ ในขณะที่เราค้นหาข้อมูล เพราะว่าจะมีเว็บไซต์มากมาย หรือ Blog มากมายที่มีเนื้อหาคล้าย ๆ กันในหมวดหมู่เดียวกัน ให้เราเลือกที่จะหาข้อมูลได้ อย่างตรงประเด็นที่สุด (ลดระยะเวลาได้มากในการค้นหา) ซึ่งผมจะขอยกตัวอย่างดังนี้

ODP Web Directory ชื่อดังของโลก ที่มี Search Engine มากมายใช้เป็นฐานข้อมูล Directory

1. ODP หรือ Dmoz ที่หลาย?ๆ คนรู้จัก ซึ่งเป็น Web Directory ที่ใหญ่ที่สุดในโลก Search Engine หลาย ๆ แห่งก็ใช้ข้อมูลจากที่แห่งนี้เกือบทั้งสิ้น เช่น Google, AOL, Yahoo, Netscapeและอื่น ๆ อีกมากมาย ODP มีการบันทึกข้อมูลประมาณ 80 ภาษาทั่วโลก รวมถึงภาษาไทยเราด้วยครับ (URL : http://www.dmoz.org )

2. สารบัญเว็บไทย SANOOK ก็เป็น Web Directory ที่มีชื่อเสียงอีกเช่นกัน และเป็นที่รู้จักมากที่สุดในเมืองไทย (URL : http://webindex.sanook.com )
3. Blog Directory อย่าง BlogFlux Directory ที่มีการเก็บข้อมูลเกี่ยวกับบล็อกมากมายตามหมวดหมู่ต่าง ๆ หรือ Blog Directory อื่น ๆ ที่สามารถหาได้จาก Make Many แห่งนี้ครับ

ประเภทที่ 3 Meta Search Engine

Meta Search Engine คือ Search Engine ที่ใช้หลักการในการค้นหาโดยอาศัย Meta Tag ในภาษา HTML ซึ่งมีการประกาศชุดคำสั่งต่าง ๆ เป็นรูปแบบของ Tex Editor ด้วยภาษา HTML นั่นเองเช่น ชื่อผู้พัฒนา คำค้นหา เจ้าของเว็บ หรือ บล็อก คำอธิบายเว็บหรือบล็อกอย่างย่อ
ผลการค้นหาของ Meta Search Engine นี้มักไม่แม่นยำอย่างที่คิด เนื่องจากบางครั้งผู้ให้บริการหรือ ผู้ออกแบบเว็บสามารถใส่อะไรเข้าไปก็ได้มากมายเพื่อให้เกิดการค้นหาและพบเว็บ หรือ บล็อกของตนเอง และ อีกประการหนึ่งก็คือ มีการอาศัย Search Engine Index Server หลายๆ แห่งมาประมวลผลรวมกัน จึงทำให้ผลการค้นหาข้อมูลต่าง ๆ ไม่เที่ยงตรงเท่าที่ควร.

ประโยชน์ที่ได้รับจาก Search Engine

ค้นหาเว็บที่ต้องการได้สะดวก รวดเร็ว
สามารถค้นหาแบบเจาะลึกได้ ไม่ว่าจะเป็น รูปภาพ, ข่าว, MP3 และอื่นๆ อีกมากมาย
สามารถค้นหาจากเว็บไซต์เฉพาะทาง ที่มีการจัดทำไว้ เช่น download.com เว็บไซต์เกี่ยวกับข้อมูลและซอร์ฟแวร์ เป็นต้น
มีความหลากหลายในการค้นหาข้อมูล
รองรับการค้นหา ภาษาไทย

ภาษาไทย เป็นภาษาที่มีความหลากหลายทางกายภาพ ทำให้การค้นหาข้อมูลมีความยากในการเข้าถึงข้อมูลที่ถูกต้อง หลายต่อหลายครั้งที่เราค้นหาข้อมูลด้วย Keyword ที่เป็นภาษาไทย จะไม่พบข้อมูลที่ต้องการ หรือบางครั้งไม่สามารถค้นหาข้อมูลได้ครบถ้วน ด้วยความหลากหลายทางกายภาพของภาษาไทยนี้ จึงทำให้เกิดไอเดียในการผลิต Search Engine ที่มีความสามารถในการค้นหาข้อมูลภาษาไทยที่มีประสิทธิภาพสูงสุด

เทคนิคในการค้นหา (Search Tips)

1. เลือกรูปแบบการค้นหาให้ตรงกับสิ่งที่ต้องการ
ถ้าคุณต้องการค้นหาข้อมูลที่มีลักษณะทั่วๆ ไป ไม่มีอะไรเฉพาะเจาะจงลงไป คุณควรเลือกใช้ผู้ให้บริการแบบไดเร็กทอรี่ส์ อย่าง yahoo เพราะคุณมีโอกาศพบกับไซต์ต่างๆ ที่เกี่ยวข้องได้ง่ายกว่าแบบ (Eearch Engine) แต่ถ้าเรื่องที่คุณต้องการค้นหา มีลักษณะเฉพาะเจาะจง แลเมีกรอบจำกัด เช่น ขอมูลส่านตัว คุณควรใช้ระบบ Search Engine โดยผู้ให้บริการแบบนี้ได้แกร Inforseek หรือ AltaVista

2. ใช้บริการของผู้ที่ให้บริการเฉพาะด้าน
ในบางกรณี คุณอาจต้องเลือกใช้ผู้ให้บริการเฉพาะด้าน เพราะจะให้ผลการค้นหาได้ดีกว่า อย่าง AltaVista หรือ Yahoo ผู้ให้บริการรายใหญ่ๆ เช่นถ้าคุณต้องการค้นหาประวัติดารา คุณควรเลือกใช้บริการของอินเตอร์เน็ต Movie Database เพราะ จะได้ผลการค้นหารที่ตรงกับสิ่งที่ต้องการมากกว่า

3. การใส่เครื่องหมายคำพูด () ลงในกลุ่มคำหรือชื่อคน
ถ้าคุณต้องการใช้ชื่อหรือกลุ่มคำในการค้นหา เช่น Benjamin Flankin เป็น ketword สำหรับค้นหา คุณควรใส่เครื่องหมายคำพูดลงไปด้วย ซึ่งจะทำให้พวก Searh Engine จะแสดงผลการค้นหาไซร์ที่มีคำสองคำนี้อยู่ติดกันออกมาเท่านั้น เพื่อลดโอกาศที่คุณจะพบไซร์ที่ประกอบด้วยคำใดคำหนึ่ง อย่างเช่น Benjamin Spock หรือAretha Flankin เป็นต้น

4. การขึ้นต้นควรใช้ตัวอักษรใหญ่หรือเล็ก
ถ้าคุณใส่คำ keyword โดยใช้ตัวอักษรเล็กเท่ากันหมด เครื่องมือค้นหาจะแสดงผลการค้นหาของไซร์ ต่างๆ ที่มีคำที่เราใส่ลงไป โดยไม่จำเป็นว่า ขนาดของตัวอักษรจะใหญ่ หรือเล็ก คังนั้น คุณควรใช้ตัวอักษรใหญ่(Capital Letter) ในกรณีที่คุณต้องการให้ได้ไซร์ที่เหมือนกับคีย์เวิร์ด ทุกประการ

5. หลีกเลี่ยงการใช้คำสามัญ
ถ้าคุณเลือกใช้คำสามัญธรรมดา อย่าง shoping หรือ shop เป็นคีย์เวิร์ด บางครั้งผลการค้นหาที่ออกมา อาจมากมายเป็นหมื่น ๆ ไซต์ ดังนั้น คุณควรเลือกใช้คำที่ไม่ธรรมดามากขึ้นเพื่อลดช่องว่างในการค้น และให้ได้ ผลลัพธิ์ที่จำกัดวงมากขึ้น เช่น อาจใช้คำเหมือน (Synonyms) เป็นต้น

6. ควรใช้คำมากกว่าหนื่งคำเป็น keyword
การใช้ keyword มากกว่าหนื่งคำเป็น วิธีกำจัดการค้นให้แคบลง หรือเฉพาะเจาะจงมากขึ้น อย่างเช่น ถ้าคุณต้องการค้นเกี่ยวกับการท่องเที่ยว ชอง Mexico คุณอาจใช้กล่มคำเป็น keyword ดังนี้ travel AND Mexico ซึ่ง ANDในที่นี้จะเป็นตัวเชื่อมคำ ที่ทำให้การค้นหาจะนำเอาเฉพาะเอกสาร หรือไซต์ที่มีคำสองคำนี้มาแสดงเท่านั้น(Note: แต่การใช้ AND ไม่เหมือนกับการใส่เครื่องหมายคำพูด กลไกการคันหาจะแสดงแต่ไซต์ที่ มีคำสองคำนี้ ออกมาเท่านั้น ส่วนการใส่เครื่องหมายคำพูด จะเป็นการสั่งให้ตัวคั้นหานำเอาใซต์ที่มี คำสองคำนี้อยู่ติดกันมาแสดง)

7. การตัดคำที่คุณไม่ต้องการให้กลไกค้นหาแสดงออกมา
ถ้าคุณต้องการตัดคำดังกล่าว สามารถทำได้โดย อาจใส่เครื่องหมาย ลบ (-) หรือใส่คำว่า (NOT) อย่างเช่น ถ้าคุณต้องการค้นหาไซต์ที่เกี่ยวกับการแข่งจักรยานยน คุณอาจเขียนว่า racing AND bike NOT car จากคำสั่งนี้เป็นการตัดคำว่า car ออกไป

8. การค้นหาโดยใช้ Wildcard
กลไกการค้นหาบางตัว คุณสามารถใช้ไวลด์การ์ด ที่อยู่ในรูปของดอกจัน (*) เพื่อให้ได้ผลการค้นหาของ คำได้หลากหลายขึ้น อย่างเช่น คำที่คุณใส่ลงไปคือ cook* ผลที่ออกมาก็จะมีคำเหล่านี้ออกมาด้วย คือ cooking, cooks,cookbooks, cookie ฯลฯประเภทของผู้ให้บริการการค้นหา

ประเภทของผู้ให้บริการการค้นหาได้ถูกแบ่งเป็น 2 ประเภท ตามกลไกการทำงานของการให้บริการ คือ

1. ไดเร็กทอรี่ส์ (Directory) ผู้ให้บริการแบบนี้เช่น Yahoo และ Magellan กลไกการทำงานของ searchประเภทนี้เกิดจากการจัดหมวดหมู่ของไซต์ต่างๆ โดยใช้มนุษย์เป็นผู้รวบรวมขึ้น โดยผู้จัดทำเป็นผู้กำหนดหมวดหมู่ ต่างๆ ขึ้นมาก่อน ต่อจากนั้น จะนำไซต์ต่างๆ เข้าไปไว้ในหมวดหมู่ที่ได้จัดเอาไว้ ตอนแรก ไซต์ที่แสดงออกมานั้น ผู้ให้บริการก็ได้จัดเรียงไซต์โดยนำไซต์ที่เกี่ยวข้องมากที่สุด ไว้ตอนบนสุดของรายชื่อ ทั้งนี้ คุณอาจค้นหาโดยคุณสมบัติพิเศษที่มีอยู่ใน Yahoo ก็ได้เพื่อให้ได้ผลลึกลงไปอีก แต่ทั้งนี้การค้น หาก็จะเป็นไซต์อยู่ในระบบของ Yahoo เท่านั้น ไม่ใช้ค้นหาจากไซต์ที่มีอยู่ทั้งหมดบน อินเตอร์เน็ต เช่น ถ้าต้องการค้นเรื่อง Basketball คุณก็เข้าไปเลือกหมวดหัวข้อหลัก Recreation and Sports และต่อจากนั้นก็เข้าไปในหัวข้อย่อยที่อยู่ในหมวดหลักนั้นๆ อย่างเช่น Sports ต่อจากนั้นคุณ จะพบคายชื่อหัวข้อย่อยซึ่งจะมี Basketball อยู่ และเมื่อคุณเลือกเข้าไปดูในหัวข้อ Basketball คุณก็จะพบรายชื่อไซต์ต่างๆ เกี่วยกับ Basketball อย่างเดียว

ข้อดี ของการค้นหาแบบนี้ก็คือ ใช้ง่าย รวดเร็วและ ประหยัดเวลา ผู้ค้นหาจะสามารถค้นหาข้อมูล ที่ต้องการจากหัวข้อหลักๆ ได้อย่างรวดเร็วขึ้น จึงเหมาะสำหรับ ผู้ที่ต้องการหา keyword หรือเรื่อ ทั้วๆ ไป ไม่ต้องการข้อมูลที่เฉพาะเจอะจงข้อเสีย ก็คือ อาจไม่ได้ข้อมูลที่ดีที่สุด อาจไม่ตรงกับสิ่งที่คุณต้องการ หรือบางทีอาจไม่สามารถหาสิ่งที่คุณต้องการได้เลยถ้า keyword นั้นไม่มีใน ฐานข้อมูลของ Yahoo.

2. Search Engine ระบบฐานข้อมูลของประเภทนี้จะถูกจัดทำขึ้น โดยซอฟต์แวร์ที่นิยมเรียกกันว่า Robots หรือ Spiders ซึ่งในการทำงาน โปรแกรมหุ่นยนต์ หรือ แมงมุมนี้ก็จะลัดเลาะไปตามเครือ ข่ายที่โยงใยกัน เต็มไปหมดบนอินเตอร์เน็ต เพื่อเก็บช้อมูลของเว็ปไซต์ต่างๆ ว่ามีไซตร์ไหนบ้างที่เกิดขึ้นใหม่ หรือไซต์ไดอัพเดตบ้าง แล้วนำข้อมูลที่สำรวจได้มาใส่ไว้ในฐานข้อมูลของตน ผู้ให้บริการประเภทนี้ที่นิยมก็เช่น AltaVista, Excite, Inforseek, และ Lycos ฯลฯ โดยถ้าคุณใช้คำว่า Basketball เป็น keyword ผลที่ออกมาก็จะได้ไซต์ทั้งหมดที่มีคำว่า Basketball บนอินเตอร์เน็ต ซึ่งอาจมีมากมายเป็นหมื่นก็ได้ เพราะจะรวมถึงเว็ปไซต์ที่มีคำว่า Basketball ซี่งเนื้อหาข้างในอาจไม่เกี่ยวข้องกับ Basketball เลยก็ได้ นี้เองคือความแตกต่างระหว่าง Search Engine และ Directory ผลที่ได้จาการค้นของ Search Engine มักรวมเอาไซต์ที่มีความเกี่ยวข้องน้อห หรือบางทีไม่เกี่ยวข้อง กับสิ่งที่ค้นหาเลย ก็เกิดจากการที่มักใช้ระบบการค้นหาที่มี สูตรเฉพาะเรียกว่า Algorithm-อัลกอริธึม เป็นตัวกำหนดว่าไซต์ไหนบ้างเกี่ยวข้องกับ keyword ที่คุณกำลังหาอยู่ข้อดี ก็คือ ผลที่ได้ออกมามีลักษณะ การแสดงออกมากว้างๆ ไม่เฉพาะเจาะจง โดยผลที่ได้จะมีเป็นร้อยๆ พันๆ ไซต์ ซึ่งเป็นข้อมูลที่มีอยู่จริงบนอินเตอร์เน็ตทั้งหมด และมีประโยชน์อย่างยิ่งในการค้นหาคำ หรือ keywordที่มีลักษณะเฉพาะเจาะจง เช่น ชื่อคน Jhon lennon หรือ ชื่อไวน์ฝรั่งเศส (French wine) เพื่อให้ได้สิ่งที่มีความหมายและเกี่ยวข้องกับ keyword ที่คุณกำลังมากที่สุด ซึ่งคุณอาจหาไม่พบเลย ถ้าใช้ระบบ Directoryข้อเสีย คือคุณต้องเสียเวลาค้นไซต์ แยกแยะไซต์ที่ต้องการจากรายชื่อที่แสดงออกมาในครั้งแรก ถึงแม้ระบบจะจัดพยายามจัดเรียงลำดับความเกี่ยวข้องให้จากน้อยไปหามาก แต่ด้วยการกำหนดความเกี่ยวข้องที่ว่านี้ ด้วยการใช้สูตรทางคณิตศาสตร์ จึงทำให้ผลที่ได้ออกมาไม่สมบูรณ์

ที่มา :
http://www.clickmedesign.com/article/search-engine.html
http://th.wikipedia.org/wiki
http://krukoon.wordpress.com/2010/04/19/search-engine
http://www.nysiissolutions.com/news/03.html
http://www.yoyoo.com/webdesigntoolthai_real/tipcgi/cg_19db.htm

วันอังคารที่ 14 สิงหาคม พ.ศ. 2555

เสิร์ชเอนจิน (search engine)

ไม่มีความคิดเห็น:

แสดงความคิดเห็น