Поняття про інтернет. Пошукові каталоги. Індексні пошукові системи.
Зміст
Загальні відомості про Інтернет
Матеріал з Вікіпедії — вільної енциклопедії.
Інтерне́т (пишеться з великої літери, від англ. Internet, дослівно — «міжмережа») — всесвітня система добровільно об'єднаних комп'ютерних мереж, побудована на використанні протоколу IP і маршрутизації пакетів даних. Інтернет утворює глобальний інформаційний простір, слугує фізичною основою доступу до вебсайтів і багатьох систем (протоколів) передачі даних. Часто згадується як «Всесвітня мережа» чи «Глобальна мережа». У побуті іноді говорять Іне́т, Інтерне́трі або Не́трі.
Сьогодні при вживанні слова «Інтернет» найчастіше мається на увазі саме веб і доступна через нього інформація, а не сама фізична мережа, що призводить до різноманітних юридичних колізій та правових наслідків.
В англійській мові якщо слово «internet» написано з малої літери, воно означає просто об'єднання мереж (англ. interconnected networks) за допомогою маршрутизації пакетів даних. У такому разі не мається на увазі глобальний інформаційний простір. У вітчизняній технічній літературі також іноді роблять такий розподіл понять.
На даний момент найпопулярнішими службами Інтернету є:
- Веб
- Веб-форуми
- Блоги
- Вікі-проекти (в тому числі й Вікіпедія)
- Інтернет-магазини
- Інтернет-аукціони
- Електронна пошта та списки розсилки
- Групи новин (в основному, Usenet)
- Файлообмінні мережі
- Електронні платіжні системи
- Інтернет-радіо
- Інтернет-телебачення
- IP-телефонія
- Системи обміну повідомленнями
- FTP-сервери
- IRC
Веб, тенета або всесвітня павутина — найпопулярніша і найцікавіша служба в Інтернет.
Абревіатура WWW розшифровується як (World Wide Web), що означає всесвітня павутина.
В наш час, найбільш бурхливо прогресуюча компонента мережі Інтернет. Дозволяє одержувати доступ до інформації незалежно від місця її розташування. Користувачі автоматично переходять від однієї бази даних (сайту) до іншої за допомогою гіперпосилань. WWW — найбільше сховище інформації в електронному вигляді, мільйони пов'язаних між собою документів, що розташовані на комп'ютерах розміщених на всій земній кулі.
Кількість серверів WWW постійно зростає, а швидкість росту WWW навіть більша ніж у самої мережі Internet. WWW – найрозвиненіша технологія Internet, вона вже стала масовою. Перспективи розвитку – необмежені.
WWW – інформаційна система, якій не можна дати конкретного визначення. Наведемо лише деякі з епітетів, якими вона може бути позначена: гіпертекстова, гіпермедійна, розподілена, інтегруюча, глобальна. Нижче буде показано, що слід розуміти від кожною з цих властивостей у контексті WWW.
Більш детальна інформація про український сегмент інтернету в статті "Інтернет в Україні"
Пошук потрібної інформації - основне завдання користувача у WWW. Для його ефективного виконання у Web-просторі існують спеціальні засоби - так звані пошукові системи. Щоб відкрити потрібну Web-сторінку, треба мати або її адресу, або іншу сторінку з посиланнями на неї. Якщо нема ні того, ні іншого, звертаються до пошукових систем. Користувач указує дані про зміст шуканого документа, а пошукова система видає Web-сторінку з посиланнями на адреси, за якими можна знайти відповідну інформацію. Щоб перевірити, чи влаштовує користувача той чи інший документ, необхідно відкрити його, скориставшись відповідним гіперпосиланням. Якщо Web-ресурс відповідає меті пошуку, можна приступити до роботи з ним. Якщо не відповідає - необхідно повернутися на сторінку звіту про результати пошуку і перевірити наступну адресу.
Майже кожний вихід в Інтернет варто починати з візиту на ту або іншу пошукову систему. Навіть якщо в користувача є певне уявлення про наявність у мережі документів з цікавою для нього теми, хороший пошуковий каталог або індексна пошукова система заздалегідь нададуть йому таку інформацію, про яку іншими шляхами дізнатися можна було б набагато пізніше або взагалі не дізнатися.
Засобів для пошуку інформації в мережі Інтернет, побудованих за різними принципами і завданнями, існує чимало. Але всіх їх об'єднує те, що вони розташовані на спеціально виділених мережевих комп’ютерах з потужними каналами зв'язку й обслуговують щохвилини величезну кількість користувачів.
За принципом дії розрізняють кілька видів пошукових систем. Найбільш поширеними є два основні типи: пошукові каталоги та індексні пошукові системи. Існують також рейтингові системи, пошукові сервери спеціального призначення, метапошукові сервери.
Пошукові каталоги
Пошукові тематичні каталоги (Subject Directory) організовані за тим самим принципом, що й тематичні каталоги бібліотек. На основній сторінці пошукового каталога розташовано скорочений список великих тематичних категорій, наприклад таких, як Освіта (Education), Наука (Science), Бізнес (Business), Мистецтво (Art) тощо. Кожний запис у списку категорій - це гіперпосилання. "Натиснення" на ньому відкриває наступну сторінку пошукового каталога, на якому ця тема представлена докладніше. Елементами найнижчого рівня є посилання на окремі Web-сторінки і сервери разом із стислим описом їх змісту. Продовжуючи занурення в тему, можна дійти до цього списку Web-сторінок і вибрати той ресурс, який краще придатний для розв’язання конкретної інформаційно-пошукової задачі.
Розрізняють пошукові каталоги загального призначення та спеціалізовані. Пошукові каталоги загального призначення містять у собі ресурси різних профілів. Спеціалізовані каталоги об'єднують тільки документи, присвячені певній тематиці. Такі каталоги краще охоплюють ресурси із своєї галузі і будують найбільш адекватну рубрикацію.
Працювати з пошуковими каталогами просто. Але за цією простотою приховується складність створення і ведення каталога. Пошукові каталоги створюються, як правило, вручну. Висококваліфіковані редактори особисто переглядають інформаційний простір WWW, відбирають те, що, на їх думку, становить загальний інтерес, і заносять адреси до каталога. Оскільки каталоги складаються на основі експертних оцінок, то в них відображені кращі Web-ресурси. Недоліком тематичних каталогів є порівняно невелике охоплення існуючих ресурсів Мережі, оскільки відслідкувати весь обсяг інформації, який є в Інтернеті, практично нереально навіть для значного колективу персоналу, який підтримує сервер. Доцільно використовувати пошукові каталоги, коли предмет пошуку розпливчастий і точні терміни для нього підібрати важко. Більшість каталогів мають внутрішні пошукові механізми, які допомагають проходити багато рівнів уточнень.
Індексні пошукові системи Інтернет
Більшість пошукових систем світу - індексні пошукові системи, які ще називають пошуковими покажчиками, пошуковими серверами, словниковими пошуковими системами, автоматичними індексами, пошуковими машинами, Search Engines, Retrieval Systems - в англомовних джерелах тощо. В інтернеті їх функціонує декілька сотень. Перед ними ставиться завдання якнайкраще охопити інформаційний Web-простір і подати його користувачам у зручному вигляді. Принцип роботи з індексними пошуковими системами ґрунтується на використанні ключових слів. Розшукуючи відомості з деякої теми, користувач повинен дібрати ключові слова, які описують цю тему, і задати їх індексній пошуковій системі як запит. Користувачам такої пошукової системи надається форма, або пульт управління пошуком, для введення ключового слова (слів) або фрази. Пошукова система знаходить у своїх базах даних, які називаються індексами або покажчиками, адреси Web-ресурсів, котрі містять ключові слова, і видає клієнту сторінку з посиланнями на ці ресурси. Така Web-сторінка називається звітом про результати пошуку.
Принципи роботи індексних пошукових систем
Індексні пошукові системи мережі інтернет дають змогу проводити досить глибокий пошук інформаційних ресурсів у рамках заданої теми. Робота індексної пошукової системи проводиться в три етапи.
- На першому етапі пошукова система за допомогою спеціальних комп’ютерних програм обстежує інформаційний простір мережі інтернет (головним чином WWW); виявляє наявні, а особливо нові та оновлені, Web-ресурси; фіксує посилання на сайти та документи, які припинили своє існування. Тобто відбувається процес сканування інформаційного простору.
- На другому етапі матеріал, зібраний у процесі сканування, із зазначенням посилань на те, де зберігається кожне слово, заноситься в індексну базу даних. Індексна база пошукової системи - це база даних слів, отриманих в результаті сканування. Далі відбувається перетворення бази даних так, щоб у ній можна було проводити прискорений пошук.
- На третьому етапі індексна пошукова система приймає запит від користувача, проводить пошук у своїх базах даних і видає Web-сторінку оформлених результатів пошуку.
Сьогодні найбільш розвинені пошукові системи інтернету поєднують у собі обидва методи пошуку (за темами і за ключовими словами) і дають змогу використовувати найбільш придатний.
Адреси деяких пошукових систем
Прийоми ефективного пошуку інформації
Для пошуку інформації за одним ключовим словом необхідно набрати це слово в полі введення запитів і натиснути кнопку Знайти (Найти, Search). Пошук за одним словом доцільно проводити в тому випадку, якщо це слово є рідкісним, маловживаним або ім’ям власним, наприклад, конкорданс, Голомб, Джерард Солтон.
Але, як правило, пошук за одним словом призводить до формування величезних списків Web-сторінок, на яких воно зустрічається. Знайти в такому списку потрібні ресурси не просто, і тому пошук за одним словом малоефективний. Набагато ефективнішим є пошук за кількома словами, але тут важливу роль відіграє правило, яке вказує пошуковій системі, як опрацьовувати групу слів. Наприклад, користувача можуть цікавити:
-документи, що містять І перше слово, І друге одночасно;
-документи, в яких ці слова зустрічаються поруч або недалеко одне від одного;
-документи, в яких зустрічається АБО перше слово, АБО друге, АБО обидва разом.
Таким чином, для ефективного пошуку за кількома ключовими словами потрібні спеціальні команди, які дають змогу пов’язати окремі слова між собою. Ці команди в пошукових системах утворюють спеціальну мову запитів.
Кожна індексна пошукова система використовує свою власну мову запитів, тому при використанні різних пошукових систем треба знати особливості кожної. Ретельний перелік правил написання запитів для конкретної пошукової системи можна знайти на її сервері за посиланнями Допомога, Як скласти запит, Поради з пошуку тощо. Але є загальний принцип, згідно з яким усі команди можна поділити на три групи: команди простого пошуку, команди мови запитів і команди розширеного пошуку. У режимі простого пошуку запити створюються нескладними методами, але вони, як правило, призводять до численних результатів, з яких важко вибрати необхідні. Команди мови запитів дають змогу досить точно описати потрібний документ. Команди розширеного пошуку призначені для пошуку документів не за їх змістом, а, наприклад, для пошуку Web-вузлів за їх назвами, за фрагментами їх адрес, за адресами посилань, які зустрічаються на їх Web-сторінках і т.п.
У процесі пошуку відомостей у мережі інтернет важливими є дві складові: повнота пошуку (тобто намагання не пропустити важливі відомості) і точність (тобто відсутність у результатах пошуку зайвих даних). Обидві ці складові називають загальним словом релевантність, яка передбачає максимальну змістову відповідність результатів пошуку вказаному запиту. Тобто релевантність - це адекватність відповіді запитанню.
Команди простого пошуку
1. Пошук групи слів. При роботі з будь-якою пошуковою системою слід з’ясувати, як вона сприймає групу слів у запиті, наприклад, видатні фізики. Україно- та російськомовні пошукові системи сприймають групу слів так, ніби між ними стоїть сполучник І, тобто шукають документи, в яких обидва ці слова зустрічаються одночасно. Так само працює пошукова система Google. Але більшість англомовних пошукових систем сприймають групу слів таким чином, ніби між ними стоїть сполучник АБО і шукають документи, які містять або перше, або друге слово, або обидва слова разом. Кількість слів у групі не обмежується.
2. Пошук словоформ. У зв’язку з тим, що в українській та російській мовах слова змінюються за відмінками, важливою властивістю пошукової системи є пошук словоформ. У більшості випадків пошукові системи дозволяють знаходити різні словоформи, наприклад, попередній запит на пошук видатні фізики рівносильний запиту видатний фізика.
3. Роль великих літер. Загальне правило для більшості пошукових систем полягає в тому, що великі літери на початку слова сприймаються як додаткова умова, що обмежує область пошуку. Наприклад, за запитом Ліга Чемпіонів будуть знайдені лише ті документи, які містять слова Ліга Чемпіонів. Проте пошук за запитом ліга чемпіонів поверне документи, в яких є слова Ліга чемпіонів, ліга Чемпіонів, Ліга Чемпіонів, ліга чемпіонів.
4. Пошук однокореневих слів. Більшість пошукових систем знаходить документи, які містять слова однокореневі з ключовими. Наприклад, пошук за запитом модел поверне документи, в яких є слова модель, моделей, модельний, моделізм, моделює, моделювання.
5. Засоби контекстного пошуку. Якщо ключові слова взяти в лапки, наприклад "To be or not to be", "Слово о полку Ігоревім", то пошукова система повинна знайти документи, в яких дана фраза присутня буквально, тобто саме так, як вона записана. Для пошуку фрази з абсолютно точним збігом пошуковій системі недостатньо індексного файла, і вона звертається до копій раніше збережених у своїй базі Web-сторінок.
6. Шукати у знайденому. Якщо в результаті пошуку було знайдено занадто багато документів і користувач має бажання скоротити такий список, то для цього використовується послуга "Шукати у знайденому", яку надають пошукові системи на пульті управління пошуком. Наприклад, запит електронна бібліотека можна уточнити запитом фантастика.
Команди мови запитів
- Оператор І. За допомогою цього оператора об’єднують два чи більше слів таким чином, щоб вони всі були в документі, наприклад Ейнштейн І теорія І відносності. Як було зазначено вище, в україно- та російськомовних пошукових системах списки слів і без такого оператора сприймаються так, ніби між ними стоїть оператор І. Але для більшості англомовних пошукових систем оператор І відіграє важливу роль, йому відповідають символи "&" та "+".
- Оператор АБО. Оператор забезпечує пошук за будь-яким словом з групи, наприклад, університет АБО академія. У більшості пошукових систем оператор АБО записується у запиті як OR.
- Логічні дужки. Дужки застосовуються, коли необхідно управляти порядком дій логічних операторів, наприклад, пошук за запитом (чемпіонат АБО кубок) І світу поверне документи, в яких є слова чемпіонат світу або кубок світу.
- Оператор НЕ. Цей оператор використовується, коли з результатів пошуку необхідно виключити деяке ключове слово. Необхідність у цьому виникає, коли треба уникнути двозначності або зменшити кількість посилань, що повертаються. Наприклад, Паскаль НЕ (мова програмування), кінопремія НЕ Оскар.
- Пошук із зазначенням відстані. Такий вид пошуку дозволяє вказати, на який відстані одне від одного повинні розташовуватися слова в документі. В англомовних пошукових системах використовується оператор NEAR.
Наприклад,
- information NEAR resources - для англомовних систем (чим ближче розташовані ключові слова один до одного, тим вищою є релевантність документа. Якщо відстань між словами більше 50 слів, то релевантність вважається нульовою);
- [5, інформаційні ресурси] - для системи <МЕТА> (обидва ключові слова повинні належати одній групі довжиною не більше п’яти слів),
- информационные/ 2 ресурсы - для системи Яндекс (відстань між ключовими словами не повинна перевищувати 2 слова).