• logo

การดึงข้อมูล

การดึงข้อมูล ( IR ) เป็นกระบวนการในการรับทรัพยากรระบบสารสนเทศที่เกี่ยวข้องกับความต้องการสารสนเทศจากการรวบรวมทรัพยากรเหล่านั้น การค้นหาอาจขึ้นอยู่กับข้อความเต็มหรือการจัดทำดัชนีตามเนื้อหาอื่น ๆ การค้นคืนข้อมูลเป็นศาสตร์แห่งการค้นหาข้อมูลในเอกสารค้นหาเอกสารด้วยตนเองและยังค้นหาข้อมูลเมตาที่อธิบายข้อมูลและฐานข้อมูลของข้อความรูปภาพหรือเสียง

ข้อมูลระบบอัตโนมัติดึงถูกนำมาใช้เพื่อลดสิ่งที่ได้รับการเรียกว่าเกินข้อมูล ระบบ IR เป็นระบบซอฟต์แวร์ที่ให้การเข้าถึงหนังสือวารสารและเอกสารอื่น ๆ จัดเก็บและจัดการเอกสารเหล่านั้น เครื่องมือค้นหาเว็บเป็นแอปพลิเคชัน IR ที่มองเห็นได้ชัดเจนที่สุด

ภาพรวม

กระบวนการดึงข้อมูลเริ่มต้นเมื่อผู้ใช้ป้อนแบบสอบถามลงในระบบ แบบสอบถามคือข้อความที่เป็นทางการเกี่ยวกับความต้องการข้อมูลตัวอย่างเช่นสตริงการค้นหาในเครื่องมือค้นหาเว็บ ในการดึงข้อมูลแบบสอบถามไม่ได้ระบุออบเจ็กต์เดียวในคอลเลกชันโดยไม่ซ้ำกัน แต่หลายวัตถุอาจตรงกับคำค้นหาที่อาจมีองศาที่แตกต่างกันของความเกี่ยวข้อง

วัตถุที่เป็นนิติบุคคลที่เป็นตัวแทนจากข้อมูลในการเก็บรวบรวมเนื้อหาหรือฐานข้อมูล คำค้นหาของผู้ใช้ตรงกับข้อมูลฐานข้อมูล อย่างไรก็ตามในทางตรงกันข้ามกับการสืบค้น SQL แบบคลาสสิกของฐานข้อมูลในการดึงข้อมูลผลลัพธ์ที่ส่งกลับอาจหรือไม่ตรงกับคิวรีดังนั้นโดยทั่วไปผลลัพธ์จะได้รับการจัดอันดับ การจัดอันดับผลลัพธ์นี้เป็นข้อแตกต่างที่สำคัญของการค้นหาข้อมูลเมื่อเทียบกับการค้นหาฐานข้อมูล [1]

วัตถุข้อมูลอาจเป็นเช่นเอกสารข้อความรูปภาพ[2]เสียง[3]แผนที่ความคิด[4]หรือวิดีโอทั้งนี้ขึ้นอยู่กับแอปพลิเคชัน บ่อยครั้งที่เอกสารนั้นไม่ได้ถูกจัดเก็บหรือจัดเก็บไว้ในระบบ IR โดยตรง แต่จะแสดงในระบบโดยตัวแทนเอกสารหรือข้อมูลเมตาแทน

ระบบ IR ส่วนใหญ่จะคำนวณคะแนนเป็นตัวเลขว่าแต่ละออบเจ็กต์ในฐานข้อมูลตรงกับข้อความค้นหามากเพียงใดและจัดอันดับวัตถุตามค่านี้ จากนั้นอ็อบเจ็กต์อันดับสูงสุดจะแสดงให้ผู้ใช้เห็น จากนั้นกระบวนการอาจถูกทำซ้ำหากผู้ใช้ต้องการปรับแต่งแบบสอบถาม [5]

ประวัติศาสตร์

มี ... เครื่องจักรที่เรียกว่า Univac ... โดยตัวอักษรและตัวเลขจะถูกเข้ารหัสเป็นรูปแบบของจุดแม่เหล็กบนเทปเหล็กยาว ด้วยวิธีนี้หมายถึงข้อความของเอกสารที่นำหน้าด้วยสัญลักษณ์รหัสหัวเรื่องสามารถบันทึกได้ ... เครื่อง ... จะเลือกและพิมพ์ข้อมูลอ้างอิงเหล่านั้นโดยอัตโนมัติซึ่งได้รับการเข้ารหัสด้วยวิธีที่ต้องการในอัตรา 120 คำต่อนาที

-  JE Holmstrom, 2491

แนวคิดในการใช้คอมพิวเตอร์เพื่อค้นหาข้อมูลที่เกี่ยวข้องได้รับความนิยมในบทความAs We May ThinkโดยVannevar Bushในปี 1945 [6]ดูเหมือนว่า Bush ได้รับแรงบันดาลใจจากสิทธิบัตรสำหรับ 'เครื่องจักรทางสถิติ' ซึ่งยื่นโดยEmanuel Goldbergในช่วงทศวรรษที่ 1920 และ 30 ซึ่งค้นหาเอกสารที่เก็บไว้ในแผ่นฟิล์ม [7]คำอธิบายแรกของคอมพิวเตอร์ที่ค้นหาข้อมูลได้รับการอธิบายโดย Holmstrom ในปีพ. ศ. 2491 [8] โดยมีรายละเอียดเกี่ยวกับการกล่าวถึงคอมพิวเตอร์Univacในช่วงต้น ข้อมูลระบบอัตโนมัติดึงถูกนำมาใช้ในปี 1950: หนึ่งที่โดดเด่นแม้ใน 1957 ตลกโรแมนติก, ชุดโต๊ะทำงาน ในทศวรรษที่ 1960 กลุ่มวิจัยการดึงข้อมูลขนาดใหญ่กลุ่มแรกก่อตั้งขึ้นโดยเจอราร์ดซัลตันที่คอร์เนลล์ ในช่วงทศวรรษ 1970 มีการแสดงเทคนิคการดึงข้อมูลที่แตกต่างกันหลายอย่างเพื่อให้ทำงานได้ดีกับเอกสารข้อความขนาดเล็กเช่นคอลเลกชันของแครนฟิลด์ (เอกสารหลายพันฉบับ) [6]ระบบดึงข้อมูลขนาดใหญ่เช่นระบบ Lockheed Dialog เข้ามาใช้ในช่วงต้นทศวรรษ 1970

ในปี 1992 กระทรวงกลาโหมสหรัฐฯพร้อมด้วยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) ได้จัดให้มีการประชุม Text Retrieval Conference (TREC) ซึ่งเป็นส่วนหนึ่งของโปรแกรมข้อความ TIPSTER จุดมุ่งหมายของสิ่งนี้คือการตรวจสอบชุมชนการดึงข้อมูลโดยการจัดหาโครงสร้างพื้นฐานที่จำเป็นสำหรับการประเมินวิธีการดึงข้อความในคอลเล็กชันข้อความที่มีขนาดใหญ่มาก งานวิจัยนี้เร่งปฏิกิริยาเกี่ยวกับวิธีการที่ขยายขนาดไปสู่องค์กรขนาดใหญ่ การเปิดตัวเครื่องมือค้นหาเว็บช่วยเพิ่มความต้องการระบบการดึงข้อมูลขนาดใหญ่มากยิ่งขึ้นไปอีก

แอปพลิเคชัน

พื้นที่ที่ใช้เทคนิคการดึงข้อมูลได้แก่ (รายการเรียงตามลำดับตัวอักษรในแต่ละหมวดหมู่):

การใช้งานทั่วไป

  • ห้องสมุดดิจิทัล
  • การกรองข้อมูล
    • ระบบผู้แนะนำ
  • การค้นหาสื่อ
    • ค้นหาบล็อก
    • การดึงภาพ
    • การดึงข้อมูล 3D
    • การดึงเพลง
    • ค้นหาข่าว
    • การดึงคำพูด
    • การดึงวิดีโอ
  • เครื่องมือค้นหา
    • การค้นหาไซต์
    • การค้นหาบนเดสก์ท็อป
    • การค้นหาองค์กร
    • การค้นหาแบบรวมศูนย์
    • การค้นหาบนมือถือ
    • การค้นหาทางสังคม
    • ค้นเว็บ

แอปพลิเคชันเฉพาะโดเมน

  • การค้นหาผู้เชี่ยวชาญ
  • การดึงข้อมูลจีโนม
  • การดึงข้อมูลทางภูมิศาสตร์
  • การดึงข้อมูลสำหรับโครงสร้างทางเคมี
  • การค้นคืนข้อมูลในวิศวกรรมซอฟต์แวร์
  • การดึงข้อมูลทางกฎหมาย
  • การค้นหาแนวตั้ง

วิธีการดึงข้อมูลอื่น ๆ

วิธีการ / เทคนิคที่ใช้เทคนิคการดึงข้อมูลได้แก่ :

  • การดึงข้อมูลฝ่ายตรงข้าม
  • การสรุปอัตโนมัติ
    • การสรุปเอกสารหลายฉบับ
  • การประมวลผลคำประสม
  • การดึงข้อมูลข้ามภาษา
  • การจัดประเภทเอกสาร
  • การกรองสแปม
  • การตอบคำถาม

ประเภทโมเดล

การแบ่งประเภทของโมเดล IR (แปลจาก รายการภาษาเยอรมันแหล่งที่มาดั้งเดิม Dominik Kuropka )

สำหรับการเรียกเอกสารที่เกี่ยวข้องอย่างมีประสิทธิภาพโดยกลยุทธ์ IR โดยทั่วไปเอกสารจะถูกเปลี่ยนเป็นการแสดงที่เหมาะสม กลยุทธ์การดึงข้อมูลแต่ละแบบประกอบด้วยแบบจำลองเฉพาะสำหรับวัตถุประสงค์ในการแสดงเอกสาร ภาพด้านขวาแสดงความสัมพันธ์ของโมเดลทั่วไปบางส่วน ในภาพแบบจำลองแบ่งตามสองมิติ: พื้นฐานทางคณิตศาสตร์และคุณสมบัติของแบบจำลอง

มิติแรก: พื้นฐานทางคณิตศาสตร์

  • แบบจำลองเซต - ทฤษฏีแสดงเอกสารเป็นชุดของคำหรือวลี ความคล้ายคลึงกันมักจะมาจากการดำเนินการเกี่ยวกับเซต - ทฤษฏีในเซตเหล่านั้น รุ่นทั่วไป ได้แก่ :
    • แบบจำลองบูลีนมาตรฐาน
    • แบบจำลองบูลีนแบบขยาย
    • การดึงข้อมูลที่คลุมเครือ
  • โมเดลพีชคณิตแสดงถึงเอกสารและข้อความค้นหามักเป็นเวกเตอร์เมทริกซ์หรือทูเปิล ความคล้ายคลึงกันของเวกเตอร์แบบสอบถามและเวกเตอร์เอกสารแสดงเป็นค่าสเกลาร์
    • แบบจำลองพื้นที่เวกเตอร์
    • แบบจำลองพื้นที่เวกเตอร์ทั่วไป
    • (ปรับปรุงแล้ว) แบบจำลองพื้นที่เวกเตอร์ตามหัวข้อ
    • แบบจำลองบูลีนแบบขยาย
    • การสร้างดัชนีความหมายแฝงหรือที่เรียกว่าการวิเคราะห์ความหมายแฝง
  • แบบจำลองความน่าจะเป็นถือว่ากระบวนการเรียกค้นเอกสารเป็นการอนุมานเชิงความน่าจะเป็น ความคล้ายคลึงกันจะคำนวณเป็นความน่าจะเป็นที่เอกสารมีความเกี่ยวข้องกับข้อความค้นหาที่ระบุ ทฤษฎีความน่าจะเป็นเช่นทฤษฎีบทของเบย์มักใช้ในแบบจำลองเหล่านี้
    • แบบจำลองความเป็นอิสระแบบไบนารี
    • แบบจำลองความเกี่ยวข้องที่น่าจะเป็นซึ่งเป็นไปตามฟังก์ชันความเกี่ยวข้องokapi (BM25)
    • การอนุมานที่ไม่แน่นอน
    • แบบจำลองภาษา
    • แบบจำลองความแตกต่างจากการสุ่ม
    • การจัดสรร Dirichlet แฝง
  • แบบจำลองการดึงข้อมูลตามคุณลักษณะจะมองเอกสารเป็นเวกเตอร์ของค่าของฟังก์ชันคุณลักษณะ (หรือเพียงแค่คุณลักษณะ ) และค้นหาวิธีที่ดีที่สุดในการรวมคุณลักษณะเหล่านี้ให้เป็นคะแนนความเกี่ยวข้องเดียวโดยทั่วไปโดยการเรียนรู้วิธีการจัดอันดับ ฟังก์ชั่นคุณสมบัติเป็นฟังก์ชันที่กำหนดเองของเอกสารและแบบสอบถามและด้วยเหตุนี้จึงสามารถรวมรูปแบบการดึงข้อมูลอื่น ๆ เกือบทั้งหมดเป็นเพียงคุณสมบัติอื่นได้อย่างง่ายดาย

มิติที่สอง: คุณสมบัติของแบบจำลอง

  • แบบจำลองที่ไม่มีการพึ่งพาซึ่งกันและกันจะถือว่าคำ / คำต่างๆเป็นอิสระ ความจริงนี้มักจะแสดงในแบบจำลองปริภูมิเวกเตอร์โดยสมมติฐานมุมฉากของเวกเตอร์ระยะหรือในแบบจำลองความน่าจะเป็นโดยสมมติฐานความเป็นอิสระสำหรับตัวแปรระยะ
  • แบบจำลองที่มีการพึ่งพาซึ่งกันและกันระหว่างเงื่อนไขที่ใกล้เข้ามาช่วยให้สามารถแสดงการพึ่งพาซึ่งกันและกันระหว่างคำศัพท์ได้ อย่างไรก็ตามระดับของการพึ่งพาซึ่งกันและกันระหว่างสองคำจะถูกกำหนดโดยตัวแบบเอง โดยปกติจะได้มาโดยตรงหรือโดยอ้อม (เช่นโดยการลดขนาด ) จากการเกิดร่วมกันของคำเหล่านั้นในชุดเอกสารทั้งหมด
  • แบบจำลองที่มีการพึ่งพากันระหว่างคำที่เหนือกว่าอนุญาตให้มีการแสดงถึงการพึ่งพาระหว่างกันระหว่างคำศัพท์ แต่ไม่ได้อ้างถึงวิธีการกำหนดความสัมพันธ์ระหว่างคำสองคำ พวกเขาอาศัยแหล่งภายนอกสำหรับระดับของการพึ่งพาซึ่งกันและกันระหว่างสองคำ (ตัวอย่างเช่นอัลกอริทึมของมนุษย์หรือขั้นตอนวิธีที่ซับซ้อน)

มาตรการด้านประสิทธิภาพและความถูกต้อง

การประเมินระบบดึงข้อมูล 'เป็นกระบวนการประเมินว่าระบบตอบสนองความต้องการข้อมูลของผู้ใช้งานได้ดีเพียงใด โดยทั่วไปการวัดผลจะพิจารณาชุดของเอกสารที่จะค้นหาและคำค้นหา ตัวชี้วัดการประเมินผลแบบดั้งเดิมที่ออกแบบมาสำหรับบูลีนดึง[ ต้องการชี้แจง ]หรือการดึงด้านบน-K รวมถึงความแม่นยำและการเรียกคืน มาตรการทั้งหมดถือว่าเป็นความจริงพื้นฐานเกี่ยวกับความเกี่ยวข้อง: เอกสารทุกฉบับเป็นที่ทราบกันดีว่าเกี่ยวข้องหรือไม่เกี่ยวข้องกับข้อความค้นหาหนึ่ง ๆ ในทางปฏิบัติแบบสอบถามอาจไม่เหมาะสมและอาจมีเฉดสีที่เกี่ยวข้องแตกต่างกัน

เส้นเวลา

  • ก่อนทศวรรษที่ 1900
    1801 : Joseph Marie Jacquardประดิษฐ์เครื่อง ทอผ้า Jacquardซึ่งเป็นเครื่องแรกที่ใช้บัตรเจาะรูเพื่อควบคุมลำดับการทำงาน
    ยุค 1880 : เฮอร์แมนฮอลเลอริ ธประดิษฐ์ตารางข้อมูลทางกลไฟฟ้าโดยใช้บัตรเจาะเป็นสื่อที่เครื่องอ่านได้
    1890 Hollerith cards , keypunchesและ tabulatorsใช้ในการประมวลผล ข้อมูลสำมะโนประชากรของ สหรัฐอเมริกาในปี พ.ศ. 2433
  • ทศวรรษที่ 1920-1930
    เอ็มมานูเอลโกลด์เบิร์กยื่นสิทธิบัตรสำหรับ "เครื่องสถิติ" ซึ่งเป็นเครื่องมือค้นหาเอกสารที่ใช้เซลล์โฟโตอิเล็กทริกและการจดจำรูปแบบเพื่อค้นหาข้อมูลเมตาบนม้วนเอกสารไมโครฟิล์ม
  • ทศวรรษที่ 1940-1950
    ปลายทศวรรษที่ 1940 : กองทัพสหรัฐฯเผชิญกับปัญหาในการจัดทำดัชนีและการดึงเอกสารการวิจัยทางวิทยาศาสตร์ในช่วงสงครามที่ยึดมาจากเยอรมัน
    1945 : เนวาร์บุช 's ในขณะที่เราอาจคิดว่าปรากฏตัวขึ้นใน มหาสมุทรแอตแลนติกเดือน
    พ.ศ. 2490 : ฮันส์ปีเตอร์ลูห์น (วิศวกรวิจัยที่ไอบีเอ็มตั้งแต่ปี พ.ศ. 2484) เริ่มทำงานกับระบบที่ใช้การ์ดเจาะแบบกลไกเพื่อค้นหาสารประกอบทางเคมี
    1950s : ความกังวลที่เพิ่มมากขึ้นในสหรัฐอเมริกาสำหรับ "ช่องว่างทางวิทยาศาสตร์" โดยสหภาพโซเวียตได้รับแรงจูงใจสนับสนุนเงินทุนและเป็นฉากหลังสำหรับระบบค้นหาวรรณกรรมที่ใช้เครื่องจักรกล ( Allen Kent et al. ) และการประดิษฐ์ดัชนีการอ้างอิง ( Eugene Garfield )
    1950 : คำว่า "ดึงข้อมูล" ได้รับการประกาศเกียรติคุณจาก Calvin Mooers [9]
    1951 : ฟิลิปแบคดำเนินการทดลองที่เก่าแก่ที่สุดในการดึงเอกสารคอมพิวเตอร์ในวิทยานิพนธ์ปริญญาโทที่ เอ็มไอที [10]
    1955 : Allen Kent เข้าร่วม Case Western Reserve Universityและในที่สุดก็กลายเป็นผู้อำนวยการร่วมของ Center for Documentation and Communications Research ในปีเดียวกันนั้น Kent และเพื่อนร่วมงานได้ตีพิมพ์บทความใน American Documentation ซึ่งอธิบายถึงความแม่นยำและมาตรการในการเรียกคืนรวมถึงรายละเอียด "กรอบ" ที่เสนอสำหรับการประเมินระบบ IR ซึ่งรวมถึงวิธีการสุ่มตัวอย่างทางสถิติเพื่อกำหนดจำนวนเอกสารที่เกี่ยวข้องที่ไม่ได้รับ [11]
    พ.ศ. 2501 : การประชุมระหว่างประเทศเกี่ยวกับข้อมูลทางวิทยาศาสตร์วอชิงตัน ดี.ซี. รวมถึงการพิจารณาระบบ IR เพื่อเป็นแนวทางในการแก้ปัญหาที่ระบุ ดู: การดำเนินการของการประชุมระหว่างประเทศเกี่ยวกับข้อมูลทางวิทยาศาสตร์ 2501 (National Academy of Sciences, Washington, DC, 1959)
    1959 : Hans Peter Luhnตีพิมพ์ "การเข้ารหัสเอกสารอัตโนมัติสำหรับการดึงข้อมูล"
  • ทศวรรษที่ 1960 :
    ต้นทศวรรษ 1960 : เจอราร์ดซัลตันเริ่มทำงานด้าน IR ที่ Harvard ต่อมาย้ายไปที่ Cornell
    1960 : Melvin Earl Maronและ John Lary Kuhns [12]ตีพิมพ์ "เกี่ยวกับความเกี่ยวข้องการจัดทำดัชนีความน่าจะเป็นและการดึงข้อมูล" ในวารสาร ACM 7 (3): 216–244 กรกฎาคม 1960
    พ.ศ. 2505 :
    • Cyril W. Cleverdonตีพิมพ์ผลการศึกษาของ Cranfield ในช่วงต้นซึ่งพัฒนาแบบจำลองสำหรับการประเมินระบบ IR โปรดดู: Cyril W. Cleverdon, "รายงานการทดสอบและวิเคราะห์การสอบสวนในประสิทธิภาพเชิงเปรียบเทียบของระบบการจัดทำดัชนี" Cranfield Collection of Aeronautics, Cranfield, England, 1962
    • เคนท์ตีพิมพ์การวิเคราะห์ข้อมูลและการสืบค้น
    พ.ศ. 2506 :
    • รายงาน Weinberg "Science, Government and Information" ให้ข้อมูลที่ชัดเจนเกี่ยวกับ "วิกฤตข้อมูลทางวิทยาศาสตร์" รายงานได้รับการตั้งชื่อตามดร. อัลวิน Weinberg
    • Joseph Becker และRobert M. Hayesเผยแพร่ข้อความเกี่ยวกับการดึงข้อมูล เบ็คเกอร์โจเซฟ; เฮย์สโรเบิร์ตมาโย การจัดเก็บข้อมูลและการดึง: เครื่องมือองค์ประกอบทฤษฎี นิวยอร์กไวลีย์ (2506)
    พ.ศ. 2507 :
    • Karen Spärck Jonesจบวิทยานิพนธ์ของเธอที่ Cambridge, Synonymy and Semantic Classificationและยังคงทำงานเกี่ยวกับภาษาศาสตร์เชิงคำนวณตามที่ใช้กับ IR
    • แห่งชาติสำนักมาตรฐานการสนับสนุนการประชุมสัมมนาในหัวข้อ "สถิติสมาคมวิธีการสำหรับยานยนต์เอกสาร." เอกสารที่มีความสำคัญสูงหลายฉบับรวมถึงเอกสารอ้างอิงที่ตีพิมพ์ครั้งแรกของ G.Salton (เราเชื่อว่า) เกี่ยวกับระบบSMART
    กลางทศวรรษที่ 1960 :
    • หอสมุดแห่งชาติด้านการแพทย์ได้พัฒนาMEDLARS Medical Literature Analysis and Retrieval System ซึ่งเป็นฐานข้อมูลหลักที่สามารถอ่านได้ด้วยเครื่องและระบบการดึงข้อมูลเป็นชุด
    • Project Intrex ที่ MIT
    1965 : JCR Lickliderตีพิมพ์ ห้องสมุดแห่งอนาคต
    1966 : Don Swansonมีส่วนร่วมในการศึกษาที่มหาวิทยาลัยชิคาโกเกี่ยวกับข้อกำหนดสำหรับแคตตาล็อกในอนาคต
    ปลายทศวรรษที่ 1960 : F.Wilfrid Lancasterเสร็จสิ้นการศึกษาการประเมินผลของระบบ MEDLARS และตีพิมพ์บทความฉบับแรกของเขาเกี่ยวกับการดึงข้อมูล
    พ.ศ. 2511 :
    • เจอราร์ด Salton ตีพิมพ์องค์การข้อมูลโดยอัตโนมัติและการดึง
    • John W. Sammon รายงาน RADC Tech ของจูเนียร์ "คณิตศาสตร์บางส่วนของการจัดเก็บข้อมูลและการค้นคืน ... " ได้สรุปแบบจำลองเวกเตอร์
    1969 : " การทำแผนที่แบบไม่เชิงเส้นสำหรับการวิเคราะห์โครงสร้างข้อมูล " ของ Sammon (ธุรกรรม IEEE บนคอมพิวเตอร์) เป็นข้อเสนอแรกสำหรับอินเทอร์เฟซการแสดงภาพกับระบบ IR
  • ปี 1970
    ต้นทศวรรษ 1970 :
    • ระบบออนไลน์แรก - AIM-TWX, MEDLINE ของ NLM; กล่องโต้ตอบของ Lockheed; ORBIT ของ SDC
    • เทโอดอร์เนลสันส่งเสริมแนวคิดของไฮเปอร์ตีพิมพ์คอมพิวเตอร์ Lib / เครื่องดรีม
    1971 : Nicholas Jardineและ Cornelis J. van Rijsbergenตีพิมพ์ "การใช้การ จัดกลุ่มตามลำดับชั้นในการดึงข้อมูล" ซึ่งเป็น "สมมติฐานของคลัสเตอร์" [13]
    1975 : สิ่งพิมพ์ที่มีอิทธิพลสูงสามฉบับโดย Salton ได้กล่าวถึงกรอบการประมวลผลเวกเตอร์และรูปแบบการเลือกปฏิบัติระยะยาวอย่างชัดเจน :
    • ทฤษฎีการจัดทำดัชนี (Society for Industrial and Applied Mathematics)
    • ทฤษฎีความสำคัญของคำศัพท์ในการวิเคราะห์ข้อความอัตโนมัติ ( JASIS v.26 )
    • แบบจำลองพื้นที่เวกเตอร์สำหรับการจัดทำดัชนีอัตโนมัติ ( CACM 18:11)
    1978 : ครั้งแรกที่ ACM SIGIRประชุม
    1979 : CJ van Rijsbergen ตีพิมพ์ Information Retrieval (Butterworths) เน้นหนักไปที่แบบจำลองที่น่าจะเป็น
    1979 : Tamas Doszkocs ใช้ส่วนติดต่อผู้ใช้ภาษาธรรมชาติ CITE สำหรับ MEDLINE ที่หอสมุดแห่งชาติการแพทย์ ระบบ CITE รองรับการป้อนข้อมูลแบบสอบถามรูปแบบอิสระผลลัพธ์ที่ได้รับการจัดอันดับและข้อเสนอแนะที่เกี่ยวข้อง [14]
  • ทศวรรษที่ 1980
    1980 : การประชุม ACM SIGIR ระดับนานาชาติครั้งแรกร่วมกับกลุ่ม British Computer Society IR ในเคมบริดจ์
    1982 : Nicholas J. Belkin , Robert N.Oddy และ Helen M. Brooks เสนอมุมมอง ASK (Anomalous State of Knowledge) สำหรับการดึงข้อมูล นี่เป็นแนวคิดที่สำคัญแม้ว่าเครื่องมือวิเคราะห์อัตโนมัติของพวกเขาจะพิสูจน์แล้วว่าน่าผิดหวังในที่สุด
    1983 : Salton (และ Michael J.McGill) ตีพิมพ์ Introduction to Modern Information Retrieval (McGraw-Hill) โดยเน้นหนักไปที่โมเดลเวกเตอร์
    พ.ศ. 2528 : เดวิดแบลร์และ บิลมารอนเผยแพร่: การประเมินประสิทธิผลของการดึงข้อมูลสำหรับระบบการดึงเอกสารแบบข้อความเต็ม
    กลางทศวรรษที่ 1980 : ความพยายามในการพัฒนาระบบ IR เชิงพาณิชย์เวอร์ชันสำหรับผู้ใช้ปลายทาง
    พ.ศ. 2528-2536 : เอกสารสำคัญและระบบทดลองสำหรับอินเทอร์เฟซการแสดงภาพ
    การทำงานโดย โดนัลด์บีเคร้าช์ , โรเบิร์ต R คอร์ฟ ก แมทธิวบิล Anselm Spoerri และอื่น ๆ
    1989 : ครั้งแรก ของโลกไวด์เว็บข้อเสนอโดย Tim Berners-Leeที่ เซิร์น
  • ทศวรรษที่ 1990
    1992 : การประชุม TRECครั้งแรก
    1997 : การเผยแพร่ Korfhageของ การจัดเก็บข้อมูลและการสืบค้น[15]โดยเน้นการสร้างภาพและระบบหลายจุดอ้างอิง
    1999 : การตีพิมพ์ของ Ricardo Baeza-Yatesและการดึงข้อมูลสมัยใหม่ของ Berthier Ribeiro-Neto โดย Addison Wesley หนังสือเล่มแรกที่พยายามครอบคลุม IR ทั้งหมด
    ปลายทศวรรษ 1990 : เครื่องมือค้นหาเว็บใช้คุณลักษณะหลายอย่างที่เคยพบในระบบ IR ทดลองเท่านั้น เครื่องมือค้นหากลายเป็นอินสแตนซ์ที่พบบ่อยที่สุดและอาจจะดีที่สุดสำหรับโมเดล IR

การประชุมใหญ่

  • SIGIR: การประชุมวิชาการวิจัยและพัฒนาในการสืบค้นข้อมูล
  • ECIR: การประชุมยุโรปเกี่ยวกับการดึงข้อมูล
  • CIKM: การประชุมเกี่ยวกับข้อมูลและการจัดการความรู้
  • WWW: International World Wide Web Conference
  • WSDM: การประชุมเกี่ยวกับการค้นเว็บและการขุดข้อมูล
  • ICTIR: การประชุมระหว่างประเทศเกี่ยวกับทฤษฎีการดึงข้อมูล

รางวัลในสาขา

  • รางวัล Tony Kent Strix
  • เจอราร์ดซัลตันอวอร์ด
  • รางวัล Karen Spärck Jones

ดูสิ่งนี้ด้วย

  • การดึงข้อมูลฝ่ายตรงข้าม  - กลยุทธ์การดึงข้อมูลในชุดข้อมูล
  • การแสวงหาข้อมูลร่วมกัน
  • หน่วยความจำคอมพิวเตอร์  - อุปกรณ์ที่ใช้ในคอมพิวเตอร์เพื่อจัดเก็บข้อมูล
  • คำศัพท์ที่ควบคุม
  • การดึงข้อมูลข้ามภาษา
  • การขุดข้อมูล  - การค้นหารูปแบบในชุดข้อมูลขนาดใหญ่โดยใช้วิธีการคำนวณที่ซับซ้อน
  • โรงเรียนภาคฤดูร้อนในยุโรปในการสืบค้นข้อมูล
  • การดึงข้อมูลของมนุษย์ - คอมพิวเตอร์  (HCIR)
  • การดึงข้อมูล  - ดึงข้อมูลที่มีโครงสร้างโดยอัตโนมัติจากเอกสารที่เครื่องอ่านไม่ได้หรือกึ่งมีโครงสร้างเช่นข้อความภาษามนุษย์
  • สิ่งอำนวยความสะดวกในการดึงข้อมูล
  • การแสดงภาพความรู้
  • การดึงข้อมูลมัลติมีเดีย
  • การจัดการข้อมูลส่วนบุคคล
  • ความเกี่ยวข้อง (การดึงข้อมูล)
  • ความคิดเห็นเกี่ยวกับความเกี่ยวข้อง
  • การจำแนกประเภท Rocchio
  • การสร้างดัชนีของเครื่องมือค้นหา
  • การแสวงหาข้อมูลทางสังคม
  • กลุ่มผลประโยชน์พิเศษเกี่ยวกับการดึงข้อมูล
  • การจัดทำดัชนีหัวเรื่อง
  • การดึงข้อมูลชั่วคราว
  • tf – idf  - (ความถี่คำ - ความถี่ของเอกสารผกผัน) สถิติเชิงตัวเลขที่มีวัตถุประสงค์เพื่อสะท้อนความสำคัญของคำที่มีต่อเอกสารในคอลเล็กชันหรือคลังข้อความ
  • การดึงข้อมูล XML
  • เว็บขุด

อ้างอิง

  1. ^ Jansen บีเจและ Rieh, S. (2010)เจ็ด Constructs ทฤษฎีของการค้นหาข้อมูลและการดึงข้อมูล ที่จัดเก็บ 2016/03/04 ที่เครื่อง Wayback วารสาร American Society for Information Sciences and Technology. 61 (8), 1517-1534
  2. ^ Goodrum แอ๊บบี้เอ (2000) "การดึงข้อมูลรูปภาพ: ภาพรวมของการวิจัยในปัจจุบัน" วิทยาศาสตร์แจ้ง . 3 (2).
  3. ^ ฟุทโจนาธาน (2542). "ภาพรวมของการดึงข้อมูลเสียง". ระบบมัลติมีเดีย 7 : 2–10. CiteSeerX  10.1.1.39.6339 ดอย : 10.1007 / s005300050106 . S2CID  2000641
  4. ^ Beel, Jöran; กิปป์เบล่า; สติลเลอร์, แจน - โอลาฟ (2552). การดึงข้อมูลบนแผนที่ความคิด - มันจะดีสำหรับอะไร? . การดำเนินการของการประชุมระหว่างประเทศครั้งที่ 5 เกี่ยวกับคอมพิวเตอร์ร่วมกัน: เครือข่ายการใช้งานและการแบ่งปันการทำงาน (CollaborateCom'09) วอชิงตันดีซี: IEEE สืบค้นจากต้นฉบับเมื่อ 2011-05-13 . สืบค้นเมื่อ2012-03-13 .
  5. ^ Frakes, วิลเลียมบี.; Baeza-Yates, Ricardo (1992). ดึงข้อมูลโครงสร้างข้อมูลและอัลกอริทึม Prentice-Hall, Inc. ISBN 978-0-13-463837-9. สืบค้นจากต้นฉบับเมื่อ 2013-09-28.
  6. ^ ก ข Singhal, Amit (2544). "โมเดิร์นดึงข้อมูล: บทสรุปภาพรวม" (PDF) แถลงการณ์ของอีอีอีพีซีสมาคมคณะกรรมการด้านเทคนิคเกี่ยวกับข้อมูลวิศวกรรม 24 (4): 35–43.
  7. ^ Mark Sanderson & W. Bruce Croft (2012). "ประวัติความเป็นมาของการวิจัยการค้นคืนสารสนเทศ" . การดำเนินการของ IEEE 100 : 1444–1451 ดอย : 10.1109 / jproc.2012.2189916 .
  8. ^ เจอีโฮล์มสตรอม (2491) " ' Section III. opening Plenary Session" . การประชุมข้อมูลทางวิทยาศาสตร์ของ Royal Society, 21 มิถุนายน -2 กรกฎาคม พ.ศ. 2491: ส่งรายงานและเอกสาร : 85
  9. ^ Mooers, Calvin N. ; ทฤษฎีการจัดการข้อมูลที่ไม่ใช่ตัวเลขแบบดิจิทัลและผลกระทบต่อเศรษฐศาสตร์ของเครื่องจักร (Zator Technical Bulletin No. 48) อ้างถึงใน แฟร์ ธ อร์น, RA (2501). "การดึงข้อมูลที่บันทึกโดยอัตโนมัติ" . วารสารคอมพิวเตอร์ . 1 (1): 37. ดอย : 10.1093 / comjnl / 1.1.36 .
  10. ^ ดอยล์, ลอเรน; เบ็คเกอร์โจเซฟ (2518) ดึงข้อมูลและการประมวลผล เมลวิลล์. หน้า 410 หน้าISBN 978-0-471-22151-7.
  11. ^ เพอร์รีเจมส์ดับเบิลยู; เคนท์อัลเลน; Berry, Madeline M. (2498). "วรรณกรรมเครื่องจักรค้นหา X ภาษาเครื่องปัจจัยที่อยู่เบื้องหลังการออกแบบและการพัฒนา" เอกสารอเมริกัน . 6 (4): 242–254. ดอย : 10.1002 / asi.5090060411 .
  12. ^ Maron, Melvin E. (2008). "หมายเหตุทางประวัติศาสตร์เกี่ยวกับต้นกำเนิดของความน่าจะเป็นการจัดทำดัชนี" (PDF) การประมวลผลและการจัดการข้อมูล . 44 (2): 971–972 ดอย : 10.1016 / j.ipm.2007.02.012 .
  13. ^ N. Jardine, CJ van Rijsbergen (ธันวาคม 2514) "การใช้การจัดกลุ่มตามลำดับชั้นในการดึงข้อมูล". การจัดเก็บข้อมูลและการสืบค้น 7 (5): 217–240 ดอย : 10.1016 / 0020-0271 (71) 90051-9 .
  14. ^ Doszkocs, TE & Rapp, BA (1979) "Searching MEDLINE in English: a Prototype User Inter-face with Natural Language Query, Ranked Output, and related feedback," ใน: Proceedings of the ASIS Annual Meeting, 16: 131-139
  15. ^ Korfhage, Robert R. (1997). การจัดเก็บข้อมูลและการสืบค้น ไวลีย์. น.  368 น . ISBN 978-0-471-14338-3.

อ่านเพิ่มเติม

  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto โมเดิร์นดึงข้อมูล: แนวคิดและเทคโนโลยีที่อยู่เบื้องหลังการค้นหา (ฉบับที่สอง) แอดดิสัน - เวสลีย์, สหราชอาณาจักร, 2554
  • Stefan Büttcher, Charles LA Clarke และ Gordon V. Cormack ดึงข้อมูล: การดำเนินการและการประเมินเครื่องมือค้นหา MIT Press, Cambridge, Massachusetts, 2010
  • “ ระบบสืบค้นข้อมูล” . ห้องสมุดและข้อมูลเครือข่ายวิทยาศาสตร์ 24 เมษายน 2558.
  • Christopher D. Manning, Prabhakar Raghavan และ Hinrich Schütze เบื้องต้นเกี่ยวกับการดึงข้อมูล สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ 2551

ลิงก์ภายนอก

  • ACM SIGIR: กลุ่มผลประโยชน์พิเศษสำหรับการดึงข้อมูล
  • BCS IRSG: British Computer Society - Information Retrieval Specialist Group
  • การประชุมการดึงข้อความ (TREC)
  • ฟอรัมสำหรับการประเมินการดึงข้อมูล (FIRE)
  • การดึงข้อมูล (หนังสือออนไลน์) โดยCJ van Rijsbergen
  • วิกิการดึงข้อมูล
  • สิ่งอำนวยความสะดวกในการดึงข้อมูล
  • การดึงข้อมูล @ DUTH
  • รายงาน TREC เกี่ยวกับเทคนิคการประเมินการดึงข้อมูล
  • eBay วัดความเกี่ยวข้องของการค้นหาอย่างไร
  • เครื่องมือประเมินประสิทธิภาพการดึงข้อมูล @ Athena Research Center
Language
  • Thai
  • Français
  • Deutsch
  • Arab
  • Português
  • Nederlands
  • Türkçe
  • Tiếng Việt
  • भारत
  • 日本語
  • 한국어
  • Hmoob
  • ខ្មែរ
  • Africa
  • Русский

©Copyright This page is based on the copyrighted Wikipedia article "/wiki/Information_retrieval" (Authors); it is used under the Creative Commons Attribution-ShareAlike 3.0 Unported License. You may redistribute it, verbatim or modified, providing that you comply with the terms of the CC-BY-SA. Cookie-policy To contact us: mail to admin@tvd.wiki

TOP