การประมวลผลภาษาธรรมชาติ
การประมวลผลภาษาธรรมชาติ ( NLP ) เป็นสาขาย่อยของภาษาศาสตร์ , วิทยาศาสตร์คอมพิวเตอร์และปัญญาประดิษฐ์ที่เกี่ยวข้องกับการมีปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์โดยเฉพาะอย่างยิ่งวิธีการคอมพิวเตอร์โปรแกรมการประมวลผลและวิเคราะห์ข้อมูลจำนวนมากของภาษาธรรมชาติข้อมูล ผลลัพธ์ที่ได้คือคอมพิวเตอร์ที่สามารถ "เข้าใจ" เนื้อหาของเอกสารรวมถึงความแตกต่างตามบริบทของภาษาภายในเอกสารเหล่านั้น จากนั้นเทคโนโลยีสามารถดึงข้อมูลและข้อมูลเชิงลึกที่มีอยู่ในเอกสารได้อย่างถูกต้องรวมทั้งจัดหมวดหมู่และจัดระเบียบเอกสารด้วยตนเอง

ความท้าทายในการประมวลผลภาษาธรรมชาติบ่อยเกี่ยวข้องกับการรู้จำเสียงพูด , ความเข้าใจภาษาธรรมชาติและรุ่นภาษาธรรมชาติ
ประวัติศาสตร์
การประมวลผลภาษาธรรมชาติมีรากฐานมาจากทศวรรษที่ 1950 ในปี 1950 Alan Turing ได้ตีพิมพ์บทความชื่อ " Computing Machinery and Intelligence " ซึ่งเสนอสิ่งที่ปัจจุบันเรียกว่าการทดสอบทัวริงเป็นเกณฑ์ความฉลาดซึ่งเป็นงานที่เกี่ยวข้องกับการตีความอัตโนมัติและการสร้างภาษาธรรมชาติ แต่ในเวลานั้นไม่ได้พูดชัดแจ้ง เป็นปัญหาที่แยกจากปัญญาประดิษฐ์
NLP เชิงสัญลักษณ์ (ปี 1950 - ต้นปี 1990)
หลักฐานของ NLP เชิงสัญลักษณ์ได้รับการสรุปอย่างดีจากการทดลองในห้องภาษาจีนของJohn Searle : ด้วยการรวบรวมกฎต่างๆ (เช่นวลีภาษาจีนที่มีคำถามและคำตอบที่ตรงกัน) คอมพิวเตอร์จะเลียนแบบความเข้าใจภาษาธรรมชาติ (หรืองาน NLP อื่น ๆ ) โดย ใช้กฎเหล่านั้นกับข้อมูลที่เผชิญอยู่
- 1950s : การทดลองของจอร์จทาวน์ในปีพ. ศ. 2497 เกี่ยวข้องกับการแปลประโยคภาษารัสเซียมากกว่าหกสิบประโยคเป็นภาษาอังกฤษโดยอัตโนมัติ ผู้เขียนอ้างว่าภายในสามหรือห้าปีการแปลด้วยเครื่องจะแก้ปัญหาได้ [2]อย่างไรก็ตามความก้าวหน้าที่แท้จริงช้าลงมากและหลังจากรายงาน ALPACในปี 2509 ซึ่งพบว่าการวิจัยที่ยาวนานกว่า 10 ปีไม่สามารถบรรลุความคาดหวังได้เงินทุนสำหรับการแปลด้วยเครื่องก็ลดลงอย่างมาก การวิจัยเพิ่มเติมเล็กน้อยเกี่ยวกับการแปลด้วยเครื่องได้ดำเนินการจนถึงปลายทศวรรษที่ 1980 เมื่อมีการพัฒนาระบบการแปลด้วยเครื่องเชิงสถิติเป็นครั้งแรก
- 1960 : ระบบประมวลผลภาษาธรรมชาติที่ประสบความสำเร็จอย่างโดดเด่นที่พัฒนาขึ้นในทศวรรษ 1960 ได้แก่SHRDLUซึ่งเป็นระบบภาษาธรรมชาติที่ทำงานใน " โลกบล็อก " ที่ถูก จำกัด ด้วยคำศัพท์ที่ จำกัด และELIZAซึ่งเป็นการจำลองของนักจิตอายุรเวทโรเจอร์ที่เขียนโดยJoseph Weizenbaumระหว่างปีพ. ศ. 2507 ถึง 2509 การใช้ข้อมูลแทบไม่เกี่ยวกับความคิดหรืออารมณ์ของมนุษย์บางครั้ง ELIZA ก็ให้การโต้ตอบที่เหมือนมนุษย์จนน่าตกใจ เมื่อ "ผู้ป่วย" มีฐานความรู้ที่มีขนาดเล็กมาก ELIZA อาจให้คำตอบทั่วไปเช่นตอบว่า "หัวของฉันเจ็บ" พร้อมกับ "ทำไมคุณถึงพูดว่าหัวของคุณเจ็บ"
- 1970s : ในช่วงปี 1970 โปรแกรมเมอร์หลายคนเริ่มเขียน "แนวคิดออนโทโลยี " ซึ่งจัดโครงสร้างข้อมูลในโลกแห่งความเป็นจริงให้เป็นข้อมูลที่เข้าใจได้ด้วยคอมพิวเตอร์ ตัวอย่าง ได้แก่ MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) และ Plot Units (Lehnert 1981) ). ในช่วงเวลานี้มีการเขียนแชทบอทจำนวนมากเป็นครั้งแรก(เช่นPARRY )
- ยุค 80 : ช่วงปี 1980 และต้นปี 1990 ถือเป็นวันแห่งวิธีสัญลักษณ์ใน NLP จุดเน้นของเวลารวมถึงการวิจัยเกี่ยวกับการแยกวิเคราะห์ตามกฎ (เช่นการพัฒนาHPSGเป็นการดำเนินการเชิงคำนวณของไวยากรณ์กำเนิด ) สัณฐานวิทยา (เช่นสัณฐานวิทยาสองระดับ[3] ) ความหมาย (เช่นอัลกอริทึม Lesk ) การอ้างอิง (เช่นภายใน Centering Theory [4] ) และส่วนอื่น ๆ ของความเข้าใจภาษาธรรมชาติ (เช่นในทฤษฎีโครงสร้างวาทศิลป์ ) สายอื่น ๆ ของการวิจัยอย่างต่อเนื่องเช่นการพัฒนาของ chatterbots กับRacterและJabberwacky การพัฒนาที่สำคัญ (ซึ่งนำไปสู่การเปลี่ยนแปลงทางสถิติในช่วงทศวรรษ 1990) คือความสำคัญที่เพิ่มขึ้นของการประเมินเชิงปริมาณในช่วงนี้ [5]
NLP ทางสถิติ (1990s - 2010s)
จนถึงทศวรรษ 1980 ระบบประมวลผลภาษาธรรมชาติส่วนใหญ่ตั้งอยู่บนพื้นฐานของกฎที่เขียนด้วยมือที่ซับซ้อน อย่างไรก็ตามเริ่มตั้งแต่ปลายทศวรรษที่ 1980 เป็นต้นมามีการปฏิวัติการประมวลผลภาษาธรรมชาติด้วยการนำอัลกอริทึมการเรียนรู้ของเครื่องมาใช้ในการประมวลผลภาษา นี่เป็นเพราะทั้งพลังในการคำนวณที่เพิ่มขึ้นอย่างต่อเนื่อง (ดูกฎของมัวร์ ) และการลดการครอบงำของทฤษฎีภาษาศาสตร์ของChomskyanทีละน้อย(เช่นไวยากรณ์การเปลี่ยนแปลง ) ซึ่งพื้นฐานทางทฤษฎีไม่สนับสนุนรูปแบบของภาษาคอร์ปัสที่อยู่ภายใต้แนวทางการเรียนรู้ของเครื่อง ไปจนถึงการประมวลผลภาษา [6]
- 1990s : ความสำเร็จในช่วงต้นของวิธีการทางสถิติใน NLP เกิดขึ้นในด้านการแปลด้วยเครื่องโดยเฉพาะอย่างยิ่งในการทำงานที่ IBM Research ระบบเหล่านี้สามารถใช้ประโยชน์จากเอกสารข้อความหลายภาษาที่มีอยู่ซึ่งได้รับการผลิตโดยรัฐสภาแคนาดาและสหภาพยุโรปอันเป็นผลมาจากกฎหมายที่เรียกร้องให้แปลการดำเนินการของรัฐบาลทั้งหมดเป็นภาษาราชการทั้งหมดของระบบที่เกี่ยวข้องของรัฐบาล อย่างไรก็ตามระบบอื่น ๆ ส่วนใหญ่ขึ้นอยู่กับองค์กรที่พัฒนาขึ้นโดยเฉพาะสำหรับงานที่ใช้ระบบเหล่านี้ซึ่ง (และมักจะยังคงเป็น) ข้อ จำกัด ที่สำคัญในความสำเร็จของระบบเหล่านี้ เป็นผลให้งานวิจัยจำนวนมากได้ใช้วิธีการเรียนรู้ที่มีประสิทธิภาพมากขึ้นจากข้อมูลจำนวน จำกัด
- ยุค 2000 : ด้วยการเติบโตของเว็บทำให้มีข้อมูลภาษาดิบ (ที่ไม่ได้อธิบาย) เพิ่มขึ้นตั้งแต่กลางทศวรรษที่ 1990 งานวิจัยจึงได้เน้นมากขึ้นในใกล้ชิดและเรียนรู้กึ่งภายใต้การดูแลขั้นตอนวิธีการ อัลกอริทึมดังกล่าวสามารถเรียนรู้จากข้อมูลที่ไม่ได้มีการใส่คำอธิบายประกอบด้วยมือพร้อมคำตอบที่ต้องการหรือใช้ข้อมูลที่มีคำอธิบายประกอบและข้อมูลที่ไม่มีคำอธิบายประกอบร่วมกัน โดยทั่วไปงานนี้ยากกว่าการเรียนรู้ภายใต้การดูแลมากและโดยทั่วไปจะให้ผลลัพธ์ที่แม่นยำน้อยกว่าสำหรับข้อมูลอินพุตจำนวนหนึ่ง อย่างไรก็ตามมีข้อมูลที่ไม่มีคำอธิบายประกอบจำนวนมหาศาลที่พร้อมใช้งาน (รวมถึงเนื้อหาทั้งหมดของเวิลด์ไวด์เว็บ ) ซึ่งมักจะชดเชยผลลัพธ์ที่ด้อยกว่าหากอัลกอริทึมที่ใช้มีความซับซ้อนของเวลาต่ำพอที่จะ นำไปใช้ได้จริง
NLP ประสาท (ปัจจุบัน)
ในปี 2010 การเรียนรู้การเป็นตัวแทนและวิธีการเรียนรู้แบบแมชชีนแบบเครือข่ายประสาทเทียมได้แพร่หลายในการประมวลผลภาษาธรรมชาติเนื่องจากส่วนหนึ่งของผลลัพธ์ที่แสดงให้เห็นว่าเทคนิคดังกล่าว[7] [8]สามารถบรรลุผลลัพธ์ที่ล้ำสมัยได้ ในงานภาษาธรรมชาติหลายอย่างเช่นในการสร้างแบบจำลองภาษา[9] การแยกวิเคราะห์[10] [11]และอื่น ๆ อีกมากมาย สิ่งนี้มีความสำคัญมากขึ้นในการแพทย์และการดูแลสุขภาพโดยที่ NLP ถูกนำมาใช้เพื่อวิเคราะห์บันทึกและข้อความในบันทึกสุขภาพอิเล็กทรอนิกส์ซึ่งจะไม่สามารถเข้าถึงได้เพื่อการศึกษาเมื่อต้องการปรับปรุงการดูแล [12]
วิธีการ: กฎสถิติโครงข่ายประสาทเทียม
ในยุคแรกระบบประมวลผลภาษาหลายระบบได้รับการออกแบบโดยใช้วิธีเชิงสัญลักษณ์กล่าวคือการเขียนโค้ดด้วยมือของชุดของกฎควบคู่ไปกับการค้นหาพจนานุกรม: [13] [14]เช่นโดยการเขียนไวยากรณ์หรือกำหนดกฎเกณฑ์การแก้ปัญหาสำหรับการกั้น
ระบบใหม่ ๆ ที่ใช้อัลกอริทึมการเรียนรู้ของเครื่องมีข้อดีหลายประการเหนือกฎที่ผลิตด้วยมือ:
- ขั้นตอนการเรียนรู้ที่ใช้ระหว่างการเรียนรู้ของเครื่องจะมุ่งเน้นไปที่กรณีทั่วไปโดยอัตโนมัติในขณะที่การเขียนกฎด้วยมือมักไม่ชัดเจนว่าควรนำความพยายามไปที่ใด
- ขั้นตอนการเรียนรู้อัตโนมัติสามารถใช้อัลกอริธึมการอนุมานทางสถิติเพื่อสร้างแบบจำลองที่มีประสิทธิภาพสำหรับข้อมูลที่ไม่คุ้นเคย (เช่นมีคำหรือโครงสร้างที่ไม่เคยเห็นมาก่อน) และการป้อนข้อมูลที่ผิดพลาด (เช่นคำที่สะกดผิดหรือคำที่ละไว้โดยไม่ได้ตั้งใจ) โดยทั่วไปการจัดการข้อมูลดังกล่าวอย่างสง่างามด้วยกฎที่เขียนด้วยลายมือหรือโดยทั่วไปแล้วการสร้างระบบของกฎที่เขียนด้วยลายมือซึ่งทำให้ตัดสินใจได้อย่างนุ่มนวลเป็นเรื่องยากมากเกิดข้อผิดพลาดได้ง่ายและใช้เวลานาน
- ระบบที่อาศัยการเรียนรู้กฎโดยอัตโนมัติสามารถทำให้ถูกต้องมากขึ้นเพียงแค่ให้ข้อมูลอินพุตเพิ่มเติม อย่างไรก็ตามระบบที่ใช้กฎที่เขียนด้วยลายมือสามารถทำให้ถูกต้องมากขึ้นโดยการเพิ่มความซับซ้อนของกฎซึ่งเป็นงานที่ยากกว่ามาก โดยเฉพาะอย่างยิ่งมีการจำกัดความซับซ้อนของระบบตามกฎที่เขียนด้วยลายมือซึ่งทำให้ระบบไม่สามารถจัดการได้มากขึ้นเรื่อย ๆ อย่างไรก็ตามการสร้างข้อมูลเพิ่มเติมเพื่อป้อนเข้าสู่ระบบแมชชีนเลิร์นนิงจำเป็นต้องเพิ่มจำนวนชั่วโมงทำงานที่สอดคล้องกันโดยทั่วไปจะไม่มีการเพิ่มความซับซ้อนของกระบวนการใส่คำอธิบายประกอบอย่างมีนัยสำคัญ
แม้จะได้รับความนิยมในการเรียนรู้ของเครื่องในการวิจัย NLP แต่วิธีการเชิงสัญลักษณ์ก็ยังคงใช้กันทั่วไป (2020)
- เมื่อข้อมูลการฝึกอบรมมีไม่เพียงพอที่จะนำวิธีการเรียนรู้ของเครื่องไปใช้อย่างประสบความสำเร็จเช่นสำหรับการแปลภาษาด้วยเครื่องที่ใช้ทรัพยากรต่ำเช่นที่จัดเตรียมโดยระบบApertium
- สำหรับการประมวลผลล่วงหน้าในไปป์ไลน์ NLP เช่นโทเค็นหรือ
- สำหรับการประมวลผลหลังการประมวลผลและการแปลงเอาต์พุตของไปป์ไลน์ NLP เช่นสำหรับการแยกความรู้จากการแยกวิเคราะห์วากยสัมพันธ์
วิธีการทางสถิติ
นับตั้งแต่ที่เรียกว่า "การปฏิวัติทางสถิติ" [15] [16]ในช่วงปลายทศวรรษที่ 1980 และกลางทศวรรษที่ 1990 การวิจัยการประมวลผลภาษาที่เป็นธรรมชาติส่วนใหญ่อาศัยการเรียนรู้ของเครื่องเป็นอย่างมาก เครื่องเรียนรู้กระบวนทัศน์สายแทนการใช้อนุมานทางสถิติโดยอัตโนมัติเรียนรู้กฎระเบียบดังกล่าวผ่านการวิเคราะห์ที่มีขนาดใหญ่corpora (รูปพหูพจน์ของคลังเป็นชุดของเอกสารที่อาจมีมนุษย์หรือคอมพิวเตอร์คำอธิบายประกอบ) ของตัวอย่างจริงของโลกทั่วไป
อัลกอริธึมแมชชีนเลิร์นนิงคลาสต่างๆมากมายถูกนำไปใช้กับงานประมวลผลภาษาธรรมชาติ อัลกอริทึมเหล่านี้ใช้เป็นอินพุต "คุณลักษณะ" ชุดใหญ่ที่สร้างขึ้นจากข้อมูลอินพุต อย่างไรก็ตามการวิจัยได้ให้ความสำคัญกับแบบจำลองทางสถิติมากขึ้นซึ่งทำการตัดสินใจที่นุ่มนวลและน่าจะเป็นไปได้โดยยึดน้ำหนักที่มีมูลค่าจริงเข้ากับคุณลักษณะการป้อนข้อมูลแต่ละรายการ แบบจำลองดังกล่าวมีข้อได้เปรียบที่สามารถแสดงความแน่นอนสัมพัทธ์ของคำตอบที่เป็นไปได้ที่แตกต่างกันจำนวนมากแทนที่จะเป็นเพียงคำตอบเดียวทำให้ได้ผลลัพธ์ที่น่าเชื่อถือมากขึ้นเมื่อรวมโมเดลดังกล่าวเป็นส่วนประกอบของระบบที่ใหญ่
อัลกอริธึมแมชชีนเลิร์นนิงที่เก่าแก่ที่สุดบางส่วนเช่นแผนผังการตัดสินใจได้สร้างระบบของกฎที่ยากถ้าเป็นเช่นนั้นซึ่งคล้ายกับกฎที่เขียนด้วยมือที่มีอยู่ อย่างไรก็ตามการติดแท็กส่วนหนึ่งของคำพูดได้นำการใช้แบบจำลอง Markov ที่ซ่อนอยู่มาใช้ในการประมวลผลภาษาธรรมชาติและการวิจัยได้มุ่งเน้นไปที่แบบจำลองทางสถิติมากขึ้นซึ่งทำการตัดสินใจที่นุ่มนวลและน่าจะเป็นไปได้โดยอาศัยการแนบน้ำหนักที่มีมูลค่าจริงเข้ากับคุณสมบัติที่ประกอบเป็นข้อมูลที่ป้อนเข้า ข้อมูล. รุ่นภาษาแคชตามที่หลายคนรู้จำเสียงพูดของระบบที่พึ่งพาเป็นตัวอย่างของแบบจำลองทางสถิติดังกล่าว โดยทั่วไปแล้วโมเดลดังกล่าวจะมีประสิทธิภาพมากขึ้นเมื่อได้รับอินพุตที่ไม่คุ้นเคยโดยเฉพาะอินพุตที่มีข้อผิดพลาด (เช่นเดียวกับข้อมูลในโลกแห่งความเป็นจริง) และให้ผลลัพธ์ที่น่าเชื่อถือมากขึ้นเมื่อรวมเข้ากับระบบขนาดใหญ่ซึ่งประกอบด้วยงานย่อยหลายงาน
นับตั้งแต่การเปลี่ยนระบบประสาทวิธีการทางสถิติในการวิจัย NLP ถูกแทนที่ด้วยโครงข่ายประสาทเทียมเป็นส่วนใหญ่ อย่างไรก็ตามข้อมูลเหล่านี้ยังคงมีความเกี่ยวข้องกับบริบทที่จำเป็นต้องมีความสามารถในการตีความทางสถิติและความโปร่งใส
โครงข่ายประสาท
ข้อเสียเปรียบที่สำคัญของวิธีการทางสถิติคือต้องใช้วิศวกรรมคุณลักษณะที่ซับซ้อน ตั้งแต่ปี 2015 เป็นต้นมา[17]สาขานี้จึงละทิ้งวิธีการทางสถิติส่วนใหญ่และเปลี่ยนไปใช้เครือข่ายประสาทเทียมสำหรับการเรียนรู้ของเครื่อง เทคนิคที่ได้รับความนิยม ได้แก่ การใช้การฝังคำเพื่อจับคุณสมบัติทางความหมายของคำและการเพิ่มขึ้นของการเรียนรู้แบบ end-to-end ของงานระดับที่สูงขึ้น (เช่นการตอบคำถาม) แทนที่จะอาศัยไปป์ไลน์ของงานระดับกลางที่แยกจากกัน (เช่น การติดแท็กส่วนหนึ่งของคำพูดและการแยกวิเคราะห์การอ้างอิง) ในบางพื้นที่การเปลี่ยนแปลงนี้ก่อให้เกิดการเปลี่ยนแปลงอย่างมากในวิธีการออกแบบระบบ NLP ดังนั้นแนวทางที่ใช้เครือข่ายประสาทเทียมเชิงลึกอาจถูกมองว่าเป็นกระบวนทัศน์ใหม่ที่แตกต่างจากการประมวลผลภาษาธรรมชาติทางสถิติ ตัวอย่างเช่นคำว่าการแปลด้วยเครื่องระบบประสาท (NMT) เน้นย้ำถึงความจริงที่ว่าแนวทางการแปลด้วยเครื่องที่เน้นการเรียนรู้เชิงลึกจะเรียนรู้การแปลงแบบลำดับต่อลำดับได้โดยตรงซึ่งขัดขวางความจำเป็นในขั้นตอนกลางเช่นการจัดตำแหน่งคำและการสร้างแบบจำลองภาษาที่ใช้ในทางสถิติ การแปลด้วยเครื่อง (SMT) ผลงานล่าสุดมักจะใช้โครงสร้างที่ไม่ใช่ทางเทคนิคของงานที่กำหนดเพื่อสร้างเครือข่ายประสาทที่เหมาะสม [18]
งาน NLP ทั่วไป
ต่อไปนี้เป็นรายการของงานวิจัยที่พบบ่อยที่สุดในการประมวลผลภาษาธรรมชาติ งานเหล่านี้บางอย่างมีแอปพลิเคชันในโลกแห่งความเป็นจริงโดยตรงในขณะที่งานอื่น ๆ มักทำหน้าที่เป็นงานย่อยที่ใช้เพื่อช่วยในการแก้ปัญหางานขนาดใหญ่
แม้ว่างานประมวลผลภาษาธรรมชาติจะเกี่ยวพันกันอย่างใกล้ชิด แต่ก็สามารถแบ่งย่อยเป็นหมวดหมู่ได้เพื่อความสะดวก การแบ่งหยาบได้รับด้านล่าง
การประมวลผลข้อความและคำพูด
- การรู้จำอักขระด้วยแสง (OCR)
- กำหนดรูปภาพที่แสดงข้อความที่พิมพ์ให้กำหนดข้อความที่เกี่ยวข้อง
- การรู้จำเสียง
- ให้คลิปเสียงของคน ๆ หนึ่งหรือคนที่พูดให้กำหนดการแสดงข้อความของคำพูด นี่คือสิ่งที่ตรงกันข้ามกับ ข้อความเป็นคำพูดและเป็นหนึ่งในปัญหาที่ยากมากที่เรียกว่า " AI-complete " (ดูด้านบน) ในการ พูดที่เป็นธรรมชาติแทบจะไม่มีการหยุดชั่วคราวระหว่างคำที่ต่อเนื่องกันดังนั้นการแบ่งส่วนคำพูดจึง เป็นงานย่อยที่จำเป็นในการรู้จำเสียง (ดูด้านล่าง) ในภาษาพูดส่วนใหญ่เสียงที่แสดงถึงตัวอักษรที่ต่อเนื่องกันจะผสมผสานกันในกระบวนการที่เรียกว่า coarticulationดังนั้นการแปลง สัญญาณแอนะล็อกเป็นอักขระที่ไม่ต่อเนื่องอาจเป็นกระบวนการที่ยากมาก นอกจากนี้เนื่องจากคำในภาษาเดียวกันถูกพูดโดยผู้ที่มีสำเนียงที่แตกต่างกันซอฟต์แวร์การรู้จำเสียงจึงต้องสามารถรับรู้อินพุตที่หลากหลายว่าเหมือนกันในแง่ของความเท่าเทียมกันของข้อความ
- การแบ่งส่วนคำพูด
- ให้คลิปเสียงของคนพูดหรือคนพูดให้แยกเป็นคำ งานย่อยของ การรู้จำเสียงและโดยทั่วไปจะจัดกลุ่มไว้ด้วยกัน
- การอ่านออกเสียงข้อความ
- ให้ข้อความแปลงหน่วยเหล่านั้นและสร้างตัวแทนที่เป็นเสียงพูด การอ่านออกเสียงข้อความสามารถใช้เพื่อช่วยเหลือผู้พิการทางสายตาได้ [19]
- การแบ่งส่วนคำ ( Tokenization )
- แยกข้อความที่ต่อเนื่องกันออกเป็นคำแยกกัน สำหรับภาษาเช่น ภาษาอังกฤษนี่เป็นเรื่องเล็กน้อยเนื่องจากโดยปกติแล้วคำจะถูกคั่นด้วยช่องว่าง แต่บางภาษาเขียนเช่น จีน , ญี่ปุ่นและ ไทยทำขอบเขตของคำไม่ได้ทำเครื่องหมายในแฟชั่นดังกล่าวและในบรรดาการแบ่งส่วนภาษาข้อความเป็นงานที่สำคัญต้องมีความรู้ของ คำศัพท์และ สัณฐานวิทยาของคำในภาษา บางครั้งกระบวนการนี้ยังใช้ในกรณีเช่นการสร้าง ถุงคำ (BOW) ในการขุดข้อมูล
การวิเคราะห์ทางสัณฐานวิทยา
- Lemmatization
- งานในการลบคำลงท้ายที่ผันแปรเท่านั้นและเพื่อส่งคืนรูปแบบพจนานุกรมฐานของคำซึ่งเรียกอีกอย่างว่า lemma Lemmatization เป็นอีกเทคนิคหนึ่งในการลดคำให้อยู่ในรูปแบบปกติ แต่ในกรณีนี้การแปลงจะใช้พจนานุกรมเพื่อแมปคำกับรูปแบบที่แท้จริง [20]
- การแบ่งส่วนสัณฐานวิทยา
- แยกคำออกเป็นแต่ละ morphemesและระบุระดับของ morphemes ความยากของงานนี้ขึ้นอยู่กับความซับซ้อนของ สัณฐานวิทยา ( กล่าวคือโครงสร้างของคำ) ของภาษาที่พิจารณาอย่างมาก ภาษาอังกฤษมีสัณฐานวิทยาที่ค่อนข้างเรียบง่ายโดยเฉพาะอย่างยิ่ง สัณฐานวิทยาแบบผันแปรดังนั้นจึงมักเป็นไปได้ที่จะเพิกเฉยต่องานนี้โดยสิ้นเชิงและเพียงแค่จำลองรูปแบบของคำที่เป็นไปได้ทั้งหมด ( เช่น "เปิดเปิดเปิดเปิด") เป็นคำแยกกัน ในภาษาเช่น ตุรกีหรือ Meitei , [21]สูง ติดเป็นก้อนภาษาอินเดีย แต่วิธีการดังกล่าวเป็นไปไม่ได้เป็นแต่ละรายการพจนานุกรมมีหลายพันรูปแบบคำที่เป็นไปได้
- การติดแท็กบางส่วนของคำพูด
- กำหนดประโยคกำหนด ส่วนของคำพูด (POS) สำหรับแต่ละคำ หลายคำโดยเฉพาะอย่างยิ่งคนทั่วไปสามารถเป็นหลาย ส่วนของคำพูด ตัวอย่างเช่น "book" อาจเป็น คำนาม ("the book on the table") หรือ verb ("to book a flight"); "ชุด" อาจจะเป็น คำนาม , คำกริยาหรือ คำคุณศัพท์ ; และ "out" อาจเป็นส่วนต่างๆของคำพูดอย่างน้อยห้าส่วน
- Stemming
- กระบวนการลดคำที่ผันแปร (หรือบางครั้งมา) ให้อยู่ในรูปแบบฐาน ( เช่น "ปิด" จะเป็นรากของ "ปิด", "ปิด", "ปิด", "ใกล้ชิด" เป็นต้น) การใช้ Stemming จะให้ผลลัพธ์ที่คล้ายกันกับการใช้คำนาม แต่ทำเช่นนั้นบนพื้นฐานของกฎไม่ใช่พจนานุกรม
การวิเคราะห์วากยสัมพันธ์
- การเหนี่ยวนำไวยากรณ์[22]
- สร้าง ไวยากรณ์ที่เป็นทางการที่อธิบายไวยากรณ์ของภาษา
- การแตกประโยค (หรือเรียกอีกอย่างว่า "การลด ความสับสนของขอบเขตประโยค ")
- ระบุข้อความให้ค้นหาขอบเขตของประโยค ขอบเขตประโยคที่มักจะมีการทำเครื่องหมายโดย ระยะเวลาหรือ เครื่องหมายวรรคตอนแต่ตัวอักษรเดียวกันเหล่านี้สามารถตอบสนองวัตถุประสงค์อื่น ๆ ( เช่นเครื่องหมาย ตัวย่อ )
- การแยกวิเคราะห์
- กำหนดโครงสร้างการ แยกวิเคราะห์ (การวิเคราะห์ทางไวยากรณ์) ของประโยคที่กำหนด ไวยากรณ์สำหรับ ภาษาธรรมชาติเป็น ที่คลุมเครือและประโยคทั่วไปมีการวิเคราะห์ความเป็นไปได้หลายอาจจะแปลกใจสำหรับประโยคทั่วไปอาจจะมีหลายพันแยกวิเคราะห์ศักยภาพ (ซึ่งส่วนใหญ่จะดูเหมือนไร้สาระอย่างสมบูรณ์เพื่อมนุษย์) : มีสองประเภทหลักของการแยกมี การแยกการพึ่งพาและ เขตเลือกตั้งแยก การแยกวิเคราะห์การอ้างอิงจะเน้นที่ความสัมพันธ์ระหว่างคำในประโยค (การทำเครื่องหมายสิ่งต่างๆเช่นออบเจ็กต์หลักและเพรดิเคต) ในขณะที่การแยกวิเคราะห์แบบแบ่งเขตจะมุ่งเน้นไปที่การสร้างโครงสร้างการแยกวิเคราะห์โดยใช้ไวยากรณ์ที่ไม่มีบริบทที่น่าจะเป็น (PCFG) (ดู ไวยากรณ์แบบสุ่ม )
ความหมายของคำศัพท์ (ของแต่ละคำในบริบท)
- ความหมายของคำศัพท์
- ความหมายเชิงคำนวณของแต่ละคำในบริบทคืออะไร?
- ความหมายการกระจาย
- เราจะเรียนรู้การแทนค่าความหมายจากข้อมูลได้อย่างไร?
- การรับรู้เอนทิตีที่มีชื่อ (NER)
- ให้กระแสของข้อความกำหนดว่ารายการใดในแผนที่ข้อความเป็นชื่อที่เหมาะสมเช่นบุคคลหรือสถานที่และประเภทของชื่อแต่ละชื่อนั้นคืออะไร (เช่นบุคคลสถานที่ตั้งองค์กร) แม้ว่าการ ใช้อักษรตัวพิมพ์ใหญ่จะช่วยในการระบุชื่อเอนทิตีในภาษาเช่นภาษาอังกฤษ แต่ข้อมูลนี้ไม่สามารถช่วยในการกำหนดประเภทของ เอนทิตีที่ระบุชื่อได้และในกรณีใด ๆ มักจะไม่ถูกต้องหรือไม่เพียงพอ ตัวอย่างเช่นอักษรตัวแรกของประโยคจะเป็นตัวพิมพ์ใหญ่เช่นกันและเอนทิตีที่ตั้งชื่อมักจะมีหลายคำซึ่งมีเพียงบางคำเท่านั้นที่เป็นตัวพิมพ์ใหญ่ นอกจากนี้ภาษาอื่น ๆ อีกมากมายในสคริปต์ที่ไม่ใช่ภาษาตะวันตก (เช่น ภาษาจีนหรือ ภาษาอาหรับ ) ไม่มีการใช้อักษรตัวพิมพ์ใหญ่เลยแม้แต่ภาษาที่ใช้อักษรตัวพิมพ์ใหญ่ก็ไม่สามารถใช้เพื่อแยกแยะชื่อได้อย่างสม่ำเสมอ ยกตัวอย่างเช่น เยอรมัน capitalizes ทุก นามไม่ว่าพวกเขาจะมีชื่อและ ฝรั่งเศสและ สเปนไม่ได้ใช้ประโยชน์ชื่อที่ทำหน้าที่เป็น คำคุณศัพท์
- การวิเคราะห์ความรู้สึก (ดู การวิเคราะห์ความรู้สึกหลายรูปแบบด้วย )
- โดยปกติจะดึงข้อมูลส่วนตัวจากชุดเอกสารโดยมักใช้บทวิจารณ์ออนไลน์เพื่อกำหนด "ขั้ว" เกี่ยวกับวัตถุที่เฉพาะเจาะจง เป็นประโยชน์อย่างยิ่งสำหรับการระบุแนวโน้มของความคิดเห็นสาธารณะในโซเชียลมีเดียสำหรับการตลาด
- การแยกคำศัพท์
- เป้าหมายของการแยกคำศัพท์คือการดึงคำที่เกี่ยวข้องออกจากคลังข้อมูลที่กำหนดโดยอัตโนมัติ
- การเปลี่ยนความรู้สึกของคำ
- หลายคำมีมากกว่าหนึ่ง ความหมาย ; เราต้องเลือกความหมายที่เหมาะสมที่สุดในบริบท สำหรับปัญหานี้เรามักจะได้รับรายการของคำและความรู้สึกของคำที่เกี่ยวข้องเช่นจากพจนานุกรมหรือแหล่งข้อมูลออนไลน์เช่น WordNet
ความหมายเชิงสัมพันธ์ (ความหมายของแต่ละประโยค)
- การแยกความสัมพันธ์
- ระบุข้อความจำนวนหนึ่งระบุความสัมพันธ์ระหว่างหน่วยงานที่ระบุชื่อ (เช่นใครแต่งงานกับใคร)
- การแยกวิเคราะห์ความหมาย
- ให้ข้อความชิ้นหนึ่ง (โดยทั่วไปคือประโยค) สร้างการแสดงความหมายอย่างเป็นทางการไม่ว่าจะเป็นกราฟ (เช่นในการ แยกวิเคราะห์ AMR ) หรือตามรูปแบบเชิงตรรกะ (เช่นในการ แยกวิเคราะห์ DRT ) โดยทั่วไปแล้วความท้าทายนี้จะรวมถึงแง่มุมของงาน NLP พื้นฐานอื่น ๆ จากความหมาย (เช่นการติดฉลากบทบาทเชิงความหมายการลดทอนความรู้สึกของคำ) และสามารถขยายได้เพื่อรวมถึงการวิเคราะห์วาทกรรมแบบเต็มรูปแบบ (เช่นการวิเคราะห์วาทกรรมการกำหนดแกนกลางดู ความเข้าใจภาษาธรรมชาติด้านล่าง)
- การติดฉลากบทบาทเชิงความหมาย (ดูการติดฉลากบทบาทเชิงความหมายโดยนัยด้านล่าง)
- กำหนดประโยคเดียวระบุและแยกความหมายของเพรดิเคตเชิงความหมาย (เช่นกรอบคำพูด ) จากนั้นระบุและจัดประเภทองค์ประกอบของเฟรม ( บทบาทเชิงความหมาย )
วาทกรรม (ความหมายนอกเหนือจากแต่ละประโยค)
- ความละเอียดของ Coreference
- กำหนดประโยคหรือข้อความที่ใหญ่กว่าให้กำหนดว่าคำใด ("กล่าวถึง") อ้างถึงวัตถุเดียวกัน ("เอนทิตี") ความละเอียด Anaphoraเป็นตัวอย่างเฉพาะของงานนี้และเกี่ยวข้องกับการจับคู่ สรรพนามกับคำนามหรือชื่อที่พวกเขาอ้างถึง งานทั่วไปมากขึ้นของความละเอียด coreference นอกจากนี้ยังมีการระบุที่เรียกว่า "ความสัมพันธ์เชื่อมโยง" ที่เกี่ยวข้องกับ สำนวนที่หมาย ตัวอย่างเช่นในประโยคเช่น "เขาเข้าไปในบ้านของจอห์นทางประตูหน้า" "ประตูหน้า" เป็นสำนวนที่อ้างถึงและความสัมพันธ์เชื่อมโยงที่จะระบุคือความจริงที่ว่าประตูที่อ้างถึงคือประตูหน้าของจอห์น บ้าน (แทนที่จะเป็นโครงสร้างอื่น ๆ ที่อาจอ้างถึง)
- การวิเคราะห์วาทกรรม
- เกณฑ์นี้ประกอบด้วยงานที่เกี่ยวข้องหลายอย่าง งานหนึ่งคือการแยกวิเคราะห์วาทกรรมกล่าวคือการระบุ โครงสร้างวาทกรรมของข้อความที่เกี่ยวโยงกันกล่าวคือลักษณะของความสัมพันธ์ของวาทกรรมระหว่างประโยค (เช่นการอธิบายรายละเอียดการอธิบายความเปรียบต่าง) งานที่เป็นไปได้อีกอย่างหนึ่งคือการจดจำและจัดประเภทของการ พูดเป็นกลุ่มข้อความ (เช่นคำถามใช่ไม่ใช่คำถามเกี่ยวกับเนื้อหาคำสั่งการยืนยัน ฯลฯ )
- การติดฉลากบทบาทเชิงความหมายโดยนัย
- ให้ประโยคเดียวระบุและแยกความหมายของเพรดิเคตเชิงความหมาย (เช่นกรอบคำพูด ) และบทบาททางความหมายที่ชัดเจนในประโยคปัจจุบัน (ดู การติดฉลากบทบาทเชิงความหมายด้านบน) จากนั้นระบุบทบาทเชิงความหมายที่ไม่ได้รับรู้อย่างชัดเจนในประโยคปัจจุบันจัดประเภทเป็นอาร์กิวเมนต์ที่รับรู้อย่างชัดเจนจากที่อื่นในข้อความและที่ไม่ได้ระบุและแก้ไขอดีตกับข้อความท้องถิ่น งานที่เกี่ยวข้องอย่างใกล้ชิดคือการแก้ปัญหา anaphora เป็นศูนย์กล่าวคือการขยายความละเอียดคอร์เฟอเรนซ์ไปยัง ภาษาโปรดรอป
- การรับรู้การส่งมอบข้อความ
- กำหนดส่วนข้อความสองส่วนให้พิจารณาว่าส่วนที่เป็นจริงส่งผลต่ออีกส่วนหนึ่งนำไปสู่การปฏิเสธของอีกฝ่ายหนึ่งหรืออนุญาตให้อีกส่วนหนึ่งเป็นจริงหรือเท็จ [23]
- การแบ่งส่วนหัวข้อและการรับรู้
- ระบุกลุ่มข้อความแยกเป็นส่วน ๆ ซึ่งแต่ละส่วนอุทิศให้กับหัวข้อและระบุหัวข้อของกลุ่มนั้น
- การขุดอาร์กิวเมนต์
- เป้าหมายของการขุดอาร์กิวเมนต์คือการแยกและระบุโครงสร้างอาร์กิวเมนต์โดยอัตโนมัติจาก ข้อความภาษาธรรมชาติด้วยความช่วยเหลือของโปรแกรมคอมพิวเตอร์ [24]โครงสร้างการโต้แย้งดังกล่าวรวมถึงหลักฐานข้อสรุป รูปแบบการโต้แย้งและความสัมพันธ์ระหว่างอาร์กิวเมนต์หลักและย่อยหรือการโต้แย้งหลักและการโต้แย้งในวาทกรรม [25] [26]
แอปพลิเคชัน NLP ระดับสูงขึ้น
- การสรุปอัตโนมัติ (การสรุปข้อความ)
- จัดทำสรุปข้อความที่อ่านได้ มักใช้เพื่อสรุปเนื้อหาประเภทที่รู้จักเช่นเอกสารการวิจัยบทความในส่วนการเงินของหนังสือพิมพ์
- การสร้างหนังสือ
- ไม่ใช่งาน NLP ที่เหมาะสม แต่เป็นส่วนเสริมของการสร้างภาษาธรรมชาติและงาน NLP อื่น ๆ คือการสร้างหนังสือที่มีคุณสมบัติครบถ้วน หนังสือที่สร้างด้วยเครื่องจักรเล่มแรกถูกสร้างขึ้นโดยระบบที่ใช้กฎในปี 1984 (Racter เคราของตำรวจถูกสร้างขึ้นครึ่งหนึ่ง ) [27]ผลงานตีพิมพ์ครั้งแรกโดยเครือข่ายประสาทเทียมได้รับการตีพิมพ์ในปี 2018 1 the Roadซึ่งวางตลาดเป็นนวนิยายมีคำหกสิบล้านคำ ทั้งสองระบบเหล่านี้มีพื้นซับซ้อน แต่ไม่ใช่ sensical (ความหมายฟรี) รุ่นภาษา หนังสือวิทยาศาสตร์ที่สร้างด้วยเครื่องจักรเล่มแรกได้รับการตีพิมพ์ในปี 2019 (Beta Writer, แบตเตอรี่ลิเธียมไอออน , สปริงเกอร์, จาม) [28]แตกต่างจาก Racterและ 1 the Roadสิ่งนี้มีพื้นฐานมาจากความรู้ที่เป็นข้อเท็จจริงและอิงจากการสรุปข้อความ
- การจัดการการสนทนา
- ระบบคอมพิวเตอร์มีไว้เพื่อสนทนากับมนุษย์
- เอกสาร AI
- แพลตฟอร์ม Document AI อยู่ด้านบนของเทคโนโลยี NLP ทำให้ผู้ใช้ที่ไม่มีประสบการณ์ด้านปัญญาประดิษฐ์แมชชีนเลิร์นนิงหรือ NLP มาก่อนสามารถฝึกคอมพิวเตอร์เพื่อดึงข้อมูลเฉพาะที่ต้องการจากเอกสารประเภทต่างๆได้อย่างรวดเร็ว Document AI ที่ขับเคลื่อนด้วย NLP ช่วยให้ทีมที่ไม่ใช่ฝ่ายเทคนิคสามารถเข้าถึงข้อมูลที่ซ่อนอยู่ในเอกสารได้อย่างรวดเร็วตัวอย่างเช่นทนายความนักวิเคราะห์ธุรกิจและนักบัญชี [29]
- การแก้ไขข้อผิดพลาดทางไวยากรณ์
- การตรวจจับและแก้ไขข้อผิดพลาดทางไวยากรณ์เกี่ยวข้องกับความกว้างวงกว้างของปัญหาในทุกระดับของการวิเคราะห์ทางภาษา (สัทศาสตร์ / อักขรวิธีสัณฐานวิทยาวากยสัมพันธ์ความหมายเชิงปฏิบัติ) การแก้ไขข้อผิดพลาดทางไวยากรณ์มีผลกระทบเนื่องจากมีผลกระทบต่อผู้คนหลายร้อยล้านคนที่ใช้หรือได้รับภาษาอังกฤษเป็นภาษาที่สอง ดังนั้นจึงต้องมีงานที่ใช้ร่วมกันหลายอย่างตั้งแต่ปี 2011 [30] [31] [32]เท่าที่การสะกดการันต์สัณฐานวิทยาวากยสัมพันธ์และแง่มุมบางประการของความหมายมีความเกี่ยวข้องและเนื่องจากการพัฒนาแบบจำลองภาษาประสาทที่มีประสิทธิภาพเช่น ในฐานะ GPT-2ตอนนี้ (2019) ถือได้ว่าเป็นปัญหาที่แก้ไขได้ส่วนใหญ่และกำลังวางตลาดในแอพพลิเคชั่นเชิงพาณิชย์ต่างๆ [33]
- การแปลด้วยเครื่อง
- แปลข้อความจากภาษามนุษย์หนึ่งไปเป็นอีกภาษาหนึ่งโดยอัตโนมัติ นี่เป็นหนึ่งในปัญหาที่ยากที่สุดและเป็นส่วนหนึ่งของปัญหาที่เรียกกันติดปากว่า " AI-complete " กล่าวคือต้องการความรู้ประเภทต่างๆทั้งหมดที่มนุษย์มีอยู่ (ไวยากรณ์ความหมายข้อเท็จจริงเกี่ยวกับโลกแห่งความเป็นจริง ฯลฯ .) เพื่อแก้ปัญหาอย่างถูกต้อง
- การสร้างภาษาธรรมชาติ (NLG):
- แปลงข้อมูลจากฐานข้อมูลคอมพิวเตอร์หรือเจตจำนงเชิงความหมายเป็นภาษามนุษย์ที่อ่านได้
- ความเข้าใจภาษาธรรมชาติ (NLU)
- แปลงส่วนของข้อความให้เป็นการแสดงที่เป็นทางการมากขึ้นเช่น โครงสร้างลอจิกลำดับที่หนึ่งซึ่งง่ายกว่าสำหรับ โปรแกรมคอมพิวเตอร์ในการจัดการ ความเข้าใจภาษาธรรมชาติเกี่ยวข้องกับการระบุความหมายที่ตั้งใจไว้จากความหมายหลาย ๆ อย่างที่เป็นไปได้ซึ่งได้มาจากการแสดงออกทางภาษาที่เป็นธรรมชาติซึ่งโดยปกติจะอยู่ในรูปของสัญกรณ์ที่จัดระเบียบของแนวคิดภาษาธรรมชาติ การแนะนำและการสร้างรูปแบบภาษาและภววิทยาเป็นวิธีแก้ปัญหาเชิงประจักษ์ที่มีประสิทธิภาพ การทำให้เป็นทางการอย่างชัดเจนของความหมายภาษาธรรมชาติโดยไม่ต้องสับสนกับสมมติฐานโดยปริยายเช่นสมมติฐาน แบบโลกปิด (CWA) เทียบกับ สมมติฐานแบบโลกเปิดหรืออัตนัยใช่ / ไม่ใช่เทียบกับวัตถุประสงค์จริง / เท็จคาดว่าสำหรับการสร้างพื้นฐานของการจัดรูปแบบความหมาย . [34]
- การตอบคำถาม
- กำหนดคำถามภาษามนุษย์ให้กำหนดคำตอบ คำถามทั่วไปจะมีคำตอบที่เฉพาะเจาะจง (เช่น "เมืองหลวงของแคนาดาคืออะไร") แต่บางครั้งก็มีการพิจารณาคำถามปลายเปิดด้วยเช่นกัน (เช่น "ความหมายของชีวิตคืออะไร")
แนวโน้มทั่วไปและ (เป็นไปได้) ทิศทางในอนาคต
จากแนวโน้มที่มีมายาวนานในสาขานี้จึงสามารถคาดการณ์ทิศทางในอนาคตของ NLP ได้ ในปี 2020 แนวโน้มสามประการในหัวข้อของงาน CoNLL ที่ใช้ร่วมกันมายาวนานสามารถสังเกตได้: [35]
- ความสนใจในแง่มุมที่เป็นนามธรรมมากขึ้น "ความรู้ความเข้าใจ" ของภาษาธรรมชาติ (2542-2544: การแยกวิเคราะห์แบบตื้น, 2545-03: การรับรู้เอนทิตีที่มีชื่อ, 2006-09 / 2017-18: ไวยากรณ์การพึ่งพา, 2004-05 / 2008-09 การแสดงบทบาทเชิงความหมาย, การประชุมแกนกลาง 2011-12, 2015-16: การแยกวิเคราะห์วาทกรรม, 2019: การแยกวิเคราะห์เชิงความหมาย)
- เพิ่มความสนใจในหลายภาษาและอาจมีหลายรูปแบบ (อังกฤษตั้งแต่ปี 2542 สเปนดัตช์ตั้งแต่ปี 2545 เยอรมันตั้งแต่ปี 2546 บัลแกเรียเดนมาร์กญี่ปุ่นโปรตุเกสสโลวีเนียสวีเดนตุรกีตั้งแต่ปี 2549 บาสก์คาตาลันจีนกรีกฮังการี , อิตาลี, ตุรกีตั้งแต่ปี 2550; เช็กตั้งแต่ปี 2009 ภาษาอาหรับตั้งแต่ปี 2012; 2017: 40+ ภาษา 2018: 60 + / 100 + ภาษา)
- การกำจัดการแสดงสัญลักษณ์ (ตามกฎเหนือการดูแลไปสู่วิธีการดูแลที่อ่อนแอการเรียนรู้การเป็นตัวแทนและระบบ end-to-end)
ความรู้ความเข้าใจและ NLP
แอปพลิเคชัน NLP ระดับสูงขึ้นไปส่วนใหญ่เกี่ยวข้องกับลักษณะที่เลียนแบบพฤติกรรมที่ชาญฉลาดและความเข้าใจภาษาธรรมชาติที่ชัดเจน การพูดในวงกว้างมากขึ้นการดำเนินงานทางเทคนิคของแง่มุมที่ก้าวหน้ามากขึ้นของพฤติกรรมการรับรู้แสดงถึงวิถีการพัฒนาอย่างหนึ่งของ NLP (ดูแนวโน้มของงานที่ใช้ร่วมกันของ CoNLL ด้านบน)
ความรู้ความเข้าใจหมายถึง "การกระทำทางจิตหรือกระบวนการแสวงหาความรู้และความเข้าใจผ่านความคิดประสบการณ์และความรู้สึก" [36] วิทยาศาสตร์ทางปัญญาคือสหวิทยาการการศึกษาทางวิทยาศาสตร์เกี่ยวกับจิตใจและกระบวนการของมัน [37] ภาษาศาสตร์องค์ความรู้เป็นสาขาภาษาศาสตร์แบบสหวิทยาการซึ่งรวมความรู้และการวิจัยจากทั้งจิตวิทยาและภาษาศาสตร์ [38]โดยเฉพาะอย่างยิ่งในช่วงยุคของNLP เชิงสัญลักษณ์พื้นที่ของภาษาศาสตร์เชิงคำนวณยังคงมีความสัมพันธ์อย่างแน่นแฟ้นกับการศึกษาเกี่ยวกับความรู้ความเข้าใจ
ตัวอย่างเช่นจอร์จเลคมีวิธีการที่จะสร้างการประมวลผลภาษาธรรมชาติ (NLP) ขั้นตอนวิธีการผ่านมุมมองของวิทยาศาสตร์พุทธิปัญญาพร้อมกับผลการวิจัยของภูมิปัญญาภาษาศาสตร์ , [39]มีสองกำหนดด้าน:
- ใช้ทฤษฎีอุปมาเชิงความคิดซึ่งอธิบายโดย Lakoff ว่า“ ความเข้าใจในความคิดหนึ่งในแง่ของอีกความคิดหนึ่ง” ซึ่งให้แนวคิดเกี่ยวกับเจตนาของผู้เขียน [40]ตัวอย่างเช่นพิจารณาภาษาอังกฤษคำว่า“บิ๊ก” เมื่อใช้ในการเปรียบเทียบ ( “ นั่นคือต้นไม้ใหญ่” ) ผู้เขียนมีเจตนาที่จะบอกเป็นนัยว่าต้นไม้นั้นมีขนาด“ ใหญ่ทางร่างกาย”เมื่อเทียบกับต้นไม้อื่น ๆ หรือที่ผู้เขียนได้สัมผัส เมื่อนำมาใช้เปรียบเทียบ ( “พรุ่งนี้เป็นวันที่ยิ่งใหญ่” ), ผู้เขียนเป็นความตั้งใจที่จะบ่งบอกถึง“ความสำคัญ” เจตนาที่อยู่เบื้องหลังการใช้งานอื่น ๆ เช่นใน"เธอเป็นคนตัวใหญ่"จะค่อนข้างคลุมเครือสำหรับบุคคลและอัลกอริธึม NLP เกี่ยวกับความรู้ความเข้าใจเหมือนกันโดยไม่มีข้อมูลเพิ่มเติม
- กำหนดหน่วยวัดความหมายสัมพัทธ์ให้กับคำวลีประโยคหรือชิ้นส่วนของข้อความตามข้อมูลที่นำเสนอก่อนและหลังชิ้นส่วนของข้อความที่กำลังวิเคราะห์เช่นโดยใช้ไวยากรณ์ที่ไม่มีบริบทที่น่าจะเป็น(PCFG) สมการทางคณิตศาสตร์สำหรับอัลกอริทึมดังกล่าวถูกนำเสนอในสิทธิบัตรของสหรัฐอเมริกา 9269353:
- ที่ไหน
- RMMคือการวัดความหมายสัมพัทธ์
- โทเค็นคือส่วนของข้อความประโยควลีหรือคำใด ๆ
- Nคือจำนวนโทเค็นที่กำลังวิเคราะห์
- PMMคือการวัดความหมายที่น่าจะเป็นไปได้ตามองค์กร
- dคือตำแหน่งของโทเค็นตามลำดับของ โทเค็น N-1
- PFเป็นฟังก์ชันความน่าจะเป็นที่เฉพาะเจาะจงสำหรับภาษา
- ที่ไหน
ความสัมพันธ์กับภาษาศาสตร์องค์ความรู้เป็นส่วนหนึ่งของมรดกทางประวัติศาสตร์ของ NLP แต่ได้รับการกล่าวถึงน้อยลงนับตั้งแต่มีการเปลี่ยนแปลงทางสถิติในช่วงทศวรรษที่ 1990 อย่างไรก็ตามแนวทางในการพัฒนาแบบจำลองความรู้ความเข้าใจไปสู่กรอบการปฏิบัติงานทางเทคนิคได้ดำเนินการตามบริบทของกรอบต่างๆเช่นไวยากรณ์เกี่ยวกับความรู้ความเข้าใจ[41]ไวยากรณ์เชิงหน้าที่[42]ไวยากรณ์การก่อสร้าง[43]จิตวิทยาเชิงคำนวณและประสาทวิทยาทางปัญญา (เช่นACT-R ) อย่างไรก็ตามมีการรับรู้อย่าง จำกัด ใน NLP กระแสหลัก (ซึ่งวัดจากการปรากฏตัวในการประชุมใหญ่[44]ของACL ) เมื่อไม่นานมานี้แนวคิดของ NLP เกี่ยวกับความรู้ความเข้าใจได้รับการฟื้นฟูขึ้นใหม่เพื่อให้บรรลุความสามารถในการอธิบายเช่นภายใต้แนวคิดของ "cognitive AI" [45] ในทำนองเดียวกันแนวความคิดของ NLP เกี่ยวกับความรู้ความเข้าใจนั้นมีอยู่ในแบบจำลองของระบบประสาทแบบหลายรูปแบบ NLP (แม้ว่าจะไม่ค่อยมีความชัดเจนก็ตาม) [46]
ดูสิ่งนี้ด้วย
- 1 ถนน
- การให้คะแนนเรียงความอัตโนมัติ
- การขุดข้อความทางชีวการแพทย์
- การประมวลผลคำประสม
- ภาษาศาสตร์เชิงคำนวณ
- การตรวจสอบโดยใช้คอมพิวเตอร์ช่วย
- ภาษาธรรมชาติที่ควบคุมได้
- การเรียนรู้เชิงลึก
- การประมวลผลทางภาษาอย่างลึกซึ้ง
- ความหมายการกระจาย
- เครื่องช่วยอ่านภาษาต่างประเทศ
- เครื่องช่วยเขียนภาษาต่างประเทศ
- การสกัดข้อมูล
- การดึงข้อมูล
- เทคโนโลยีภาษาและการสื่อสาร
- เทคโนโลยีภาษา
- การสร้างดัชนีความหมายแฝง
- การระบุภาษาแม่
- การเขียนโปรแกรมภาษาธรรมชาติ
- การค้นหาภาษาธรรมชาติ
- โครงร่างของการประมวลผลภาษาธรรมชาติ
- การขยายการค้นหา
- ความเข้าใจในการสืบค้น
- Reification (ภาษาศาสตร์)
- การประมวลผลเสียง
- ระบบสนทนาพูด
- การพิสูจน์อักษร
- การทำให้ข้อความเข้าใจง่าย
- Transformer (แบบจำลองการเรียนรู้ของเครื่อง)
- Truecasing
- การตอบคำถาม
- Word2vec
อ้างอิง
- ^ คงทอน, อลิสา; แสงเกียรติตระการ, ชัชวาล; คงอยู่, สราวุ ธ ; หฤทัยศักดิ์ชูชาติ (27–30 ตุลาคม 2552). การดำเนินการช่วยเหลือระบบแผนกออนไลน์ขึ้นอยู่กับตัวแทนการสนทนา MEDES '09: การประชุมระหว่างประเทศว่าด้วยการจัดการระบบนิเวศดิจิทัลที่เกิดขึ้นใหม่ ฝรั่งเศส: ACM ดอย : 10.1145 / 1643823.1643908 .
- ^ ฮัทชินส์, J. (2005). "ประวัติความเป็นมาของเครื่องแปลภาษาสั้น" (PDF)[ แหล่งที่เผยแพร่ด้วยตนเอง ]
- ^ Koskenniemi, Kimmo (1983), สัณฐานวิทยาสองระดับ: แบบจำลองการคำนวณทั่วไปของการจดจำรูปแบบคำและการผลิต (PDF) , ภาควิชาภาษาศาสตร์ทั่วไป, มหาวิทยาลัยเฮลซิงกิ
- ^ Joshi, AK, และไวน์สไตน์เอส (1981, สิงหาคม) การควบคุมของการอนุมาน: บทบาทของบางแง่มุมของวาทกรรมโครงสร้างอยู่ตรงกลาง ใน IJCAI (หน้า 385-387)
- ^ กีด้า, G.; Mauri, G. (กรกฎาคม 2529). "การประเมินระบบประมวลผลภาษาธรรมชาติ: ประเด็นและแนวทาง". การดำเนินการของ IEEE 74 (7): 1026–1035 ดอย : 10.1109 / PROC.1986.13580 . ISSN 1558-2256 S2CID 30688575
- ^ Chomskyan linguistics สนับสนุนการตรวจสอบ "กรณีมุม " ที่เน้นขีด จำกัด ของแบบจำลองทางทฤษฎี (เทียบได้กับปรากฏการณ์ทางพยาธิวิทยาในคณิตศาสตร์) โดยทั่วไปสร้างขึ้นโดยใช้การทดลองทางความคิดมากกว่าการตรวจสอบอย่างเป็นระบบของปรากฏการณ์ทั่วไปที่เกิดขึ้นในข้อมูลในโลกแห่งความเป็นจริง เป็นกรณีในภาษาศาสตร์คลัง การสร้างและการใช้เช่นคลังข้อมูลจริงของโลกเป็นส่วนพื้นฐานของขั้นตอนวิธีการเรียนรู้เครื่องสำหรับการประมวลผลภาษาธรรมชาติ นอกจากนี้พื้นฐานทางทฤษฎีของภาษาศาสตร์ Chomskyan เช่นข้อโต้แย้งที่เรียกว่า "ความยากจนของสิ่งเร้า " ทำให้อัลกอริทึมการเรียนรู้ทั่วไปตามที่ใช้โดยทั่วไปในการเรียนรู้ของเครื่องไม่สามารถประสบความสำเร็จในการประมวลผลภาษาได้ เป็นผลให้กระบวนทัศน์ Chomskyan ไม่สนับสนุนการประยุกต์ใช้แบบจำลองดังกล่าวกับการประมวลผลภาษา
- ^ โกลด์เบิร์ก, Yoav (2016). "พื้นฐานเกี่ยวกับแบบจำลองโครงข่ายประสาทเทียมสำหรับการประมวลผลภาษาธรรมชาติ" วารสารวิจัยปัญญาประดิษฐ์ . 57 : 345–420 arXiv : 1807.10854 ดอย : 10.1613 / jair.4992 . S2CID 8273530
- ^ Goodfellow เอียน; เบงจิโอ, โยชัว; Courville, Aaron (2016). การเรียนรู้ลึก MIT Press.
- ^ โจเซฟาวิช, ราฟาล; Vinyals, โอริออล; ชูสเตอร์ไมค์; Shazeer, Noam; หวู่ยงฮุย (2016). สำรวจขอบเขตของภาษาสร้างแบบจำลอง arXiv : 1602.02410 รหัสไปรษณีย์ : 2016arXiv160202410J .
- ^ โช, ดูกุ๊ก; Charniak, ยูจีน "แยกวิเคราะห์เป็นการสร้างแบบจำลองภาษา" . เอ็มเอ็นแอลป์ 2559 .
- ^ Vinyals, โอริออล; และคณะ (2557). "ไวยากรณ์เป็นภาษาต่างประเทศ" (PDF) Nips2015 . arXiv : 1412.7449 รหัส : 2014arXiv1412.7449V .
- ^ เทอร์ชินอเล็กซานเดอร์; Florez Builes, Luisa F. (2021-03-19). "การใช้การประมวลผลภาษาธรรมชาติในการวัดและปรับปรุงคุณภาพของการดูแลผู้ป่วยโรคเบาหวาน: ทบทวนอย่างเป็นระบบ" วารสารวิทยาศาสตร์และเทคโนโลยีโรคเบาหวาน . 15 (3): 553–560 ดอย : 10.1177 / 19322968211000831 . ISSN 1932-2968 PMID 33736486
- ^ วิโนกราดเทอร์รี่ (2514) ขั้นตอนการเป็นตัวแทนข้อมูลในโปรแกรมคอมพิวเตอร์เพื่อความเข้าใจภาษาธรรมชาติ (วิทยานิพนธ์)
- ^ แชงค์โรเจอร์ซี; Abelson, Robert P. (1977). สคริป, แผนเป้าหมายและความเข้าใจ: โครงสร้างสอบสวนความรู้ของมนุษย์ Hillsdale: Erlbaum ISBN 0-470-99033-3.
- ^ มาร์คจอห์นสัน การปฏิวัติทางสถิติเปลี่ยนแปลงภาษาศาสตร์ (เชิงคำนวณ) อย่างไร การดำเนินการของการประชุมเชิงปฏิบัติการ EACL 2009 เรื่องปฏิสัมพันธ์ระหว่างภาษาศาสตร์และภาษาศาสตร์เชิงคำนวณ
- ^ ฟิลิปเรสนิก การปฏิวัติสี่ครั้ง บันทึกภาษา 5 กุมภาพันธ์ 2554
- ^ โซเชอร์ริชาร์ด "การเรียนรู้ลึกสำหรับ NLP-ACL 2012 การสอน" www.socher.org . สืบค้นเมื่อ2020-08-17 .นี่เป็นบทช่วยสอน Deep Learning ในช่วงต้นของ ACL 2012 และได้พบกับทั้งความสนใจและความสงสัยของผู้เข้าร่วมส่วนใหญ่ (ในเวลานั้น) ก่อนหน้านั้นการเรียนรู้ระบบประสาทโดยทั่วไปถูกปฏิเสธเนื่องจากขาดความสามารถในการตีความทางสถิติ จนถึงปี 2015 การเรียนรู้เชิงลึกได้พัฒนาไปสู่กรอบหลักของ NLP
- ^ อัญนามอเรียด, I. (2020). ฌ็อง: การใช้ประโยค bert ฝังสำหรับการตรวจสอบอารมณ์ขัน arXiv preprint arXiv: 2004.12765
- ^ ยี่, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-based Document Analysis and Recognition , Springer Berlin Heidelberg, pp. 15–28, CiteSeerX 10.1.1.668.869 , doi : 10.1007 / 978- 3-642-29364-1_2 , ISBN 9783642293634
- ^ "การประมวลผลภาษาธรรมชาติแนะนำ NLP ในเครื่องการเรียนรู้คืออะไร" GyanSetu! . 2020-12-06 . สืบค้นเมื่อ2021-01-09 .
- ^ กิจอรจิตรน.; วิดยาราชอาร์เค; Nirmal, Y.; ศิวะจี, บี. (2555). "การระบุหน่วยมณี" (PDF) การดำเนินการของการประชุมเชิงปฏิบัติการครั้งที่ 3 ภาคใต้และเอเชียตะวันออกเฉียงใต้ประมวลผลภาษาธรรมชาติ (SANLP) COLING 2012, Mumbai, ธันวาคม 2555: 95–108CS1 maint: ตำแหน่ง ( ลิงค์ )
- ^ ไคลน์, แดน; แมนนิ่ง, คริสโตเฟอร์ดี. (2002). "การเหนี่ยวนำไวยากรณ์ภาษาธรรมชาติโดยใช้แบบจำลองส่วนประกอบบริบท" (PDF) ความก้าวหน้าในประสาทระบบข้อมูลการประมวลผล
- ^ PASCAL ยอมรับความท้าทายในการป้อนข้อความ (RTE-7) https://tac.nist.gov//2011/RTE/
- ^ ลิปปี้, มาร์โก; ตอโรนี, เปาโล (2016-04-20). "Argumentation Mining: State of the Art and Emerging Trends" . ธุรกรรม ACM เกี่ยวกับเทคโนโลยีอินเทอร์เน็ต 16 (2): 1–25. ดอย : 10.1145 / 2850417 . ISSN 1533-5399 S2CID 9561587
- ^ "อาร์กิวเมนต์เหมืองแร่ - IJCAI2016 การสอน" www.i3s.unice.fr . สืบค้นเมื่อ2021-03-09 .
- ^ "NLP แนวทางการคำนวณการโต้แย้ง - ACL 2016 เบอร์ลิน" สืบค้นเมื่อ2021-03-09 .
- ^ “ ยูบูเวบ :: Racter” . www.ubu.com . สืบค้นเมื่อ2020-08-17 .
- ^ Writer รุ่นเบต้า (2019) แบตเตอรี่ลิเธียมไอออน ดอย : 10.1007 / 978-3-030-16800-1 . ISBN 978-3-030-16799-8.
- ^ "เอกสารการทำความเข้าใจ AI บน Google เมฆ (Cloud ถัดไป '19) - YouTube" www.youtube.com . สืบค้นเมื่อ2021-01-11 .
- ^ ธุรการ. “ ศูนย์เทคโนโลยีภาษา (CLT)” . มหาวิทยาลัย สืบค้นเมื่อ2021-01-11 .
- ^ "แชร์งาน: ไวยากรณ์แก้ไขข้อผิดพลาด" www.comp.nus.edu.sg สืบค้นเมื่อ2021-01-11 .
- ^ "แชร์งาน: ไวยากรณ์แก้ไขข้อผิดพลาด" www.comp.nus.edu.sg สืบค้นเมื่อ2021-01-11 .
- ^ "เกี่ยวกับเรา | ไวยากรณ์" . www.grammarly.com . สืบค้นเมื่อ2021-01-11 .
- ^ ด้วน, ยู่จง; ครูซ, Christophe (2011). "การกำหนดความหมายของภาษาธรรมชาติอย่างเป็นทางการผ่านการกำหนดแนวคิดจากการดำรงอยู่" . วารสารนานาชาตินวัตกรรมการจัดการและเทคโนโลยี . 2 (1): 37–42. สืบค้นจากต้นฉบับเมื่อ 2011-10-09.
- ^ "งานที่ใช้ร่วมกันก่อนหน้า | CoNLL" www.conll.org . สืบค้นเมื่อ2021-01-11 .
- ^ "ความรู้ความเข้าใจ" . Lexico . มหาวิทยาลัย Oxford กดและDictionary.com สืบค้นเมื่อ6 พฤษภาคม 2563 .
- ^ "ถามนักวิทยาศาสตร์ด้านความรู้ความเข้าใจ" . อเมริกันสมาพันธ์ครู 8 สิงหาคม 2557
วิทยาการทางปัญญาเป็นสาขาสหวิทยาการของนักวิจัยจากภาษาศาสตร์จิตวิทยาประสาทวิทยาศาสตร์ปรัชญาวิทยาการคอมพิวเตอร์และมานุษยวิทยาที่ต้องการทำความเข้าใจกับจิตใจ
- ^ โรบินสันปีเตอร์ (2008) คู่มือขององค์ความรู้ภาษาศาสตร์และการได้มาสองภาษา เส้นทาง หน้า 3–8 ISBN 978-0-805-85352-0.
- ^ ลาคอฟจอร์จ (2542). ปรัชญาในเนื้อหนัง: จิตใจที่เป็นตัวเป็นตนและความท้าทายต่อปรัชญาตะวันตก ภาคผนวก: ประสาททฤษฎีภาษาพาราไดม์ หนังสือพื้นฐานของนิวยอร์ก หน้า 569–583 ISBN 978-0-465-05674-3.
- ^ สเตราส์คลอเดีย (2542). ความรู้ความเข้าใจทฤษฎีความหมายทางวัฒนธรรม สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ หน้า 156–164 ISBN 978-0-521-59541-4.
- ^ "Universal Conceptual Cognitive Annotation (UCCA)" . ยูนิเวอร์แซแนวคิดหมายเหตุองค์ความรู้ (UCCA) สืบค้นเมื่อ2021-01-11 .
- ^ Rodríguezเอฟซีและ Mairal-Usónอาร์ (2016) อาคาร RRG ไวยากรณ์การคำนวณ โอโนมาซิน , (34), 86-117.
- ^ "Fluid ก่อสร้างไวยากรณ์ - มีระบบการประมวลผลการดำเนินงานอย่างเต็มที่สำหรับไวยากรณ์การก่อสร้าง" สืบค้นเมื่อ2021-01-11 .
- ^ "ACL สมาชิกพอร์ทัล | สมาคมภาษาศาสตร์สมาชิกพอร์ทัล" www.aclweb.org . สืบค้นเมื่อ2021-01-11 .
- ^ "ส่วนและกฎ" . www.w3.org . สืบค้นเมื่อ2021-01-11 .
- ^ โซเชอร์ริชาร์ด; คาร์ปาธี, อังเดรจ; เลอก๊วกวี.; แมนนิ่งคริสโตเฟอร์ดี.; อึ้ง, แอนดรูว์วาย. (2557). "Grounded Compositional ความหมายสำหรับการค้นหาและการแสดงการบรรยายด้วยประโยค" การทำธุรกรรมของสมาคมภาษาศาสตร์ 2 : 207–218 ดอย : 10.1162 / tacl_a_00177 . S2CID 2317858
อ่านเพิ่มเติม
- เบตส์, M (1995). "แบบจำลองของความเข้าใจภาษาธรรมชาติ" . การดำเนินการของสถาบันวิทยาศาสตร์แห่งชาติของสหรัฐอเมริกา 92 (22): 9977–9982 รหัสไปรษณีย์ : 1995PNAS ... 92.9977B . ดอย : 10.1073 / pnas.92.22.9977 . PMC 40721 PMID 7479812
- Steven Bird, Ewan Klein และ Edward Loper (2009) ประมวลผลภาษาธรรมชาติกับงูหลาม O'Reilly Media ไอ 978-0-596-51649-9 .
- Daniel Jurafsky และ James H. Martin (2008) Speech and Language Processing , 2nd edition. Pearson Prentice Hall ISBN 978-0-13-187321-6
- Mohamed Zakaria Kurdi (2016). การประมวลผลภาษาธรรมชาติและภาษาศาสตร์เชิงคำนวณ: คำพูดสัณฐานวิทยาและวากยสัมพันธ์เล่ม 1 ISTE-Wiley. ISBN 978-1848218482
- Mohamed Zakaria Kurdi (2017). การประมวลผลภาษาธรรมชาติและภาษาศาสตร์เชิงคำนวณ: อรรถศาสตร์วาทกรรมและการประยุกต์เล่ม 2 ISTE-Wiley. ISBN 978-1848219212
- Christopher D. Manning, Prabhakar Raghavan และ Hinrich Schütze (2008) เบื้องต้นเกี่ยวกับการดึงข้อมูล สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ ISBN 978-0-521-86571-5 มีเวอร์ชัน html และ pdf อย่างเป็นทางการโดยไม่มีค่าใช้จ่าย
- Christopher D. Manning และ Hinrich Schütze (1999) ฐานรากของสถิติประมวลผลภาษาธรรมชาติ สำนักพิมพ์ MIT ไอ 978-0-262-13360-9 .
- David MW Powers และ Christopher CR Turk (1989) เครื่องเรียนรู้ของภาษาธรรมชาติ สปริงเกอร์ - เวอร์ ISBN 978-0-387-19557-5