Daily Discussion
  • Introduction
  • [001]持續投入的領域
  • [002]階層逆襲
  • [003]轉行業的討論
  • [004]考研的建議
  • [005]貧富差距的體驗
  • [006]害怕選擇,安全感不足怎麼辦?
  • [007]一個內心強大的人是什麼樣子?
  • [008]如何克服在職場上,對上司的恐懼心理
  • [009]为什么《西游记》里的妖怪都有拖延症,迟迟不吃唐僧?
  • [010]老闆的買菸問題
  • [011]是先成家還是先立業
  • [012]金錢面前,親情真的淡薄如紙嗎?
  • [013]當你離職時,領導極力挽留,我想問此時領導一般是怎麼想的?
  • [014]遇到別人不尊重自己怎麼辦?
  • [015]北斗地圖即將5月上線,這代表著什麼?會有什麼影響?
  • [016]如何看待婚前性行為
  • [017]人該不該有仇恨心理?
  • [018]為什麼有的人總是容易生氣?
  • [019]如何有效地溝通?
  • [020]在親密關係,如何表達我在生氣,同時又不至於讓關係變疏遠
  • [021]如何判斷一個人適合成為好朋友還是戀人?
  • [022]當不被人理解時,你會堅持自我還是改變自我?
  • [023]有哪些知識或常識,你會奇怪他人居然不知道?
  • [024]为什么快手、抖音等短视频网站比知乎、豆瓣发展得要好,用户多那么多?
  • [025]你聽過管理者最暖心的一句話是什麼?
  • [026]唐僧师徒四人一马,必须辞退一个,你会辞退谁?为什么?
  • [027]中國人身上有什麼獨特的(其他國家、民族不具備)的好東西嗎?
  • [028]跟老人住在一起,老人的什么习惯是你最不能忍受的?
  • [029]跟老人住在一起,你的什么习惯是老人最不能忍受的?
  • [030]你看过哪些让人印象深刻的采访?
  • [031]你認為有哪些越早明白越好的人生道理?
  • [032]有哪些令人驚艷的紀錄片?
  • [033]手機裡最實用的APP是哪個?
  • [034]場景題:兩性相處的協商
  • [035]QQ突然大面积故障!消息发不出去,那个时候你在想...
  • [036]快樂教育與軍事化教育
  • [037]兩性議題:老少配
  • [038]快遞員問題
  • [039]社交溝通議題
  • [040]工作與生活的平衡
  • [041]情感議題
  • [042]如何系統地學習一個領域,建立起基本的認知
  • [043]為什麼害怕做簡單容易的事?
  • [044]寫手的掉粉原因
  • [045]你有没有花了很长时间才想明白一个很简单的道理的经历?
  • [046]如何面對威脅生命的疼痛或疾病經歷
  • [047]高学历女性做全职妈妈,是不是社会的资源浪费?
  • [048]为什么说“产房最能见人心”?
  • [049]污辱觀眾智商的廣告
  • [050]为什么面试官要问“你父母是做什么的”这种问题?
  • [051]支付寶付費問題
  • [052]書本知識和經驗哪一個更重要?
  • [053]领导提拔别人,却把大量工作交给自己该怎么办?
  • [054]社區附近建新工廠的利與弊
  • [055]为什么越是底層出生的人,越安於現狀?
  • [056]如何讓自己氣場變強大?
  • [057]運氣與成功有關嗎?
  • [058]大學撥給圖書館和用於學生體育活動的經費是否應等同?
  • [059]人們為什麼要參觀博物館?
  • [060]在家吃飯還是外食?
  • [061]出席課堂是必須還是可選?
  • [062]好鄰居須具備哪些特質?
  • [063]你對在社區新建一家餐館有何看法?
  • [064]自學還是從師?
  • [065]週回顧決定
  • [066]週總結
  • [067]lexisnexis academic
  • [068]LexisNexis Diligence-全球風險控制調查資料庫
  • [069]Compendex
  • [070]Web of science
  • [071]Journal citation report
  • [072]週總結-LexisNexis Academic & LexisNexis Diligence
  • [073]週總結-Compendex & Web of Science
  • [074]Ch1-Introduction of Fault Tolerant Computing
  • [075]Ch2-Modeling and Evaluation
  • [076]Ch3-Information Redundancy and Coding
  • [077]Ch4-Error detection with time redundancy
  • [078]Ch5-Control Flow Checking
  • [079]Ch6-Checkpointing and Recovery
  • [080]Ch7-Replication
  • [081]Natural Language Processing
  • [082]Vector space model
  • [083]Evaluation of TR system
  • [084]Probabilistic Model
  • [085]Feedback on Text Retrieval
  • [086]Web search
  • [087]2018年上半年總結(1)-完成工作
  • [088]2018年上半年總結(2)-原計畫做但是卻沒有做到的事
  • [089]2018年上半年總結(3)-仍存在的問題與困惑
  • [090]2018年上半年總結(5)-下半年改進方向與工作計畫
  • [091]CH1 傳播的六種話語
  • [092]CH2 詮釋與構建(1)
  • [093]CH2 詮釋與構建(2)
  • [094]CH3 理論與研究範式(1)
  • [095]CH3 理論與研究範式(2)
  • [096]CH4 大眾傳播中的宣傳與說服(1)
  • [097]CH4 大眾傳播中的宣傳與說服(2)
  • [098]CH4 大眾傳播中的宣傳與說服(3)
  • [099]CH5 從功能到效果(1)
  • [100]socket作業
Powered by GitBook
On this page
  • Text Retrieval and Search Engines (1)
  • [081]Natural Language Processing
  • 1.1 Natural Language Content Analysis
  • 1.2 Text Access
  • 1.3 Text Retrieval Problem
  • 1.4 Text Retrieval Methods
  • 1.5 Vector Space Model

Was this helpful?

[081]Natural Language Processing

2018-06-25(一)

Text Retrieval and Search Engines (1)

[081]Natural Language Processing

  • 1.1 Natural Language Content Analysis

  • 1.2 Text Access

  • 1.3 Text Retrieval Problem

  • 1.4 Text Retrieval Methods

  • 1.5 vector Space Model

1.1 Natural Language Content Analysis

  • 在大量的text data中,第一步就是要了解 "Natural Language Processing"的原理機制,在NLP的例子中,作者用一句話A dog is chasing a boy on the playground.,

  • 首先,把每個單詞拆解,分析詞性,看是名詞、形容詞、還是動詞,接著做syntactic analysis(語法分析),另外,也會去做semantic analysis(語義分析),前者會有speech act的分析,後者則是有infernce的推論。

  • 但是,也提到NLP會面臨的挑戰,像是"common sense" knowledge不夠多,還有很多ambiguities(歧義)的問題,舉體例子來看:word-level ambiguity(像是 design 可以是名詞與動詞); syntactic ambiguity(Preposition phrase attachment),像是"a man saw a boy with a telescope",第三個是anaphora resolution,以代名詞所造成的歧異,最後是presupposition的例子。

NLP邊界

  • 我們不可能百分之百做到POS tagging (part-of-speech tagging),另外,做到更深入的semantic analysis是有一定的難度的,所以目前的NLP是比較“淺”的階段。

NLP for text retrieval

-沿襲剛剛的NLP原理、挑戰,這邊限縮到text retreival的領域,討論從big text data到 a small set relevant data的過程。

1.2 Text Access

  • 首先,在text access介紹時,分成兩種不同的系統(push VS pull),第一是推薦系統,以系統為導向,而系統對使用者有較高的了解,像amazon的推薦系統; 第二是搜尋引擎,像是google的搜尋系統,以使用者為導向,並且較隨意。

  • 然而,pull系統,又分成querying+browsing,前者是知道key還有要找的資訊,後者只能知道大概,所以花費時間會更多,但是,在找尋我們目的地時,往往是會搭配上述兩種mode來尋找。

1.3 Text Retrieval Problem

  • 首先,在TR部分,我們要跟Database Retrieval做比較,c後者的data更加structured, 而且是well-defined semantics,再者,Answers是看有無matched, 並非只是relevant,而TR problem主要是Document selection 與 ranking的機制,制定一套“selection”的標準,一定會涉及相關的數學模型。

1.4 Text Retrieval Methods

  • 既然要做一個ranking function, 那麼就要用一個retrieval model, 目的是“formalization of relevance”,目前有BM25, Query likehood, PL2, 而BM25是最熱門的

1.5 Vector Space Model

  • 在Similarity-based models: f(q,d) = similarity(q,d)

    – Vector space model

  • 把query與doc做映射,而query又能分解為很多term(這就是bag of words的概念), 以向量形式呈現,故此能用doc1. doc2對vector做內積,求相近程度

Previous[080]Ch7-ReplicationNext[082]Vector space model

Last updated 6 years ago

Was this helpful?