Daily Discussion
  • Introduction
  • [001]持續投入的領域
  • [002]階層逆襲
  • [003]轉行業的討論
  • [004]考研的建議
  • [005]貧富差距的體驗
  • [006]害怕選擇,安全感不足怎麼辦?
  • [007]一個內心強大的人是什麼樣子?
  • [008]如何克服在職場上,對上司的恐懼心理
  • [009]为什么《西游记》里的妖怪都有拖延症,迟迟不吃唐僧?
  • [010]老闆的買菸問題
  • [011]是先成家還是先立業
  • [012]金錢面前,親情真的淡薄如紙嗎?
  • [013]當你離職時,領導極力挽留,我想問此時領導一般是怎麼想的?
  • [014]遇到別人不尊重自己怎麼辦?
  • [015]北斗地圖即將5月上線,這代表著什麼?會有什麼影響?
  • [016]如何看待婚前性行為
  • [017]人該不該有仇恨心理?
  • [018]為什麼有的人總是容易生氣?
  • [019]如何有效地溝通?
  • [020]在親密關係,如何表達我在生氣,同時又不至於讓關係變疏遠
  • [021]如何判斷一個人適合成為好朋友還是戀人?
  • [022]當不被人理解時,你會堅持自我還是改變自我?
  • [023]有哪些知識或常識,你會奇怪他人居然不知道?
  • [024]为什么快手、抖音等短视频网站比知乎、豆瓣发展得要好,用户多那么多?
  • [025]你聽過管理者最暖心的一句話是什麼?
  • [026]唐僧师徒四人一马,必须辞退一个,你会辞退谁?为什么?
  • [027]中國人身上有什麼獨特的(其他國家、民族不具備)的好東西嗎?
  • [028]跟老人住在一起,老人的什么习惯是你最不能忍受的?
  • [029]跟老人住在一起,你的什么习惯是老人最不能忍受的?
  • [030]你看过哪些让人印象深刻的采访?
  • [031]你認為有哪些越早明白越好的人生道理?
  • [032]有哪些令人驚艷的紀錄片?
  • [033]手機裡最實用的APP是哪個?
  • [034]場景題:兩性相處的協商
  • [035]QQ突然大面积故障!消息发不出去,那个时候你在想...
  • [036]快樂教育與軍事化教育
  • [037]兩性議題:老少配
  • [038]快遞員問題
  • [039]社交溝通議題
  • [040]工作與生活的平衡
  • [041]情感議題
  • [042]如何系統地學習一個領域,建立起基本的認知
  • [043]為什麼害怕做簡單容易的事?
  • [044]寫手的掉粉原因
  • [045]你有没有花了很长时间才想明白一个很简单的道理的经历?
  • [046]如何面對威脅生命的疼痛或疾病經歷
  • [047]高学历女性做全职妈妈,是不是社会的资源浪费?
  • [048]为什么说“产房最能见人心”?
  • [049]污辱觀眾智商的廣告
  • [050]为什么面试官要问“你父母是做什么的”这种问题?
  • [051]支付寶付費問題
  • [052]書本知識和經驗哪一個更重要?
  • [053]领导提拔别人,却把大量工作交给自己该怎么办?
  • [054]社區附近建新工廠的利與弊
  • [055]为什么越是底層出生的人,越安於現狀?
  • [056]如何讓自己氣場變強大?
  • [057]運氣與成功有關嗎?
  • [058]大學撥給圖書館和用於學生體育活動的經費是否應等同?
  • [059]人們為什麼要參觀博物館?
  • [060]在家吃飯還是外食?
  • [061]出席課堂是必須還是可選?
  • [062]好鄰居須具備哪些特質?
  • [063]你對在社區新建一家餐館有何看法?
  • [064]自學還是從師?
  • [065]週回顧決定
  • [066]週總結
  • [067]lexisnexis academic
  • [068]LexisNexis Diligence-全球風險控制調查資料庫
  • [069]Compendex
  • [070]Web of science
  • [071]Journal citation report
  • [072]週總結-LexisNexis Academic & LexisNexis Diligence
  • [073]週總結-Compendex & Web of Science
  • [074]Ch1-Introduction of Fault Tolerant Computing
  • [075]Ch2-Modeling and Evaluation
  • [076]Ch3-Information Redundancy and Coding
  • [077]Ch4-Error detection with time redundancy
  • [078]Ch5-Control Flow Checking
  • [079]Ch6-Checkpointing and Recovery
  • [080]Ch7-Replication
  • [081]Natural Language Processing
  • [082]Vector space model
  • [083]Evaluation of TR system
  • [084]Probabilistic Model
  • [085]Feedback on Text Retrieval
  • [086]Web search
  • [087]2018年上半年總結(1)-完成工作
  • [088]2018年上半年總結(2)-原計畫做但是卻沒有做到的事
  • [089]2018年上半年總結(3)-仍存在的問題與困惑
  • [090]2018年上半年總結(5)-下半年改進方向與工作計畫
  • [091]CH1 傳播的六種話語
  • [092]CH2 詮釋與構建(1)
  • [093]CH2 詮釋與構建(2)
  • [094]CH3 理論與研究範式(1)
  • [095]CH3 理論與研究範式(2)
  • [096]CH4 大眾傳播中的宣傳與說服(1)
  • [097]CH4 大眾傳播中的宣傳與說服(2)
  • [098]CH4 大眾傳播中的宣傳與說服(3)
  • [099]CH5 從功能到效果(1)
  • [100]socket作業
Powered by GitBook
On this page
  • Text Retrieval and Search Engines(5)-Feedback
  • [085]Feedback on Text Retrieval
  • 5.1 Feedback in Text Retrieval
  • 5.2 Feedback in Vector Space Model
  • 5.3 Feedback with Language Models
  • 5.4 Web Search
  • 5.5 Web Indexing
  • 5.6 Web Search:Link Analysis

Was this helpful?

[085]Feedback on Text Retrieval

2018-06-29(五)

Text Retrieval and Search Engines(5)-Feedback

[085]Feedback on Text Retrieval

  • 5.1 Feedback in Text Retrieval

  • 5.2 Feedback in Vector Space Model

  • 5.3 Feedback with Language Models

  • 5.4 Web Search

  • 5.5 Web Indexing

  • 5.6 Web Search:Link Analysis

5.1 Feedback in Text Retrieval

  • feedback有分為三種:

    • 1.Relevance Feedback:Users make explicit relevance judgments on the initial results // user不用費太多力

    • 2.Pseudo/Blind/Automatic Feedback:Top-k initial results are simply assumed to be relevant //前面K名是相關

    • 3.Implicit Feedback:User-clicked docs are assumed to be relevant; skipped ones non-relevant //user點擊

  • Pseudo feedback 不會涉及到human

5.2 Feedback in Vector Space Model

  • 在TR問題中,用到Vector Space Model, 而在feedback的計算時,也會用到VSM, 這時會用"Rocchio Feedback: Formula"

5.3 Feedback with Language Models

  • 因為Query likelihood method 沒有自然地支援feedback的相關性,所以需要相關解法,而Kullback-Leibler (KL) divergence retrieval model 正是所選

  • Query Likelihood v.s KL-divergence

    • 由 c(w,q) 轉為 p(w|θ)

  • 混合式的model: Maximum Likelihood θ=argmax logp(F|θ)

5.4 Web Search

  • Scalability(規模性):能用Parallel indexing & searching (MapReduce)

  • 機會:為了增加search accuracy, 用上Link analysis & multi-feature ranking

Basic Search Engine Technologies

  • Web 會經過 Crawler 把data存在 Cached pages

  • 接著,Cached pages 會經過 indexer 把data converted to "(Inverted) Index"

  • Crawler: 會先在一個queue做一個seed pages的集合, 然後從網上fetch pages, 接著分析這些pages, 然後附上hyperlink, 主要策略是"Breadth-First is common"

5.5 Web Indexing

  • Google在indexing 部分有三個貢獻:

    • Google File System (GFS): distributed file system

    • MapReduce: Software framework for parallel computation

    • Hadoop: Open source implementation of MapReduce

  • 值得一提是word counting:Reduce Function的機制,接著利用該機制,做"Inverted Indexing with MapReduce"

5.6 Web Search:Link Analysis

  • 做完indexing後,要對inverted index做ranking, 標準的TR model是不夠的,需要做更多的extensions

Exploiting Inter-Document Links

  • Hub:以我為中心點,指向很多地方 // Pages that cite many other pages are good hubs

  • Authority: 很多人指向我 // Pages that are widely cited are good authorities

PageRank: Capturing Page “Popularity”:

  • 類似“citation counting”的概念,但要考慮到“indirect citations”與“ Smoothing of citations”問題

  • Algorithm: 用一矩陣呈現,p(di): PageRank score of di = average probability of visiting page di

Hypertext-Induced Topic Search

  • The key idea of HITS: Good authorities are cited by good hubs

  • Link Information: 有可能用到兩種的混合PageRank&HITS

Previous[084]Probabilistic ModelNext[086]Web search

Last updated 6 years ago

Was this helpful?

可以參考

Journal Citation report