query.json 1.4 KB

123456789101112131415161718192021222324252627282930313233343536373839
  1. {
  2. "crawlWorkCompleted": {
  3. "enable": true,
  4. "cron": "50 50 21 * * ?",
  5. "count": 5000.0,
  6. "###enable": "是否启用###",
  7. "###cron": "定时cron表达式.###",
  8. "###count": "每次处理的数量,默认为5000,同时每次将重爬最旧的10%以提高数据质量.###"
  9. },
  10. "crawlWork": {
  11. "enable": true,
  12. "cron": "45 45 * * * ?",
  13. "count": 1000.0,
  14. "###enable": "是否启用###",
  15. "###cron": "定时cron表达式.###",
  16. "###count": "每次处理的数量,默认为1000,同时每次将重爬最旧的25%以提高数据质量.###"
  17. },
  18. "crawlCms": {
  19. "enable": true,
  20. "cron": "55 55 8/2 * * ?",
  21. "count": 1000.0,
  22. "###enable": "是否启用###",
  23. "###cron": "定时cron表达式.###",
  24. "###count": "每次处理的数量,默认为1000,同时每次将重爬最旧的10%以提高数据质量.###"
  25. },
  26. "extractOffice": true,
  27. "extractPdf": true,
  28. "extractText": true,
  29. "extractImage": false,
  30. "tessLanguage": "chi_sim",
  31. "###crawlWorkCompleted": "已完成工作收集器设置.###",
  32. "###crawlWork": "工作收集器设置.###",
  33. "###crawlCms": "内容管理收集器设置.###",
  34. "###extractOffice": "抽取office中的文本.###",
  35. "###extractPdf": "抽取pdf中的文本.###",
  36. "###extractText": "抽取文本中的文本.###",
  37. "###extractImage": "抽取图像中的文本.###",
  38. "###tessLanguage": "tess使用语言.###"
  39. }