Форумы портала PHP.SU :: Версия для печати :: подсчет одинаковых слов на странице [2]

Страниц (2): « 1 [2]

16. JustUserR - 29 Декабря, 2010 - 18:03:07 - перейти к сообщению

LEONeso В качестве наиболее простого решения для предполагаемой вами задачи возможно использование следующей схемы которая однако не является оптимальным - осуществляеся разбиение предоставленной строковой константы на набор слов по ключевому разделителю такому как пробельным символ - после чего обеспечивается просмотр полученного индексного массива и очистка его элементов от дополнительных знаков пунктуации и тд - далее на основании указанного массива осуществляется просмотр его элементов и инкрементация связанных счетчиков в ассоциативном массиве

17. OrmaJever - 29 Декабря, 2010 - 18:05:49 - перейти к сообщению

LEONeso пишет:

OrmaJever, опробовал совет jewel с strip_tags() и даже с fgetss(), применял данные функции к каждой переменной, но все было провально, куда бы я их не тыкал (метод тыка, откинув здравый смысл - отчаянье? )

Когда я писал пост, я отвечал на вопрос про регулярное выражение. А что имено нужно зделать?

18. LEONeso - 29 Декабря, 2010 - 18:17:35 - перейти к сообщению

Хочу, что типа, авто заполнения ключевых слов исходя из контента страницы по частоте их повторения, но есть вероятность, что это не так просто как кажется. Однако

типа аналога как в движке DLE, где после создания новости/статической страницы движок сам проверяет (заполнено ли поле, если нет, то заполняет сам)

19. LEONeso - 02 Января, 2011 - 23:29:43 - перейти к сообщению

потыкал, вышло следующее:

PHP:
скопировать код в буфер обмена

$url='http://php.su/';
$content = file_get_contents($url);
$content = strip_tags($content); //удаляем html+php
$content = stripslashes ($content); //удаляем слеши
$content = preg_replace('/\  /s','', $content); //удаляем двойные пробелы
$content = preg_replace('/[(0-9)]/','', $content); //удаляем цифры, если необходимо
$content = preg_replace('/[^(\w)(\s)]/','', $content); //подчищаем все кроме букв (и символов, но их уже нет)
$content = strtolower($content); //преобразуем в нижний регистр
$content = trim($content); //удаляем пробелы до и после слова
 
      $pieces = explode(" ", $content);
      foreach($pieces as $val)
      $pos[$val] = @substr_count($content, $val);
 
 
      foreach($pos as $key => $cal)
      {
            if ($cal >= 3 AND strlen($key) >= 4) {
echo <<<HTML
Кол-во повторений: <b>$key</b> = $cal<br>
HTML;
            }
      }

прокоментил действия (для себя в основном)
попытался максимально зачистить выдачу, но с регулярными проблема.

Слово выводит при условии, что оно повторилось 3 и более раза, слово имеет 4 и более символов.

$url='http://smayly.net.ru/';

$content = file_get_contents($url);

$content = strip_tags($content); //удаляем html+php

$content = stripslashes ($content); //удаляем слеши

'/[(0-9a-zA-Z_\r\n)]/',//удаляем цифры и латиницу, нижнее подчеркивание, конец строки

'/\ /s',//удаляем двойные пробелы

'/\ /s',//удаляем табуляторы

'/[^(\w)(\s)]/'//подчищаем

$content = preg_replace($patterns,null,$content); //прогоняем регулярки

$content = strtolower($content); //преобразуем в нижний регистр

$content = trim($content); //удаляем пробелы до и после слова

$pieces = explode(" ", $content);

foreach($pieces as $val)

$pos[$val] = @substr_count($content, $val);

foreach($pos as $key => $cal)

if ($cal >= 3 AND strlen($key) >= 4) {

$key повторений $cal, \r\n

смайлы повторений 4,

новости повторений 5,

января повторений 3,

будут повторений 3,

проекта повторений 3,

версия повторений 3,

сайта повторений 7,

сайт повторений 21,

будит повторений 3, - кого будит)? до сих пор стыдно, перед посетителями, за эту ошибку

время повторений 3,

сайте повторений 6,

работ повторений 4,

после повторений 4,

$text = file_get_contents( 'http://smayly.net.ru' );

$text = mb_strtolower( strip_tags( $text ) );

// заменяем все не кириллические символы и не пробелы

// на пробельный символ

// уничтожаем множественные пробелы

$text = preg_replace( $patterns, ' ', $text );

$words = array_unique( explode( ' ', $text ) );

// оставляем только слова, которые не меньше 4х букв

$words = preg_grep( '#[а-я]{4,}#', $words );

foreach( $words as $word ) {

// исключаем схожие слова, добавляя пробел

// исключаем слова, вхождениие которых меньше 3х

if( ( $cnt = substr_count( $text, $word.' ' ) ) < 3 )

echo '', $word, ' повторений: ', $cnt, '';